ETL и ELT: ключевые различия, о которых должен знать каждый
ETL и ELT — самые широко используемые способы доставки данных из одного или нескольких источников в централизованную систему для удобства доступа и анализа. Обе этих методики состоят из этапов extract (извлечения), transform (преобразования) и load (загрузки). Разница заключается в последовательности действий. Хотя можно подумать, что небольшое изменение в порядке этапов никак не влияет, на самом деле для потока интеграции это меняет всё.
В этом посте мы подробно рассмотрим процессы ETL и ELT, а также сравним их по важным критериям, чтобы вы могли понять, какой лучше подходит для вашего конвейера данных.
Читать: https://habr.com/ru/post/695546/
ETL и ELT — самые широко используемые способы доставки данных из одного или нескольких источников в централизованную систему для удобства доступа и анализа. Обе этих методики состоят из этапов extract (извлечения), transform (преобразования) и load (загрузки). Разница заключается в последовательности действий. Хотя можно подумать, что небольшое изменение в порядке этапов никак не влияет, на самом деле для потока интеграции это меняет всё.
В этом посте мы подробно рассмотрим процессы ETL и ELT, а также сравним их по важным критериям, чтобы вы могли понять, какой лучше подходит для вашего конвейера данных.
Читать: https://habr.com/ru/post/695546/
Операционализация аналитики c инструментами класса reverse ETL – опыт использования Census
Сегодня Операционная аналитика и практики reverse ETL - не столько дань моде, сколько насущная потребность многих компаний. Создать идеальное Хранилище мало, ведь данные создают ценность только тогда, когда вы способны их использовать.
В этой публикации я резюмирую свой опыт выбора решения класса reverse ETL:
— Место reverse ETL в схеме потоков данных
— Потребность в решении задач операционной аналитики
— Различные способы организации reverse ETL
— Кейс: Census для синхронизации данных в Pipedrive CRM
Читать: https://habr.com/ru/post/700910/
Сегодня Операционная аналитика и практики reverse ETL - не столько дань моде, сколько насущная потребность многих компаний. Создать идеальное Хранилище мало, ведь данные создают ценность только тогда, когда вы способны их использовать.
В этой публикации я резюмирую свой опыт выбора решения класса reverse ETL:
— Место reverse ETL в схеме потоков данных
— Потребность в решении задач операционной аналитики
— Различные способы организации reverse ETL
— Кейс: Census для синхронизации данных в Pipedrive CRM
Читать: https://habr.com/ru/post/700910/
👍2
Собрать за 60 секунд: кейс автоматизации получения данных из десятков подразделений
Привет, Хабр! Меня зовут Сергей Корнеев, и я хочу рассказать о том, как мы организовали сбор данных в компании “Россети”. На момент запуска проекта я работал в “Россети.Цифра” и руководил внедрением BI-платформы. Нам с командой удалось решить проблему ручного сбора данных на базе Visiology Smart Forms, и именно об этом я расскажу сегодня.
Читать: https://habr.com/ru/post/700900/
Привет, Хабр! Меня зовут Сергей Корнеев, и я хочу рассказать о том, как мы организовали сбор данных в компании “Россети”. На момент запуска проекта я работал в “Россети.Цифра” и руководил внедрением BI-платформы. Нам с командой удалось решить проблему ручного сбора данных на базе Visiology Smart Forms, и именно об этом я расскажу сегодня.
Читать: https://habr.com/ru/post/700900/
ClickHouse: как обрабатывать big data в 800 раз быстрее
Рассказываем о ClickHouse — инструменте, который позволяет в 800 раз быстрее оценивать big data в метрике сайтов.
Читать: «ClickHouse: как обрабатывать big data в 800 раз быстрее»
Рассказываем о ClickHouse — инструменте, который позволяет в 800 раз быстрее оценивать big data в метрике сайтов.
Читать: «ClickHouse: как обрабатывать big data в 800 раз быстрее»
Ambrosia – Open Source-библиотека для работы с A/B-тестами
Всем привет! На связи Аслан Байрамкулов и Артем Хакимов из Big Data МТС. Мы вывели в OpenSource первую версию библиотеки под названием Ambrosia. Ее назначение – работа с A/B тестами и экспериментами. В этой статье мы расскажем о функционале библиотеки и напомним о ключевых этапах А/Б-тестирования.
Читать: https://habr.com/ru/post/700992/
Всем привет! На связи Аслан Байрамкулов и Артем Хакимов из Big Data МТС. Мы вывели в OpenSource первую версию библиотеки под названием Ambrosia. Ее назначение – работа с A/B тестами и экспериментами. В этой статье мы расскажем о функционале библиотеки и напомним о ключевых этапах А/Б-тестирования.
Читать: https://habr.com/ru/post/700992/
Как составить резюме Junior-аналитику, чтобы на него обратили внимание: секреты от Х5 Tech
Привет, Хабр! Авторы этой статьи работают в команде больших данных в Х5 Tech. Мы решили объединить в статье наш личный опыт отбора кандидатов на позицию начинающего аналитика и дать несколько рекомендаций по составлению качественного резюме. Надеемся, что они окажутся полезными для тех, кто ищет работу своей мечты, и будет совсем здорово, если мы в итоге встретимся в X5 Tech.
Читать: https://habr.com/ru/post/701442/
Привет, Хабр! Авторы этой статьи работают в команде больших данных в Х5 Tech. Мы решили объединить в статье наш личный опыт отбора кандидатов на позицию начинающего аналитика и дать несколько рекомендаций по составлению качественного резюме. Надеемся, что они окажутся полезными для тех, кто ищет работу своей мечты, и будет совсем здорово, если мы в итоге встретимся в X5 Tech.
Читать: https://habr.com/ru/post/701442/
👍3
Парсинг Яндекс Карт или как найти целевую аудиторию
Как написать парсер Яндекс Карт? А также аналитика данных организаций. Поиск целевой аудитории
Читать: https://habr.com/ru/post/701478/
Как написать парсер Яндекс Карт? А также аналитика данных организаций. Поиск целевой аудитории
Читать: https://habr.com/ru/post/701478/
🔥1
Структура команды Data Science: ключевые модели и роли
Если вы следили за мнениями специалистов в data science и прогностической аналитики, то, скорее всего, сталкивались с рекомендациями использовать машинное обучение. Как рекомендует Джеймс Ходсон в Harvard Business Review, умнее всего будет стремиться к решению самой лёгкой задачи, а затем масштабировать процессы на более сложные операции.
Недавно мы обсуждали платформы machine-learning-as-a-service (MLaaS). Основной вывод из современных тенденций прост: машинное обучение становится более доступным для средних и мелких бизнесов, постепенно превращаясь в массовый товар. Ведущие поставщики (Google, Amazon, Microsoft и IBM) предоставляют API и платформы для выполнения основных операций ML без собственной инфраструктуры и большого опыта в data science. На первых этапах самым умным шагом будет выбор такого гибкого и экономного подхода. С ростом возможностей аналитики можно изменять структуру команды для ускорения её работы и расширения арсенала аналитики.
В этот раз мы поговорим о структуре команд data science и их сложности.
Читать: https://habr.com/ru/post/697630/
Если вы следили за мнениями специалистов в data science и прогностической аналитики, то, скорее всего, сталкивались с рекомендациями использовать машинное обучение. Как рекомендует Джеймс Ходсон в Harvard Business Review, умнее всего будет стремиться к решению самой лёгкой задачи, а затем масштабировать процессы на более сложные операции.
Недавно мы обсуждали платформы machine-learning-as-a-service (MLaaS). Основной вывод из современных тенденций прост: машинное обучение становится более доступным для средних и мелких бизнесов, постепенно превращаясь в массовый товар. Ведущие поставщики (Google, Amazon, Microsoft и IBM) предоставляют API и платформы для выполнения основных операций ML без собственной инфраструктуры и большого опыта в data science. На первых этапах самым умным шагом будет выбор такого гибкого и экономного подхода. С ростом возможностей аналитики можно изменять структуру команды для ускорения её работы и расширения арсенала аналитики.
В этот раз мы поговорим о структуре команд data science и их сложности.
Читать: https://habr.com/ru/post/697630/
Анализ больших данных в Excel: используем сводную таблицу для работы с BigQuery, Snowflake и ClickHouse
BigQuery и другие аналитические хранилища в сочетании с современными BI инструментами перевернули работу с данными за последние годы. Возможность обрабатывать терабайты информации за секунды, интерактивные дашборды в DataStudio и PowerBI, сделали работу очень комфортной.
Однако если посмотреть глубже, можно увидеть - выиграли от этих изменений в основном профессионалы, владеющие SQL и Python и бизнес пользователи на руководящих позициях, для которых разрабатываются дашборды.
А как быть с сотнями миллионов сотрудников, для которых главным инструментом анализа был и остается Microsoft Excel?
Читать: https://habr.com/ru/post/701794/
BigQuery и другие аналитические хранилища в сочетании с современными BI инструментами перевернули работу с данными за последние годы. Возможность обрабатывать терабайты информации за секунды, интерактивные дашборды в DataStudio и PowerBI, сделали работу очень комфортной.
Однако если посмотреть глубже, можно увидеть - выиграли от этих изменений в основном профессионалы, владеющие SQL и Python и бизнес пользователи на руководящих позициях, для которых разрабатываются дашборды.
А как быть с сотнями миллионов сотрудников, для которых главным инструментом анализа был и остается Microsoft Excel?
Читать: https://habr.com/ru/post/701794/
Data Engineering Weekly #109
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-109
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-109
👍1
Поиск инновационных приложений для работы с большими данными. Кейс Банка Даляня
Привет, Хабр! Команда Business Intelligence GlowByte уже рассказывала, что в этом году стала партнёром китайского разработчика ПО для бизнес-аналитики FanRuan. В рамках сотрудничества вендор любезно поделился статьёй, в которой подробно рассказывает об успешном внедрении платформы FineBI в крупном коммерческом банке Китая. Мы перевели материал, нашли этот кейс полезным и показательным и хотим рассказать о нём вам.
Для желающих взглянуть на первоисточник – ссылка на оригинал. Итак, дальше по тексту – кейс Банка Даляня: “Поиск инновационных приложений для работы с большими данными в рамках усиления технологического и операционного взаимодействия”.
Читать перевод статьи
Читать: https://habr.com/ru/post/702182/
Привет, Хабр! Команда Business Intelligence GlowByte уже рассказывала, что в этом году стала партнёром китайского разработчика ПО для бизнес-аналитики FanRuan. В рамках сотрудничества вендор любезно поделился статьёй, в которой подробно рассказывает об успешном внедрении платформы FineBI в крупном коммерческом банке Китая. Мы перевели материал, нашли этот кейс полезным и показательным и хотим рассказать о нём вам.
Для желающих взглянуть на первоисточник – ссылка на оригинал. Итак, дальше по тексту – кейс Банка Даляня: “Поиск инновационных приложений для работы с большими данными в рамках усиления технологического и операционного взаимодействия”.
Читать перевод статьи
Читать: https://habr.com/ru/post/702182/
👍1
Дельта BI глазами (и руками) разработчика Tableau
Уже больше полгода назад крупнейшие BI вендоры прекратили работу в России. Мы в компании Vizuators, имея многолетний опыт разработки и консалтинга в Tableau, столкнулись с необходимостью тестировать альтернативные инструменты, которые подошли бы нашим клиентам.
Одним из наиболее привлекательных для нас вариантов стала платформа визуальной аналитики Дельта BI. Под катом мы говорим о том, что получит и потеряет «таблошник», перейдя на Дельта BI.
Читать: https://habr.com/ru/post/702660/
Уже больше полгода назад крупнейшие BI вендоры прекратили работу в России. Мы в компании Vizuators, имея многолетний опыт разработки и консалтинга в Tableau, столкнулись с необходимостью тестировать альтернативные инструменты, которые подошли бы нашим клиентам.
Одним из наиболее привлекательных для нас вариантов стала платформа визуальной аналитики Дельта BI. Под катом мы говорим о том, что получит и потеряет «таблошник», перейдя на Дельта BI.
Читать: https://habr.com/ru/post/702660/
Top 5 Tips for Optimal Oracle Database Performance of Data Warehouse Queries
Achieving optimal performance of data warehouse queries takes planning. This article provides the top 5 tips to achieve the consistent, reliable performance of your Oracle Analytics reports that you desire.
Read: https://blogs.oracle.com/analytics/post/top-5-tips-for-optimal-oracle-database-performance-of-data-warehouse-queries
Achieving optimal performance of data warehouse queries takes planning. This article provides the top 5 tips to achieve the consistent, reliable performance of your Oracle Analytics reports that you desire.
Read: https://blogs.oracle.com/analytics/post/top-5-tips-for-optimal-oracle-database-performance-of-data-warehouse-queries
Oracle
Top 5 Tips for Optimal Oracle Database Performance of Data Warehouse Queries
Achieving optimal performance of data warehouse queries doesn’t happen by accident. In this blog, I will provide the top 5 tips to achieve the consistent, reliable performance of your Oracle Analytics reports that you desire.
Five new features in the Dataset Editor to improve your data preparation productivity!
This post covers five new features in the Oracle Analytics Dataset Editor that help you spend less time preparing your data and more time analyzing and finding insights.
Read: https://blogs.oracle.com/analytics/post/five-new-features-in-dataset-editor-to-improve-your-data-preparation-productivity
This post covers five new features in the Oracle Analytics Dataset Editor that help you spend less time preparing your data and more time analyzing and finding insights.
Read: https://blogs.oracle.com/analytics/post/five-new-features-in-dataset-editor-to-improve-your-data-preparation-productivity
👍1
Query your OAC semantic model from an OCI Data Science environment
Use your semantic model in Oracle Analytics Cloud as a metrics store to query verified measures from a data science notebook session in Oracle Cloud Infrastructure.
Read: https://blogs.oracle.com/analytics/post/query-your-oac-semantic-model-from-oci-data-science-environment
Use your semantic model in Oracle Analytics Cloud as a metrics store to query verified measures from a data science notebook session in Oracle Cloud Infrastructure.
Read: https://blogs.oracle.com/analytics/post/query-your-oac-semantic-model-from-oci-data-science-environment
Oracle
Query your OAC semantic model from OCI Data Science environment
Use your OAC semantic model as a metrics store to query verified measures from a data science notebook session.
Выбросьте блокноты, или почему заниматься Data Science нужно так, будто вы разработчик
Большинство дата-сайентистов использовали или до сих пор используют notebooks. В чем-то это здорово, но кажется, что дата-сайентисты должны действовать как разработчики. И поэтому с notebooks надо переходить на скрипты, разрабатываемые в IDE.
Читать: https://habr.com/ru/post/702798/
Большинство дата-сайентистов использовали или до сих пор используют notebooks. В чем-то это здорово, но кажется, что дата-сайентисты должны действовать как разработчики. И поэтому с notebooks надо переходить на скрипты, разрабатываемые в IDE.
Читать: https://habr.com/ru/post/702798/
НЕЙРОННАЯ СЕТЬ ДЛЯ РАСПОЗНАВАНИЯ ОБРАЗОВ С TENSORFLOW: КАК С НЕЙ РАБОТАТЬ
Привет, Хабр! В сегодняшней статье хотим поделиться опытом, как можно начать использовать TensorFlow в целях распознавания образов. Напомним, что TensorFlow — открытая программная библиотека для машинного обучения, разработанная компанией Google для решения задач построения и тренировки нейронной сети с целью автоматического нахождения и классификации образов, достигающая качества человеческого восприятия.
Цель статьи — привлечь этот инструмент для распознавания боковых зубов (маляров) на рентгеновских снимках с использованием нейронной сети. Для того чтобы этого достичь, нужно выполнить несколько важных этапов, о чём и поговорим под катом.
Читать: https://habr.com/ru/post/703130/
Привет, Хабр! В сегодняшней статье хотим поделиться опытом, как можно начать использовать TensorFlow в целях распознавания образов. Напомним, что TensorFlow — открытая программная библиотека для машинного обучения, разработанная компанией Google для решения задач построения и тренировки нейронной сети с целью автоматического нахождения и классификации образов, достигающая качества человеческого восприятия.
Цель статьи — привлечь этот инструмент для распознавания боковых зубов (маляров) на рентгеновских снимках с использованием нейронной сети. Для того чтобы этого достичь, нужно выполнить несколько важных этапов, о чём и поговорим под катом.
Читать: https://habr.com/ru/post/703130/
Beneath the surface of recent Google, Elon, FCC news
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/12/beneath-the-surface-of-recent-google-elon-fcc-news-.html
Read: https://junkcharts.typepad.com/numbersruleyourworld/2022/12/beneath-the-surface-of-recent-google-elon-fcc-news-.html
Эффективная работа со строками в JavaScript
Хочу предложить вашему вниманию перевод своей статьи на dev.to об эффективной работе со строками в Javascript. Все что отображает браузер кроме картинок и видео это строки, поэтому грамотная работа с ними может значительно увеличить скорость работы веб-приложений как на стороне клиента так и на стороне сервера. Итак, начнем.
Что нужно знать о строках с позиции эффективности их использования? Во первых, строки относятся к примитивным типам данных. Во вторых, значения примитивных (простых) типов данных, в отличии от составных, таких как массивы и структуры не изменяемы. Это значит, что если вы присвоили значение переменной строкового типа один раз, то в дальнейшем эту строку изменить невозможно. Однако такое утверждение может удивить. Что это значит на практике? Если, например, выполнить этот код...
Читать: https://habr.com/ru/post/703238/
Хочу предложить вашему вниманию перевод своей статьи на dev.to об эффективной работе со строками в Javascript. Все что отображает браузер кроме картинок и видео это строки, поэтому грамотная работа с ними может значительно увеличить скорость работы веб-приложений как на стороне клиента так и на стороне сервера. Итак, начнем.
Что нужно знать о строках с позиции эффективности их использования? Во первых, строки относятся к примитивным типам данных. Во вторых, значения примитивных (простых) типов данных, в отличии от составных, таких как массивы и структуры не изменяемы. Это значит, что если вы присвоили значение переменной строкового типа один раз, то в дальнейшем эту строку изменить невозможно. Однако такое утверждение может удивить. Что это значит на практике? Если, например, выполнить этот код...
Читать: https://habr.com/ru/post/703238/
Прогнозирование продаж Python. Как находить и сглаживать выбросы с помощью фильтра Хэмплея
Те, кто работает с временными рядами, часто сталкивается с двумя проблемами. Первая – нет полных данных. Вторая – битые данные, когда встречается много выбросов, шума и пропусков. Редко встречаются случаи, когда всё было бы идеально. И данных много, и можно легко найти нужные. Такое встретишь крайне редко или почти никогда.
Возникает вопрос - как решить эту проблему? Я нашёл решение. Давайте расскажу вам, как я решаю проблему битых данных, выбросов, пропусков. Какие я использовал методы, в чем их отличия, преимущества и какие я считаю самыми лучшими.
Начнём мы с первого метода – фильтра Хэмплея. В этой статье речь пойдёт именно о нём. Я постараюсь как можно проще рассказать о его особенностях и показать всё на наглядных примерах. Приступим.
Читать: https://habr.com/ru/post/703246/
Те, кто работает с временными рядами, часто сталкивается с двумя проблемами. Первая – нет полных данных. Вторая – битые данные, когда встречается много выбросов, шума и пропусков. Редко встречаются случаи, когда всё было бы идеально. И данных много, и можно легко найти нужные. Такое встретишь крайне редко или почти никогда.
Возникает вопрос - как решить эту проблему? Я нашёл решение. Давайте расскажу вам, как я решаю проблему битых данных, выбросов, пропусков. Какие я использовал методы, в чем их отличия, преимущества и какие я считаю самыми лучшими.
Начнём мы с первого метода – фильтра Хэмплея. В этой статье речь пойдёт именно о нём. Я постараюсь как можно проще рассказать о его особенностях и показать всё на наглядных примерах. Приступим.
Читать: https://habr.com/ru/post/703246/
👍2
Как я писал трекинг парковочных мест
Рассказываю, как я делал трекинг свободных парковочных мест руками новичка. Получилось интересно :)
Читать: https://habr.com/ru/post/703276/
Рассказываю, как я делал трекинг свободных парковочных мест руками новичка. Получилось интересно :)
Читать: https://habr.com/ru/post/703276/