Data Engineering Weekly #129
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-129
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-129
Мигрируем с Qlik: как создать надежное хранилище для ваших данных
Последние 12 месяцев много обсуждается тема миграции с ИТ-систем, которые оказались недоступны в России. Во всех компонентах ИТ-инфраструктуры появились критические зоны, которые раньше закрывались международными продуктами и которые нужно срочно переводить на работающие платформы. Не исключением стала и область бизнес-аналитики. Иностранные BI-системы ушли с российского рынка и компании начали интересоваться, на что можно перенести свою аналитическую отчетность.
Меня зовут Александр Гончар и работаю в консалтинговой компании A2 Consulting и для нас тема миграции с зарубежных BI-решений не является новой. За последние пять лет мы реализовали десяток проектов, в которых осуществляли миграцию из аналитических платформ в другие решения, прежде всего, в части хранилищ данных (ХД). Расскажу сегодня об опыте миграции с такого известного BI-инструмента, как Qlik.
Зачем мигрировать с Qlik?
Актуальность миграции данных с платформ QlikView и Qlik Sense, в которых основные данные хранятся в файловом хранилище в виде QVD-файлов, а весь ETL выполняется средствами Qlik, сохранялась из-за нескольких факторов.
Первая причина – желание заказчиков глубже анализировать клиентские данные и пользоваться преимуществами предиктивной аналитики. Параллельно, у компаний из других отраслей существовало несколько систем бизнес-аналитики, и им хотелось пользоваться данными из единого источника.
Читать: https://habr.com/ru/articles/732734/
Последние 12 месяцев много обсуждается тема миграции с ИТ-систем, которые оказались недоступны в России. Во всех компонентах ИТ-инфраструктуры появились критические зоны, которые раньше закрывались международными продуктами и которые нужно срочно переводить на работающие платформы. Не исключением стала и область бизнес-аналитики. Иностранные BI-системы ушли с российского рынка и компании начали интересоваться, на что можно перенести свою аналитическую отчетность.
Меня зовут Александр Гончар и работаю в консалтинговой компании A2 Consulting и для нас тема миграции с зарубежных BI-решений не является новой. За последние пять лет мы реализовали десяток проектов, в которых осуществляли миграцию из аналитических платформ в другие решения, прежде всего, в части хранилищ данных (ХД). Расскажу сегодня об опыте миграции с такого известного BI-инструмента, как Qlik.
Зачем мигрировать с Qlik?
Актуальность миграции данных с платформ QlikView и Qlik Sense, в которых основные данные хранятся в файловом хранилище в виде QVD-файлов, а весь ETL выполняется средствами Qlik, сохранялась из-за нескольких факторов.
Первая причина – желание заказчиков глубже анализировать клиентские данные и пользоваться преимуществами предиктивной аналитики. Параллельно, у компаний из других отраслей существовало несколько систем бизнес-аналитики, и им хотелось пользоваться данными из единого источника.
Читать: https://habr.com/ru/articles/732734/
Как мы организовали Data Warehouse в MANGO OFFICE
Рассказываем, как реорганизовали в MANGO OFFICE корпоративное хранилище данных: какие проблемы решали, какие точки роста находили и какой получился результат.
Читать: https://habr.com/ru/companies/mango_telecom/articles/732820/
Рассказываем, как реорганизовали в MANGO OFFICE корпоративное хранилище данных: какие проблемы решали, какие точки роста находили и какой получился результат.
Читать: https://habr.com/ru/companies/mango_telecom/articles/732820/
Как дать крылья своей сводной таблице в Apache Superset
Эта статья посвящена особенностям доработок в Apache Superset, и в ней я расскажу, как его можно использовать для визуализации больших объемов данных в рамках сводных таблиц.
Хочу читать дальше
Читать: https://habr.com/ru/articles/731216/
Эта статья посвящена особенностям доработок в Apache Superset, и в ней я расскажу, как его можно использовать для визуализации больших объемов данных в рамках сводных таблиц.
Хочу читать дальше
Читать: https://habr.com/ru/articles/731216/
Covid vaccines contain PEDs, according to an athlete
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/05/covid-vaccines-contain-peds-according-to-an-athlete.html
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/05/covid-vaccines-contain-peds-according-to-an-athlete.html
Бустим топ: внедрение ML в ранжирование каталога
Привет! Я Артем Караблинов, data scientist направления ранжирования и навигации в Lamoda Tech. В середине 2021 года мы запустили новый алгоритм ранжирования каталога, основанный на машинном обучении. С его помощью мы добились существенного улучшения продуктовых метрик за счет внедрения learning-to-rank подхода машинного обучения.
Это стало прочной основой перед этапом полностью персонализированного каталога, который мы выпустили в начале 2023 года.
В этой статье я расскажу, почему задача ранжирования каталога важна для бизнеса, как мы построили систему ранжирования каталога на основе ML и перешли на нее с эвристик. Здесь не будет хардкор-подробностей про начинку алгоритмов, но для понимания статьи пригодятся базовые знания ML.
Читать: https://habr.com/ru/companies/lamoda/articles/731542/
Привет! Я Артем Караблинов, data scientist направления ранжирования и навигации в Lamoda Tech. В середине 2021 года мы запустили новый алгоритм ранжирования каталога, основанный на машинном обучении. С его помощью мы добились существенного улучшения продуктовых метрик за счет внедрения learning-to-rank подхода машинного обучения.
Это стало прочной основой перед этапом полностью персонализированного каталога, который мы выпустили в начале 2023 года.
В этой статье я расскажу, почему задача ранжирования каталога важна для бизнеса, как мы построили систему ранжирования каталога на основе ML и перешли на нее с эвристик. Здесь не будет хардкор-подробностей про начинку алгоритмов, но для понимания статьи пригодятся базовые знания ML.
Читать: https://habr.com/ru/companies/lamoda/articles/731542/
Из оператора в Data-инженеры: выверка данных через шаблоны Excel
Всем привет! Меня зовут Ксения, в 2019 году я пришла в СИГМУ оператором по оцифровке ГИС-планшетов с местоположением кабельных линий. В этом материале хочу поделиться своим опытом работы в шаблоне Excel, который помог мне стать экспертом по выверке данных.
Сам шаблон и пошаговые инструкции ниже.
Читать: https://habr.com/ru/companies/sigma/articles/733056/
Всем привет! Меня зовут Ксения, в 2019 году я пришла в СИГМУ оператором по оцифровке ГИС-планшетов с местоположением кабельных линий. В этом материале хочу поделиться своим опытом работы в шаблоне Excel, который помог мне стать экспертом по выверке данных.
Сам шаблон и пошаговые инструкции ниже.
Читать: https://habr.com/ru/companies/sigma/articles/733056/
PySpark для аналитика. Как правильно просить ресурсы и как понять, сколько нужно брать
Александр Ледовский, тимлид команды аналитики и DS в Авито, рассказал про опыт работы с Apache Spark и о том, как правильно задавать параметры Spark-сессии, чтобы получить ресурсы.
Читать: https://habr.com/ru/companies/avito/articles/732870/
Александр Ледовский, тимлид команды аналитики и DS в Авито, рассказал про опыт работы с Apache Spark и о том, как правильно задавать параметры Spark-сессии, чтобы получить ресурсы.
Читать: https://habr.com/ru/companies/avito/articles/732870/
Дайджест Python #8: обновления Django и обучение GPT-4
Собрали дайджест из материалов по Python с 15 по 30 апреля. Узнайте, как подключить AutoGPT проекту, как изменился Django и как обучить GPT-4.
Читать: «Дайджест Python #8: обновления Django и обучение GPT-4»
Собрали дайджест из материалов по Python с 15 по 30 апреля. Узнайте, как подключить AutoGPT проекту, как изменился Django и как обучить GPT-4.
Читать: «Дайджест Python #8: обновления Django и обучение GPT-4»
👍1
How do storytellers use data?
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/05/how-do-storytellers-use-data.html
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/05/how-do-storytellers-use-data.html
Best Practices for Case Statements in Oracle Analytics
This article describes best practices for improving performance with case statements in Oracle Analytics
Read: https://blogs.oracle.com/analytics/post/best-practices-for-case-statements-in-oracle-analytics
This article describes best practices for improving performance with case statements in Oracle Analytics
Read: https://blogs.oracle.com/analytics/post/best-practices-for-case-statements-in-oracle-analytics
Oracle
DC Best Practices for Case Statements in Oracle Analytics
Как мы разрабатывали алгоритм для анализа уникальных посетителей
Привет, Хабр! Мы — Александр Просвирнин, руководитель проектного направления, и Иван Григорьев, старший менеджер продукта центра «Видеонаблюдения и Безопасности» блока по телекоммуникационному бизнесу, работаем в экосистеме МТС.
В этой статье мы расскажем о решении для анализа уникальных посетителей. Опишем недостатки существующих на рынке решений и расскажем, почему надо остановиться именно на видеоаналитике — и что мы сделали для улучшения алгоритмов.
Читать: https://habr.com/ru/companies/ru_mts/articles/733440/
Привет, Хабр! Мы — Александр Просвирнин, руководитель проектного направления, и Иван Григорьев, старший менеджер продукта центра «Видеонаблюдения и Безопасности» блока по телекоммуникационному бизнесу, работаем в экосистеме МТС.
В этой статье мы расскажем о решении для анализа уникальных посетителей. Опишем недостатки существующих на рынке решений и расскажем, почему надо остановиться именно на видеоаналитике — и что мы сделали для улучшения алгоритмов.
Читать: https://habr.com/ru/companies/ru_mts/articles/733440/
Применение методов CRISP-DM для анализа Big Sales Data
Метод обработки данных, полученных в процессе продажи людьми (звонки/встречи), с целью оптимизации воронки, сокращения цикла сделки и увеличения конверсии.
Читать: https://habr.com/ru/articles/733062/
Метод обработки данных, полученных в процессе продажи людьми (звонки/встречи), с целью оптимизации воронки, сокращения цикла сделки и увеличения конверсии.
Читать: https://habr.com/ru/articles/733062/
Data-driven рост с помощью науки о данных и машинного обучения
Машинное обучение меняет способы использования данных компаниями для обеспечения прибыльного роста, предоставляя возможность опередить своих конкурентов. Ведущие игроки на вашем рынке уже используют науку о данных и машинное обучение в частности для принятия более эффективных решений в области маркетинга, продаж и успешного обслуживания клиентов. Еще не поздно воспользоваться этой возможностью - технологические компании могут ускорить свой рост, приняв пять ведущих практик.
Читать: https://habr.com/ru/articles/733672/
Машинное обучение меняет способы использования данных компаниями для обеспечения прибыльного роста, предоставляя возможность опередить своих конкурентов. Ведущие игроки на вашем рынке уже используют науку о данных и машинное обучение в частности для принятия более эффективных решений в области маркетинга, продаж и успешного обслуживания клиентов. Еще не поздно воспользоваться этой возможностью - технологические компании могут ускорить свой рост, приняв пять ведущих практик.
Читать: https://habr.com/ru/articles/733672/
Данные: какие про вас собирают, а какие от вас закрывают?
Государство активно взяло курс на формирование реестра граждан и наполнение его разнородными данными. Про это высказываются самые разные чиновники после главного шага - введения системы "электронных повесток". К этому готовились. Напомню, что именно было сделано в последние два года для сбора максимального объема данных внутри госсистем.
Читать: https://habr.com/ru/articles/733676/
Государство активно взяло курс на формирование реестра граждан и наполнение его разнородными данными. Про это высказываются самые разные чиновники после главного шага - введения системы "электронных повесток". К этому готовились. Напомню, что именно было сделано в последние два года для сбора максимального объема данных внутри госсистем.
Читать: https://habr.com/ru/articles/733676/
👍2
Customize the semantic layer using complex joins in Oracle Fusion Analytics
This article describes how to use complex joins in Fusion Analytics and provide expressions as join conditions.
Read: https://blogs.oracle.com/analytics/post/customize-semantic-layer-using-complex-joins-faw
This article describes how to use complex joins in Fusion Analytics and provide expressions as join conditions.
Read: https://blogs.oracle.com/analytics/post/customize-semantic-layer-using-complex-joins-faw
Oracle
Customize Semantic Layer Using Complex Joins in FDI
This blog post describes the customization of the Semantic Layer using Complex Joins in FDI SaaS application and provide expressions as join conditions.
👍1
Сравнение технологии JuniStat и лазерных систем для беговых тестов
При первой встрече каждый клуб и федерация обычно интересуется точностью измерений, которые может обеспечить технология JuniStat. В рамках пилотного запуска проводятся замеры по определенному привычному и понятному эталону. За последние полгода были проведены тестирования игроков с целью проверки валидности данных по лазерам тремя федерациями и двумя клубами. Мы получили опыт в этой области и хотим им поделиться. Следует отметить, что все валидации прошли успешно, но результаты требовали пояснений. В большинстве случаев первой реакцией было удивление из-за того, что 70-80% результатов совпадают, а оставшиеся 20-30% выглядят как выбросы, но на самом деле они не являются таковыми. Необходимо проанализировать различные способы измерения и выяснить, по каким причинам результаты различаются.
Как измеряют время рывка сейчас?
Читать: https://habr.com/ru/articles/733866/
При первой встрече каждый клуб и федерация обычно интересуется точностью измерений, которые может обеспечить технология JuniStat. В рамках пилотного запуска проводятся замеры по определенному привычному и понятному эталону. За последние полгода были проведены тестирования игроков с целью проверки валидности данных по лазерам тремя федерациями и двумя клубами. Мы получили опыт в этой области и хотим им поделиться. Следует отметить, что все валидации прошли успешно, но результаты требовали пояснений. В большинстве случаев первой реакцией было удивление из-за того, что 70-80% результатов совпадают, а оставшиеся 20-30% выглядят как выбросы, но на самом деле они не являются таковыми. Необходимо проанализировать различные способы измерения и выяснить, по каким причинам результаты различаются.
Как измеряют время рывка сейчас?
Читать: https://habr.com/ru/articles/733866/
Data Engineering Weekly #130
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-130
Read: https://www.dataengineeringweekly.com/p/data-engineering-weekly-130
Game of telephone for data messaging
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/05/game-of-telephone-for-data.html
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/05/game-of-telephone-for-data.html
Ensure consumers of your datasets see only data relevant to them by using role-based filters in Oracle Analytics Cloud
This article provides an overview of role-based filters in the Dataset editor of Oracle Analytics Cloud. It provides examples of how easy it is to create filters during the dataset authoring process that ensure that users see only data relevant to their roles.
Read: https://blogs.oracle.com/analytics/post/ensure-consumers-of-your-datasets-only-see-data-relevant-to-them-by-using-the-role-based-filters-feature-in-oracle-analytics-cloud
This article provides an overview of role-based filters in the Dataset editor of Oracle Analytics Cloud. It provides examples of how easy it is to create filters during the dataset authoring process that ensure that users see only data relevant to their roles.
Read: https://blogs.oracle.com/analytics/post/ensure-consumers-of-your-datasets-only-see-data-relevant-to-them-by-using-the-role-based-filters-feature-in-oracle-analytics-cloud
Oracle
Ensure consumers of your datasets only see data relevant to them by using the Role Based Filters feature in Oracle Analytics Cloud
In this post I will provide an overview of the Role Based Filters feature in the Dataset Editor of Oracle Analytics Cloud. I will give some examples on how easy it is to create filters during the dataset authoring process that will ensure that users only…