О прогнозировании в станкостроении
Станкостроение традиционно рассматривается как “материнская отрасль” промышленности. От доступности современных, технологически совершенных станков напрямую зависит эффективность многих других секторов — от машиностроения до приборостроения и высокотехнологичных производств. В условиях мировой экономической конкуренции и санкционных ограничений вопросы развития отечественного станкостроения приобрели особую актуальность:
Читать: https://habr.com/ru/articles/876376/
#ru
@big_data_analysis | Другие наши каналы
Станкостроение традиционно рассматривается как “материнская отрасль” промышленности. От доступности современных, технологически совершенных станков напрямую зависит эффективность многих других секторов — от машиностроения до приборостроения и высокотехнологичных производств. В условиях мировой экономической конкуренции и санкционных ограничений вопросы развития отечественного станкостроения приобрели особую актуальность:
Читать: https://habr.com/ru/articles/876376/
#ru
@big_data_analysis | Другие наши каналы
Сегментация изображений с дефектами для промышленности на основе Unet и TensorFlow
В процессе работы над проектом я решил продолжить решение задачи, которую мы начали на хакатоне от компании «Норникель». Несмотря на то, что в команде не удалось отправить решение из-за технических проблем с фреймворком, я вернулся к задаче и решил её самостоятельно. Это было для меня полезным опытом, так как редко удается поработать с реальными данными с производственного процесса, и я хотел приобрести дополнительные навыки в решении подобных задач.
Читать: https://habr.com/ru/articles/876532/
#ru
@big_data_analysis | Другие наши каналы
В процессе работы над проектом я решил продолжить решение задачи, которую мы начали на хакатоне от компании «Норникель». Несмотря на то, что в команде не удалось отправить решение из-за технических проблем с фреймворком, я вернулся к задаче и решил её самостоятельно. Это было для меня полезным опытом, так как редко удается поработать с реальными данными с производственного процесса, и я хотел приобрести дополнительные навыки в решении подобных задач.
Читать: https://habr.com/ru/articles/876532/
#ru
@big_data_analysis | Другие наши каналы
AI в энтерпайзе
Основные проблемы в корпоративном IT это, как и прежде: инфраструктура, безопасность и работа с данными. В корпоративном секторе столько неэффективности и реакционности, что буст продуктивности, который принесет AI станет каплей в море. Без современной инфраструктуры и стека данных, внедрение AI не отобьет OPEX и тем более CAPEX.
Читать: https://habr.com/ru/articles/876638/
#ru
@big_data_analysis | Другие наши каналы
Основные проблемы в корпоративном IT это, как и прежде: инфраструктура, безопасность и работа с данными. В корпоративном секторе столько неэффективности и реакционности, что буст продуктивности, который принесет AI станет каплей в море. Без современной инфраструктуры и стека данных, внедрение AI не отобьет OPEX и тем более CAPEX.
Читать: https://habr.com/ru/articles/876638/
#ru
@big_data_analysis | Другие наши каналы
Зачем в Look-a-like pseudolabelling (или самый простой метод PU-learning на службе у рекламщиков)
Каждый бизнес хочет меньше платить за рекламу -- и точность таргетирования здесь не на последних ролях. Как быть если вас только сотня-другая примеров ваших клиентов, а хочется получить несколько тысяч, не разорившись на маркетинг?
Публичные подходы к "поиску похожих" (часто говорят Look-a-like) в рекламе (видел их в статьях от рекламных агенств), даже с использованием Machine Learning, не лучшее из возможного.
Рассмотрим как можно сильно улучшить точность моделей в постановке Positive Unlabelled с помощью известного инструмента Pseudolabelling и позволить бизнесу терять в разы меньше денег, дотягиваясь именно до релевантных потенциальных клиентов.
Читать: https://habr.com/ru/articles/876646/
#ru
@big_data_analysis | Другие наши каналы
Каждый бизнес хочет меньше платить за рекламу -- и точность таргетирования здесь не на последних ролях. Как быть если вас только сотня-другая примеров ваших клиентов, а хочется получить несколько тысяч, не разорившись на маркетинг?
Публичные подходы к "поиску похожих" (часто говорят Look-a-like) в рекламе (видел их в статьях от рекламных агенств), даже с использованием Machine Learning, не лучшее из возможного.
Рассмотрим как можно сильно улучшить точность моделей в постановке Positive Unlabelled с помощью известного инструмента Pseudolabelling и позволить бизнесу терять в разы меньше денег, дотягиваясь именно до релевантных потенциальных клиентов.
Читать: https://habr.com/ru/articles/876646/
#ru
@big_data_analysis | Другие наши каналы
👍2
Государственные гранты для IT-проектов или почему финансирование достаётся единицам?
В 2019 г. активизировались Фонды и Министерства, занимающиеся выдачей грантов для IT‑компаний, а с 2022 г. начался российский «IT‑бум». Казалось бы, государство выделяет огромные средства на IT‑проекты, но финансирование получают лишь единицы. Почему? Ошибки у большинства команд типичны. Будем разбираться постепенно и с примерами.
Читать: https://habr.com/ru/articles/876676/
#ru
@big_data_analysis | Другие наши каналы
В 2019 г. активизировались Фонды и Министерства, занимающиеся выдачей грантов для IT‑компаний, а с 2022 г. начался российский «IT‑бум». Казалось бы, государство выделяет огромные средства на IT‑проекты, но финансирование получают лишь единицы. Почему? Ошибки у большинства команд типичны. Будем разбираться постепенно и с примерами.
Читать: https://habr.com/ru/articles/876676/
#ru
@big_data_analysis | Другие наши каналы
👍2
Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло
Привет, Хабр! Меня зовут Михаил Килинский, я — Senior Developer в проекте Data Warehouse «Лаборатории Касперского». Наша команда строит хранилища данных и разрабатывает ETL- и ELT-процессы, мы пишем на Python, SQL и C# (.NET), а весь код находится в монорепозитории.
Гибкие методологии построения хранилищ данных — очень популярный тренд. Причина — возрастающая сложность корпоративных моделей данных и необходимость интеграции большого числа разнородных источников, которые включают в себя не только традиционные СУБД и плоские файлы, но и различные real-time-брокеры сообщений, внешние API и базы данных NoSQL.
В этой статье хочу рассказать, как мы изначально хранили данные, почему решили внедрить методологии Data Lake и Data Vault и к чему это привело. Кроме того, покажу, как мы изобрели свой велосипед разработали свой фреймворк по автоматизации работы с помощью модели Data Vault.
Читать: https://habr.com/ru/articles/876834/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Меня зовут Михаил Килинский, я — Senior Developer в проекте Data Warehouse «Лаборатории Касперского». Наша команда строит хранилища данных и разрабатывает ETL- и ELT-процессы, мы пишем на Python, SQL и C# (.NET), а весь код находится в монорепозитории.
Гибкие методологии построения хранилищ данных — очень популярный тренд. Причина — возрастающая сложность корпоративных моделей данных и необходимость интеграции большого числа разнородных источников, которые включают в себя не только традиционные СУБД и плоские файлы, но и различные real-time-брокеры сообщений, внешние API и базы данных NoSQL.
В этой статье хочу рассказать, как мы изначально хранили данные, почему решили внедрить методологии Data Lake и Data Vault и к чему это привело. Кроме того, покажу, как мы изобрели свой велосипед разработали свой фреймворк по автоматизации работы с помощью модели Data Vault.
Читать: https://habr.com/ru/articles/876834/
#ru
@big_data_analysis | Другие наши каналы
👍2
Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло
Привет, Хабр! Меня зовут Михаил Килинский, я — Senior Developer в проекте Data Warehouse «Лаборатории Касперского». Наша команда строит хранилища данных и разрабатывает ETL- и ELT-процессы, мы пишем на Python, SQL и C# (.NET), а весь код находится в монорепозитории.
Гибкие методологии построения хранилищ данных — очень популярный тренд. Причина — возрастающая сложность корпоративных моделей данных и необходимость интеграции большого числа разнородных источников, которые включают в себя не только традиционные СУБД и плоские файлы, но и различные real-time-брокеры сообщений, внешние API и базы данных NoSQL.
В этой статье хочу рассказать, как мы изначально хранили данные, почему решили внедрить методологии Data Lake и Data Vault и к чему это привело. Кроме того, покажу, как мы изобрели свой велосипед разработали свой фреймворк по автоматизации работы с помощью модели Data Vault.
Читать: https://habr.com/ru/companies/kaspersky/articles/876834/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Меня зовут Михаил Килинский, я — Senior Developer в проекте Data Warehouse «Лаборатории Касперского». Наша команда строит хранилища данных и разрабатывает ETL- и ELT-процессы, мы пишем на Python, SQL и C# (.NET), а весь код находится в монорепозитории.
Гибкие методологии построения хранилищ данных — очень популярный тренд. Причина — возрастающая сложность корпоративных моделей данных и необходимость интеграции большого числа разнородных источников, которые включают в себя не только традиционные СУБД и плоские файлы, но и различные real-time-брокеры сообщений, внешние API и базы данных NoSQL.
В этой статье хочу рассказать, как мы изначально хранили данные, почему решили внедрить методологии Data Lake и Data Vault и к чему это привело. Кроме того, покажу, как мы изобрели свой велосипед разработали свой фреймворк по автоматизации работы с помощью модели Data Vault.
Читать: https://habr.com/ru/companies/kaspersky/articles/876834/
#ru
@big_data_analysis | Другие наши каналы
👍2
Оценка чат-ботов LLM: основные метрики и методы тестирования
В этой статье я научу вас, как оценивать LLM-чат-ботов, чтобы понять, достаточно ли они убедительны, чтобы сойти за реальных людей. Но что еще важнее, вы сможете использовать результаты этой оценки, чтобы понять, как улучшить своего LLM-чат-бота, например, изменив промпт или саму LLM-модель.
В этой статье вы узнаете:
* Разницу между оценкой LLM-чат-ботов/диалогов и стандартной оценкой LLM
* Различные подходы к оценке LLM-диалогов
* Различные типы метрик для оценки LLM-чат-ботов
* Как реализовать оценку LLM-диалогов в коде с использованием DeepEval
Читать: https://habr.com/ru/articles/876584/
#ru
@big_data_analysis | Другие наши каналы
В этой статье я научу вас, как оценивать LLM-чат-ботов, чтобы понять, достаточно ли они убедительны, чтобы сойти за реальных людей. Но что еще важнее, вы сможете использовать результаты этой оценки, чтобы понять, как улучшить своего LLM-чат-бота, например, изменив промпт или саму LLM-модель.
В этой статье вы узнаете:
* Разницу между оценкой LLM-чат-ботов/диалогов и стандартной оценкой LLM
* Различные подходы к оценке LLM-диалогов
* Различные типы метрик для оценки LLM-чат-ботов
* Как реализовать оценку LLM-диалогов в коде с использованием DeepEval
Читать: https://habr.com/ru/articles/876584/
#ru
@big_data_analysis | Другие наши каналы
❤2👍2
Как мы усовершенствовали CDP благодаря агрегатным атрибутам
Постоянный рост конкуренции на рынке вынуждает компании учиться глубже понимать клиентов и адаптировать свои предложения под их потребности. В решении этой задачи маркетологам, аналитикам данных и владельцам бизнеса помогают платформы клиентских данных, которые улучшают персонализацию маркетинговых кампаний и повышают эффективность взаимодействия с клиентами. Под катом мы расскажем, как платформы могут помочь в этом процессе, обсудим концепцию агрегатных атрибутов и их роль в оптимизации работы с данными о клиентах.
Читать: https://habr.com/ru/companies/lanit/articles/875642/
#ru
@big_data_analysis | Другие наши каналы
Постоянный рост конкуренции на рынке вынуждает компании учиться глубже понимать клиентов и адаптировать свои предложения под их потребности. В решении этой задачи маркетологам, аналитикам данных и владельцам бизнеса помогают платформы клиентских данных, которые улучшают персонализацию маркетинговых кампаний и повышают эффективность взаимодействия с клиентами. Под катом мы расскажем, как платформы могут помочь в этом процессе, обсудим концепцию агрегатных атрибутов и их роль в оптимизации работы с данными о клиентах.
Читать: https://habr.com/ru/companies/lanit/articles/875642/
#ru
@big_data_analysis | Другие наши каналы
👍2
Поддержка MDX в Luxms BI: комфортная миграция с Power BI
Сегодня у большинства крупных компаний есть схожая задача: в условиях санкционных рисков, постепенном «отключении» зарубежных систем и политики импортозамещения — перейти на отечественные решения, сохраняя при этом функционал, привычное качество решений и свои наработки.
Меня зовут Алексей Розанов, я руководитель пресейл направления и работы с партнерами ГК Luxms, вендора платформы Luxms BI.
Luxms BI — платформа бизнес-аналитики данных с высочайшим быстродействием и горизонтальной масштабируемостью. У нее мощные функциональные и визуальные возможности, а также быстрая обработка больших объемов данных благодаря своей датацентричной архитектуре. В Реестре российского ПО.
И как человек, который постоянно общается с заказчиками, я прекрасно понимаю, насколько сложным может быть переход с одной системы бизнес-аналитики на другую. Перенос данных, настройка ETL-процессов, интеграция с текущими бизнес-процессами, полная перестройка работы ИТ-служб — всё это требует значительных усилий. А для тех, кто использует Power BI и работает с многомерными кубами, задача усложняется многократно.
В этой статье я расскажу, как Luxms BI помогает нашим клиентам успешно адаптироваться к новым условиям, не теряя в гибкости и эффективности аналитики на примере реализации поддержки MDX-запросов.
Читать: https://habr.com/ru/companies/luxms_bi/articles/877238/
#ru
@big_data_analysis | Другие наши каналы
Сегодня у большинства крупных компаний есть схожая задача: в условиях санкционных рисков, постепенном «отключении» зарубежных систем и политики импортозамещения — перейти на отечественные решения, сохраняя при этом функционал, привычное качество решений и свои наработки.
Меня зовут Алексей Розанов, я руководитель пресейл направления и работы с партнерами ГК Luxms, вендора платформы Luxms BI.
Luxms BI — платформа бизнес-аналитики данных с высочайшим быстродействием и горизонтальной масштабируемостью. У нее мощные функциональные и визуальные возможности, а также быстрая обработка больших объемов данных благодаря своей датацентричной архитектуре. В Реестре российского ПО.
И как человек, который постоянно общается с заказчиками, я прекрасно понимаю, насколько сложным может быть переход с одной системы бизнес-аналитики на другую. Перенос данных, настройка ETL-процессов, интеграция с текущими бизнес-процессами, полная перестройка работы ИТ-служб — всё это требует значительных усилий. А для тех, кто использует Power BI и работает с многомерными кубами, задача усложняется многократно.
В этой статье я расскажу, как Luxms BI помогает нашим клиентам успешно адаптироваться к новым условиям, не теряя в гибкости и эффективности аналитики на примере реализации поддержки MDX-запросов.
Читать: https://habr.com/ru/companies/luxms_bi/articles/877238/
#ru
@big_data_analysis | Другие наши каналы
👍2
Возможности для разработчиков в Oracle Analytics
Oracle Analytics предоставляет инструменты для разработчиков, позволяя анализировать производительность компонентов визуализации. Эти функции доступны пользователям с правами администратора или автора контента, что расширяет возможности анализа и оптимизации данных.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle Analytics предоставляет инструменты для разработчиков, позволяя анализировать производительность компонентов визуализации. Эти функции доступны пользователям с правами администратора или автора контента, что расширяет возможности анализа и оптимизации данных.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Understanding Performance Statistics for Data Visualizations in Oracle Analytics
Oracle Analytics offers developer options that enable you to review performance statistics for visualization components. Developer options are available only to users with administrator or content author privileges.
👍2
Защита данных в Oracle Fusion Data Intelligence
Узнайте, как обеспечить безопасность ваших данных в Oracle Fusion Data Intelligence. Статья предлагает подробные шаги для скрытия конфиденциальных колонок в любой предметной области с помощью объектной безопасности. Откройте для себя эффективные методы защиты данных!
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Узнайте, как обеспечить безопасность ваших данных в Oracle Fusion Data Intelligence. Статья предлагает подробные шаги для скрытия конфиденциальных колонок в любой предметной области с помощью объектной безопасности. Откройте для себя эффективные методы защиты данных!
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Restrict PII Attribute in FDI Subject Area
This will describe steps to hide any sensitive column in a subject area through object level security.
👍2
Проекции в Vertica: что это, как использовать и почему не стоит создавать их под каждый запрос
Иван Якунин, продуктовый аналитик команды Fintech Marketplace, рассказал про то, как в Авито работают с Vertica, и на примерах объяснил, что такое проекции, и когда их стоит использовать.
Читать: «Проекции в Vertica: что это, как использовать и почему не стоит создавать их под каждый запрос»
#ru
@big_data_analysis | Другие наши каналы
Иван Якунин, продуктовый аналитик команды Fintech Marketplace, рассказал про то, как в Авито работают с Vertica, и на примерах объяснил, что такое проекции, и когда их стоит использовать.
Читать: «Проекции в Vertica: что это, как использовать и почему не стоит создавать их под каждый запрос»
#ru
@big_data_analysis | Другие наши каналы
👍2
Алгоритм k-means и метод локтя: кластеризация данных с примерами на Python
Кластеризация данных — одна из ключевых задач машинного обучения. Она позволяет группировать объекты в однородные кластеры на основе их характеристик. Один из самых популярных, простых и эффективных методов кластеризации — это алгоритм k-means.
Рассмотрим, как работает k-means, познакомимся с методом локтя для определения числа кластеров и проиллюстрируем их применение на реальных данных с помощью языка программирования Python.
Читать: https://habr.com/ru/companies/skillfactory/articles/877684/
#ru
@big_data_analysis | Другие наши каналы
Кластеризация данных — одна из ключевых задач машинного обучения. Она позволяет группировать объекты в однородные кластеры на основе их характеристик. Один из самых популярных, простых и эффективных методов кластеризации — это алгоритм k-means.
Рассмотрим, как работает k-means, познакомимся с методом локтя для определения числа кластеров и проиллюстрируем их применение на реальных данных с помощью языка программирования Python.
Читать: https://habr.com/ru/companies/skillfactory/articles/877684/
#ru
@big_data_analysis | Другие наши каналы
👍2
Плюсы и минусы SUMMARIZE
При использовании DAX аналитикам важно следить не только за корректностью результатов, но и за производительностью системы при обработке запросов. Одним из инструментов повышения эффективности является корректное использование функции
Читать: https://habr.com/ru/companies/visiology/articles/877770/
#ru
@big_data_analysis | Другие наши каналы
При использовании DAX аналитикам важно следить не только за корректностью результатов, но и за производительностью системы при обработке запросов. Одним из инструментов повышения эффективности является корректное использование функции
SUMMARIZE
. Всем, кто работает с большими объемами данных, активно изучает синтаксис DAX, а также интересующимся особенностями SUMMARIZE
— добро пожаловать под кат!Читать: https://habr.com/ru/companies/visiology/articles/877770/
#ru
@big_data_analysis | Другие наши каналы
👍2
Apache Flink: использование и автоматическая проверка собственного сериализатора состояния
Привет, Хабр! На связи Александр Бобряков, техлид команды МТС Аналитики. Это мой финальный пост про Apache Flink. В предыдущих частях мы рассматривали процессы сериализации данных, написали кастомный сериализатор, а также покрыли его тестами. В них проверялась поддержка эволюции схемы состояния. Для этого мы реализовали много удобных абстракций, связанных с перезагрузкой Flink MiniCluster, компиляцией тестовых java-классов, использованием их в classpath кластера и так далее.
В этом материале мы применим разработанный сериализатор JacksonStateSerializer в бою, а также автоматизируем проверку эволюции схемы для всех наших классов, участвующих в сериализации.
Весь разбираемый исходный код можно найти в репозитории AlexanderBobryakov/flink-spring. В master-ветке представлен итоговый проект по всей серии. Данная статья соответствует релизной ветке с названием release/11_JacksonEvolvingState. По мере выхода новых материалов на Хабре ссылки на них будут появляться ниже.
Список моих постов про Flink:
Читать: https://habr.com/ru/companies/ru_mts/articles/878070/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! На связи Александр Бобряков, техлид команды МТС Аналитики. Это мой финальный пост про Apache Flink. В предыдущих частях мы рассматривали процессы сериализации данных, написали кастомный сериализатор, а также покрыли его тестами. В них проверялась поддержка эволюции схемы состояния. Для этого мы реализовали много удобных абстракций, связанных с перезагрузкой Flink MiniCluster, компиляцией тестовых java-классов, использованием их в classpath кластера и так далее.
В этом материале мы применим разработанный сериализатор JacksonStateSerializer в бою, а также автоматизируем проверку эволюции схемы для всех наших классов, участвующих в сериализации.
Весь разбираемый исходный код можно найти в репозитории AlexanderBobryakov/flink-spring. В master-ветке представлен итоговый проект по всей серии. Данная статья соответствует релизной ветке с названием release/11_JacksonEvolvingState. По мере выхода новых материалов на Хабре ссылки на них будут появляться ниже.
Список моих постов про Flink:
Читать: https://habr.com/ru/companies/ru_mts/articles/878070/
#ru
@big_data_analysis | Другие наши каналы
Векторизация текста в NLP: от слов к числам
Перед началом работы с NLP-моделями текст нужно преобразовать в понятный модели вид. Этот процесс называется векторизацией, и без него невозможно представить современный NLP. По сути, мы превращаем слова, предложения или целые документы в векторы — наборы чисел, которые отражают определенные характеристики текста.
Рассказываем о векторизации подробнее вместе с экспертом.
Читать: https://habr.com/ru/companies/skillfactory/articles/878112/
#ru
@big_data_analysis | Другие наши каналы
Перед началом работы с NLP-моделями текст нужно преобразовать в понятный модели вид. Этот процесс называется векторизацией, и без него невозможно представить современный NLP. По сути, мы превращаем слова, предложения или целые документы в векторы — наборы чисел, которые отражают определенные характеристики текста.
Рассказываем о векторизации подробнее вместе с экспертом.
Читать: https://habr.com/ru/companies/skillfactory/articles/878112/
#ru
@big_data_analysis | Другие наши каналы
У SAMURAI есть цель — zero-shot решение задачи Visual Object Tracking(VOT)
Визуальный трекинг объектов без обучения – сложная задача, особенно в динамических сценах. Новый метод SAMURAI расширяет возможности SAM-2, интегрируя механизмы моделирования движения и улучшая архитектуру памяти.
SAMURAI использует фильтр Калмана для моделирования движения и стабилизации предсказаний, что позволяет значительно повысить точность трекинга в сложных условиях. Метод превосходит существующие zero-shot методы и демонстрирует конкурентоспособные результаты по сравнению с обучаемыми моделями.
Подробнее об архитектуре SAMURAI
Читать: https://habr.com/ru/articles/878538/
#ru
@big_data_analysis | Другие наши каналы
Визуальный трекинг объектов без обучения – сложная задача, особенно в динамических сценах. Новый метод SAMURAI расширяет возможности SAM-2, интегрируя механизмы моделирования движения и улучшая архитектуру памяти.
SAMURAI использует фильтр Калмана для моделирования движения и стабилизации предсказаний, что позволяет значительно повысить точность трекинга в сложных условиях. Метод превосходит существующие zero-shot методы и демонстрирует конкурентоспособные результаты по сравнению с обучаемыми моделями.
Подробнее об архитектуре SAMURAI
Читать: https://habr.com/ru/articles/878538/
#ru
@big_data_analysis | Другие наши каналы
Приключение по перереносу аналитики из Oracle в Iceberg
Мы начали с простой цели: разобраться в небольших операционных данных из нашей среды Oracle E-Business Suite (OEBS). Сначала всё казалось несложным. У нас был классический data warehouse: пакетная обработка, массовые загрузки и привычная реляционная СУБД. Но по мере того как мы углублялись в проект, казалось бы рутинная задача превратилась в исследование и эксперименты с неожиданными поворотами и поиском чего-то действительно универсального.
Читать: https://habr.com/ru/articles/878764/
#ru
@big_data_analysis | Другие наши каналы
Мы начали с простой цели: разобраться в небольших операционных данных из нашей среды Oracle E-Business Suite (OEBS). Сначала всё казалось несложным. У нас был классический data warehouse: пакетная обработка, массовые загрузки и привычная реляционная СУБД. Но по мере того как мы углублялись в проект, казалось бы рутинная задача превратилась в исследование и эксперименты с неожиданными поворотами и поиском чего-то действительно универсального.
Читать: https://habr.com/ru/articles/878764/
#ru
@big_data_analysis | Другие наши каналы
Как избежать проблем с метриками в вашем хранилище данных
Столкнулись с несоответствием метрик в компании? Проблема возникает, когда разные команды определяют их по-разному, что приводит к путанице. Решение: централизуйте определения метрик в коде. Используйте семантический слой для гибких запросов или заранее агрегированные таблицы для упрощения.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Столкнулись с несоответствием метрик в компании? Проблема возникает, когда разные команды определяют их по-разному, что приводит к путанице. Решение: централизуйте определения метрик в коде. Используйте семантический слой для гибких запросов или заранее агрегированные таблицы для упрощения.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы