Опыт разработки и внедрения универсального коллектора для интеграции КХД с Kafka
Привет, Хабр!
В этой статье хочу поделиться нашим опытом интеграции с Kafka.
В Мегафоне несколько десятков сервисов являются потребителями данных, публикуемых в кластерах Kafka. Все они разрабатывались под узкоспециализированные задачи.
В какой-то момент в нашем КХД также появилась необходимость интеграции с Kafka.
При разработке первой интеграции мы пошли традиционным путем и использовали Kafka Connect для Confluent 6.0.1. Сообщения, читаемые коннектором, перекладывались в Hadoop. Далее в PySpark выполнялся парсинг нужных данных, и полученные пачки выгружались в Oracle Exadata.
Но на этапе опытно-промышленной эксплуатации у нас возникли проблемы с производительностью из-за большого объема читаемых данных: ~100-110 млн сообщений в час (поток со звонками абонентов). Также было требование от бизнеса - данные в конечной витрине должны появляться с задержкой не более часа. Оптимизация интеграции затянулась еще на пару месяцев.
В итоге решение, которое мы внедрили в пром, не в полной мере устроило нас. Сложная реализация подразумевала необходимость привлекать на его дальнейшую доработку дефицитных экспертов.
Тем временем, перед нами встала задача разработки еще нескольких интеграций с Kafka.
Было очевидно, что требуется какое-то решение, которое не только ускоряло бы внедрение, исключая рутинную разработку, но и позволяло реализовать стандартную для таких интеграций батчевую выгрузку считанных сообщений в разные БД (Oracle/Hive/ClickHouse и в перспективе в Greenplum). И кроме того, умело выполнять предварительную обработку данных на лету (парсинг и трансформацию значений заданных атрибутов).
Читать: https://habr.com/ru/companies/megafon/articles/951788/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр!
В этой статье хочу поделиться нашим опытом интеграции с Kafka.
В Мегафоне несколько десятков сервисов являются потребителями данных, публикуемых в кластерах Kafka. Все они разрабатывались под узкоспециализированные задачи.
В какой-то момент в нашем КХД также появилась необходимость интеграции с Kafka.
При разработке первой интеграции мы пошли традиционным путем и использовали Kafka Connect для Confluent 6.0.1. Сообщения, читаемые коннектором, перекладывались в Hadoop. Далее в PySpark выполнялся парсинг нужных данных, и полученные пачки выгружались в Oracle Exadata.
Но на этапе опытно-промышленной эксплуатации у нас возникли проблемы с производительностью из-за большого объема читаемых данных: ~100-110 млн сообщений в час (поток со звонками абонентов). Также было требование от бизнеса - данные в конечной витрине должны появляться с задержкой не более часа. Оптимизация интеграции затянулась еще на пару месяцев.
В итоге решение, которое мы внедрили в пром, не в полной мере устроило нас. Сложная реализация подразумевала необходимость привлекать на его дальнейшую доработку дефицитных экспертов.
Тем временем, перед нами встала задача разработки еще нескольких интеграций с Kafka.
Было очевидно, что требуется какое-то решение, которое не только ускоряло бы внедрение, исключая рутинную разработку, но и позволяло реализовать стандартную для таких интеграций батчевую выгрузку считанных сообщений в разные БД (Oracle/Hive/ClickHouse и в перспективе в Greenplum). И кроме того, умело выполнять предварительную обработку данных на лету (парсинг и трансформацию значений заданных атрибутов).
Читать: https://habr.com/ru/companies/megafon/articles/951788/
#ru
@big_data_analysis | Другие наши каналы
👍1
Business Intelligence (BI) в эпоху ИИ
ИИ заставляет нас, аналитиков, посмотреть на себя в зеркало и задаться вопросом: какова ценность создания и распространения графиков и диаграмм вручную?
Автор перевода: Snezhana Kiseleva
Читать: https://habr.com/ru/articles/951464/
#ru
@big_data_analysis | Другие наши каналы
ИИ заставляет нас, аналитиков, посмотреть на себя в зеркало и задаться вопросом: какова ценность создания и распространения графиков и диаграмм вручную?
Автор перевода: Snezhana Kiseleva
Читать: https://habr.com/ru/articles/951464/
#ru
@big_data_analysis | Другие наши каналы
IT-лидеры видят большой бизнес-потенциал в малых моделях ИИ
ИТ-лидеры видят большой бизнес-потенциал в малых моделях ИИ благодаря гибкости, низкой стоимости и нацеленности на конкретные задачи малые языковые модели (SLM) лучше подходят для бизнес-специфичных приложений и вскоре могут обойти LLM по использованию в корпоративной среде.
Читать: https://habr.com/ru/articles/951498/
#ru
@big_data_analysis | Другие наши каналы
ИТ-лидеры видят большой бизнес-потенциал в малых моделях ИИ благодаря гибкости, низкой стоимости и нацеленности на конкретные задачи малые языковые модели (SLM) лучше подходят для бизнес-специфичных приложений и вскоре могут обойти LLM по использованию в корпоративной среде.
Читать: https://habr.com/ru/articles/951498/
#ru
@big_data_analysis | Другие наши каналы
Можно ли DAX-запрос превратить в SQL? Да, и сейчас я покажу, как (и зачем)
Аналитика, Power BI, DAX, SQL, Базы данных
Каждый, кто перешел в Power BI из мира баз данных или просто имеет за плечами опыт работы с SQL, наверняка задавался этим вопросом. Пишешь очередную навороченную меру на DAX, смотришь на результат и думаешь: «А как бы эта магия выглядела на старом добром, понятном SQL?».
Хватит гадать. Короткий ответ: да, это возможно, но это не прямой перевод с одного языка на другой. Забудьте о волшебном онлайн-конвертере, который сделает всё за вас. Это ручной процесс, требующий анализа и понимания.
Читать: https://habr.com/ru/articles/953108/
#ru
@big_data_analysis | Другие наши каналы
Аналитика, Power BI, DAX, SQL, Базы данных
Каждый, кто перешел в Power BI из мира баз данных или просто имеет за плечами опыт работы с SQL, наверняка задавался этим вопросом. Пишешь очередную навороченную меру на DAX, смотришь на результат и думаешь: «А как бы эта магия выглядела на старом добром, понятном SQL?».
Хватит гадать. Короткий ответ: да, это возможно, но это не прямой перевод с одного языка на другой. Забудьте о волшебном онлайн-конвертере, который сделает всё за вас. Это ручной процесс, требующий анализа и понимания.
Читать: https://habr.com/ru/articles/953108/
#ru
@big_data_analysis | Другие наши каналы
👍2
Data Drift в ML Страхового Дома ВСК: от PSI-анализа до пересборки фичей и сравнения моделей
Представьте: ваша модель машинного обучения, блестяще прошедшая все A/B-тесты, через полгода начинает тихо, но уверенно деградировать. Предсказания становятся менее точными, бизнес-метрики ползут вниз, а вы не понимаете, почему. Знакомо? Скорее всего, вы столкнулись с Data Drift — смещением данных.
Data Drift — это изменение распределения входных данных модели с течением времени. Мир не статичен: меняются привычки клиентов, экономическая ситуация, законодательство. Модель, обученная на «старых» данных, оказывается не готова к «новым». В страховой сфере, где риски и деньги напрямую связаны, это особенно критично. Ошибка в оценке убыточности полиса может стоить компании миллионов.
В этой статье я на реальном примере разберу, как:
Читать и обсуждать
Читать: https://habr.com/ru/companies/vsk_insurance/articles/953162/
#ru
@big_data_analysis | Другие наши каналы
Представьте: ваша модель машинного обучения, блестяще прошедшая все A/B-тесты, через полгода начинает тихо, но уверенно деградировать. Предсказания становятся менее точными, бизнес-метрики ползут вниз, а вы не понимаете, почему. Знакомо? Скорее всего, вы столкнулись с Data Drift — смещением данных.
Data Drift — это изменение распределения входных данных модели с течением времени. Мир не статичен: меняются привычки клиентов, экономическая ситуация, законодательство. Модель, обученная на «старых» данных, оказывается не готова к «новым». В страховой сфере, где риски и деньги напрямую связаны, это особенно критично. Ошибка в оценке убыточности полиса может стоить компании миллионов.
В этой статье я на реальном примере разберу, как:
Читать и обсуждать
Читать: https://habr.com/ru/companies/vsk_insurance/articles/953162/
#ru
@big_data_analysis | Другие наши каналы
Media is too big
VIEW IN TELEGRAM
One Day Offer в команду Kandinsky!
Ребята приглашают вас пройти отбор на One Day Offer для DL- и Researcher-инженеров, чтобы вместе:
• Разрабатывать и внедрять техники ускорения инференса.
• Использовать и дорабатывать существующие ML-компиляторы.
• Улучшать процессы обучения с помощью исследований.
Заинтригованы? Тогда регистрируйтесь по ссылке и ждите 4 октября, пока для вас готовят рабочее место!
Это #партнёрский пост
Ребята приглашают вас пройти отбор на One Day Offer для DL- и Researcher-инженеров, чтобы вместе:
• Разрабатывать и внедрять техники ускорения инференса.
• Использовать и дорабатывать существующие ML-компиляторы.
• Улучшать процессы обучения с помощью исследований.
Заинтригованы? Тогда регистрируйтесь по ссылке и ждите 4 октября, пока для вас готовят рабочее место!
Это #партнёрский пост
Почему не стоит заменять пустые значения нулями в Power BI
Вас просили заменить пустые значения нулями в отчетах? Возможно, стоит дважды подумать, прежде чем это делать!
Читать: https://habr.com/ru/articles/951458/
#ru
@big_data_analysis | Другие наши каналы
Вас просили заменить пустые значения нулями в отчетах? Возможно, стоит дважды подумать, прежде чем это делать!
Читать: https://habr.com/ru/articles/951458/
#ru
@big_data_analysis | Другие наши каналы
👍1
Что такое DWH и зачем оно нужно бизнесу?
Всем привет! Сегодня рассмотрим, что из себя представляет Data Warehouse и зачем оно нужно вашему бизнесу.
Статья рассчитана на то, чтобы дать общее представление широкой аудитории, так что возможны упрощения и небольшие неточности – буду рада подискутировать о них в комментариях, если вы заметите их.
Подробнее о DWH
Читать: https://habr.com/ru/companies/otus/articles/950328/
#ru
@big_data_analysis | Другие наши каналы
Всем привет! Сегодня рассмотрим, что из себя представляет Data Warehouse и зачем оно нужно вашему бизнесу.
Статья рассчитана на то, чтобы дать общее представление широкой аудитории, так что возможны упрощения и небольшие неточности – буду рада подискутировать о них в комментариях, если вы заметите их.
Подробнее о DWH
Читать: https://habr.com/ru/companies/otus/articles/950328/
#ru
@big_data_analysis | Другие наши каналы
👍2
Байесовский анализ и временные ряды в прогнозировании отказов оборудования на примере нефтегазовых компаний
Предсказание отказов оборудования в нефтегазовой отрасли задача, которая напрямую связана с деньгами и безопасностью. Простои установки стоят миллионы, а аварии могут привести к еще большим потерям. В компаниях вроде X и Z тема предиктивного обслуживания обсуждается не ради модернизации ради самой модернизации, а потому что каждый дополнительный час работы без поломки снижает затраты.
В отличие от прогнозирования спроса или продаж, где данных много и повторяются стандартные паттерны, с отказами все иначе. Оборудование способно работать месяцами без проблем, а потом неожиданно ломается. Получается, что у нас есть длинная история "все было нормально" и очень мало записей про то, как и когда все же что-то сломалось.
Читать: https://habr.com/ru/articles/953298/
#ru
@big_data_analysis | Другие наши каналы
Предсказание отказов оборудования в нефтегазовой отрасли задача, которая напрямую связана с деньгами и безопасностью. Простои установки стоят миллионы, а аварии могут привести к еще большим потерям. В компаниях вроде X и Z тема предиктивного обслуживания обсуждается не ради модернизации ради самой модернизации, а потому что каждый дополнительный час работы без поломки снижает затраты.
В отличие от прогнозирования спроса или продаж, где данных много и повторяются стандартные паттерны, с отказами все иначе. Оборудование способно работать месяцами без проблем, а потом неожиданно ломается. Получается, что у нас есть длинная история "все было нормально" и очень мало записей про то, как и когда все же что-то сломалось.
Читать: https://habr.com/ru/articles/953298/
#ru
@big_data_analysis | Другие наши каналы