Разбираемся в профессиях: Data Analyst, Data Engineer, Analytics Engineer и BI Engineer
Кто вы в мире данных — аналитик, BI-разработчик или Data Engineer? 🔍 Разбираем реальные роли и показываем, чем они отличаются на практике.
Читать: https://habr.com/ru/articles/951454/
#ru
@big_data_analysis | Другие наши каналы
Кто вы в мире данных — аналитик, BI-разработчик или Data Engineer? 🔍 Разбираем реальные роли и показываем, чем они отличаются на практике.
Читать: https://habr.com/ru/articles/951454/
#ru
@big_data_analysis | Другие наши каналы
Домен-специфичные LLM: как сделать ИИ реально полезным для вашего бизнеса
Универсальные модели вроде GPT хорошо справляются с широким классом задач, но буксуют в узких доменах. Они не знают специфику нишевых индустрий, их жаргон и не имеют доступа к проприетарным знаниям, которые делают ваш бизнес уникальным. Когда нужна система ИИ, которая действительно «понимает» именно вашу предметную область, стоит выбирать домен-специфичные LLM (DSLM).
Читать: https://habr.com/ru/articles/951482/
#ru
@big_data_analysis | Другие наши каналы
Универсальные модели вроде GPT хорошо справляются с широким классом задач, но буксуют в узких доменах. Они не знают специфику нишевых индустрий, их жаргон и не имеют доступа к проприетарным знаниям, которые делают ваш бизнес уникальным. Когда нужна система ИИ, которая действительно «понимает» именно вашу предметную область, стоит выбирать домен-специфичные LLM (DSLM).
Читать: https://habr.com/ru/articles/951482/
#ru
@big_data_analysis | Другие наши каналы
GitOps для Airflow: как мы перешли на лёгкий K8s-native Argo Workflows
Привет! Меня зовут Александр Егоров, я MLOps-инженер в Альфа-Банке, куда попал через проект компании KTS.
За свою карьеру я построил четыре ML-платформы (одна из которых сейчас в Росреестре) и развиваю с командой пятую. Параллельно учусь в ИТМО по направлению «Безопасность искусственного интеллекта».
В этой статье я немного покритикую Airflow и поделюсь нашей историей миграции на связку Argo Workflows и Argo CD. Spoiler alert: технические подробности и результаты в наличии.
Читать: https://habr.com/ru/companies/alfa/articles/947754/
#ru
@big_data_analysis | Другие наши каналы
Привет! Меня зовут Александр Егоров, я MLOps-инженер в Альфа-Банке, куда попал через проект компании KTS.
За свою карьеру я построил четыре ML-платформы (одна из которых сейчас в Росреестре) и развиваю с командой пятую. Параллельно учусь в ИТМО по направлению «Безопасность искусственного интеллекта».
В этой статье я немного покритикую Airflow и поделюсь нашей историей миграции на связку Argo Workflows и Argo CD. Spoiler alert: технические подробности и результаты в наличии.
Читать: https://habr.com/ru/companies/alfa/articles/947754/
#ru
@big_data_analysis | Другие наши каналы
Переход с Oracle EBS на Oracle Fusion Cloud связан с вызовами в обеспечении соответствия, сохранении данных и объединённой отчётности. В статье рассказывается о стратегиях интеграции старых и новых систем для поддержки бизнеса и принятия решений.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Unlocking Legacy EBS Data for Oracle Fusion Cloud
As enterprises migrate from Oracle E-Business Suite (EBS) to Oracle Fusion Cloud, they face critical challenges around compliance, data retention,and unified reporting. Ensuring seamless access to historical EBS data while unlocking the advanced capabilities…
Опыт разработки и внедрения универсального коллектора для интеграции КХД с Kafka
Привет, Хабр!
В этой статье хочу поделиться нашим опытом интеграции с Kafka.
В Мегафоне несколько десятков сервисов являются потребителями данных, публикуемых в кластерах Kafka. Все они разрабатывались под узкоспециализированные задачи.
В какой-то момент в нашем КХД также появилась необходимость интеграции с Kafka.
При разработке первой интеграции мы пошли традиционным путем и использовали Kafka Connect для Confluent 6.0.1. Сообщения, читаемые коннектором, перекладывались в Hadoop. Далее в PySpark выполнялся парсинг нужных данных, и полученные пачки выгружались в Oracle Exadata.
Но на этапе опытно-промышленной эксплуатации у нас возникли проблемы с производительностью из-за большого объема читаемых данных: ~100-110 млн сообщений в час (поток со звонками абонентов). Также было требование от бизнеса - данные в конечной витрине должны появляться с задержкой не более часа. Оптимизация интеграции затянулась еще на пару месяцев.
В итоге решение, которое мы внедрили в пром, не в полной мере устроило нас. Сложная реализация подразумевала необходимость привлекать на его дальнейшую доработку дефицитных экспертов.
Тем временем, перед нами встала задача разработки еще нескольких интеграций с Kafka.
Было очевидно, что требуется какое-то решение, которое не только ускоряло бы внедрение, исключая рутинную разработку, но и позволяло реализовать стандартную для таких интеграций батчевую выгрузку считанных сообщений в разные БД (Oracle/Hive/ClickHouse и в перспективе в Greenplum). И кроме того, умело выполнять предварительную обработку данных на лету (парсинг и трансформацию значений заданных атрибутов).
Читать: https://habr.com/ru/companies/megafon/articles/951788/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр!
В этой статье хочу поделиться нашим опытом интеграции с Kafka.
В Мегафоне несколько десятков сервисов являются потребителями данных, публикуемых в кластерах Kafka. Все они разрабатывались под узкоспециализированные задачи.
В какой-то момент в нашем КХД также появилась необходимость интеграции с Kafka.
При разработке первой интеграции мы пошли традиционным путем и использовали Kafka Connect для Confluent 6.0.1. Сообщения, читаемые коннектором, перекладывались в Hadoop. Далее в PySpark выполнялся парсинг нужных данных, и полученные пачки выгружались в Oracle Exadata.
Но на этапе опытно-промышленной эксплуатации у нас возникли проблемы с производительностью из-за большого объема читаемых данных: ~100-110 млн сообщений в час (поток со звонками абонентов). Также было требование от бизнеса - данные в конечной витрине должны появляться с задержкой не более часа. Оптимизация интеграции затянулась еще на пару месяцев.
В итоге решение, которое мы внедрили в пром, не в полной мере устроило нас. Сложная реализация подразумевала необходимость привлекать на его дальнейшую доработку дефицитных экспертов.
Тем временем, перед нами встала задача разработки еще нескольких интеграций с Kafka.
Было очевидно, что требуется какое-то решение, которое не только ускоряло бы внедрение, исключая рутинную разработку, но и позволяло реализовать стандартную для таких интеграций батчевую выгрузку считанных сообщений в разные БД (Oracle/Hive/ClickHouse и в перспективе в Greenplum). И кроме того, умело выполнять предварительную обработку данных на лету (парсинг и трансформацию значений заданных атрибутов).
Читать: https://habr.com/ru/companies/megafon/articles/951788/
#ru
@big_data_analysis | Другие наши каналы
👍1
Business Intelligence (BI) в эпоху ИИ
ИИ заставляет нас, аналитиков, посмотреть на себя в зеркало и задаться вопросом: какова ценность создания и распространения графиков и диаграмм вручную?
Автор перевода: Snezhana Kiseleva
Читать: https://habr.com/ru/articles/951464/
#ru
@big_data_analysis | Другие наши каналы
ИИ заставляет нас, аналитиков, посмотреть на себя в зеркало и задаться вопросом: какова ценность создания и распространения графиков и диаграмм вручную?
Автор перевода: Snezhana Kiseleva
Читать: https://habr.com/ru/articles/951464/
#ru
@big_data_analysis | Другие наши каналы
IT-лидеры видят большой бизнес-потенциал в малых моделях ИИ
ИТ-лидеры видят большой бизнес-потенциал в малых моделях ИИ благодаря гибкости, низкой стоимости и нацеленности на конкретные задачи малые языковые модели (SLM) лучше подходят для бизнес-специфичных приложений и вскоре могут обойти LLM по использованию в корпоративной среде.
Читать: https://habr.com/ru/articles/951498/
#ru
@big_data_analysis | Другие наши каналы
ИТ-лидеры видят большой бизнес-потенциал в малых моделях ИИ благодаря гибкости, низкой стоимости и нацеленности на конкретные задачи малые языковые модели (SLM) лучше подходят для бизнес-специфичных приложений и вскоре могут обойти LLM по использованию в корпоративной среде.
Читать: https://habr.com/ru/articles/951498/
#ru
@big_data_analysis | Другие наши каналы
Можно ли DAX-запрос превратить в SQL? Да, и сейчас я покажу, как (и зачем)
Аналитика, Power BI, DAX, SQL, Базы данных
Каждый, кто перешел в Power BI из мира баз данных или просто имеет за плечами опыт работы с SQL, наверняка задавался этим вопросом. Пишешь очередную навороченную меру на DAX, смотришь на результат и думаешь: «А как бы эта магия выглядела на старом добром, понятном SQL?».
Хватит гадать. Короткий ответ: да, это возможно, но это не прямой перевод с одного языка на другой. Забудьте о волшебном онлайн-конвертере, который сделает всё за вас. Это ручной процесс, требующий анализа и понимания.
Читать: https://habr.com/ru/articles/953108/
#ru
@big_data_analysis | Другие наши каналы
Аналитика, Power BI, DAX, SQL, Базы данных
Каждый, кто перешел в Power BI из мира баз данных или просто имеет за плечами опыт работы с SQL, наверняка задавался этим вопросом. Пишешь очередную навороченную меру на DAX, смотришь на результат и думаешь: «А как бы эта магия выглядела на старом добром, понятном SQL?».
Хватит гадать. Короткий ответ: да, это возможно, но это не прямой перевод с одного языка на другой. Забудьте о волшебном онлайн-конвертере, который сделает всё за вас. Это ручной процесс, требующий анализа и понимания.
Читать: https://habr.com/ru/articles/953108/
#ru
@big_data_analysis | Другие наши каналы
👍2
Data Drift в ML Страхового Дома ВСК: от PSI-анализа до пересборки фичей и сравнения моделей
Представьте: ваша модель машинного обучения, блестяще прошедшая все A/B-тесты, через полгода начинает тихо, но уверенно деградировать. Предсказания становятся менее точными, бизнес-метрики ползут вниз, а вы не понимаете, почему. Знакомо? Скорее всего, вы столкнулись с Data Drift — смещением данных.
Data Drift — это изменение распределения входных данных модели с течением времени. Мир не статичен: меняются привычки клиентов, экономическая ситуация, законодательство. Модель, обученная на «старых» данных, оказывается не готова к «новым». В страховой сфере, где риски и деньги напрямую связаны, это особенно критично. Ошибка в оценке убыточности полиса может стоить компании миллионов.
В этой статье я на реальном примере разберу, как:
Читать и обсуждать
Читать: https://habr.com/ru/companies/vsk_insurance/articles/953162/
#ru
@big_data_analysis | Другие наши каналы
Представьте: ваша модель машинного обучения, блестяще прошедшая все A/B-тесты, через полгода начинает тихо, но уверенно деградировать. Предсказания становятся менее точными, бизнес-метрики ползут вниз, а вы не понимаете, почему. Знакомо? Скорее всего, вы столкнулись с Data Drift — смещением данных.
Data Drift — это изменение распределения входных данных модели с течением времени. Мир не статичен: меняются привычки клиентов, экономическая ситуация, законодательство. Модель, обученная на «старых» данных, оказывается не готова к «новым». В страховой сфере, где риски и деньги напрямую связаны, это особенно критично. Ошибка в оценке убыточности полиса может стоить компании миллионов.
В этой статье я на реальном примере разберу, как:
Читать и обсуждать
Читать: https://habr.com/ru/companies/vsk_insurance/articles/953162/
#ru
@big_data_analysis | Другие наши каналы
Media is too big
VIEW IN TELEGRAM
One Day Offer в команду Kandinsky!
Ребята приглашают вас пройти отбор на One Day Offer для DL- и Researcher-инженеров, чтобы вместе:
• Разрабатывать и внедрять техники ускорения инференса.
• Использовать и дорабатывать существующие ML-компиляторы.
• Улучшать процессы обучения с помощью исследований.
Заинтригованы? Тогда регистрируйтесь по ссылке и ждите 4 октября, пока для вас готовят рабочее место!
Это #партнёрский пост
Ребята приглашают вас пройти отбор на One Day Offer для DL- и Researcher-инженеров, чтобы вместе:
• Разрабатывать и внедрять техники ускорения инференса.
• Использовать и дорабатывать существующие ML-компиляторы.
• Улучшать процессы обучения с помощью исследований.
Заинтригованы? Тогда регистрируйтесь по ссылке и ждите 4 октября, пока для вас готовят рабочее место!
Это #партнёрский пост
Почему не стоит заменять пустые значения нулями в Power BI
Вас просили заменить пустые значения нулями в отчетах? Возможно, стоит дважды подумать, прежде чем это делать!
Читать: https://habr.com/ru/articles/951458/
#ru
@big_data_analysis | Другие наши каналы
Вас просили заменить пустые значения нулями в отчетах? Возможно, стоит дважды подумать, прежде чем это делать!
Читать: https://habr.com/ru/articles/951458/
#ru
@big_data_analysis | Другие наши каналы
👍1
Что такое DWH и зачем оно нужно бизнесу?
Всем привет! Сегодня рассмотрим, что из себя представляет Data Warehouse и зачем оно нужно вашему бизнесу.
Статья рассчитана на то, чтобы дать общее представление широкой аудитории, так что возможны упрощения и небольшие неточности – буду рада подискутировать о них в комментариях, если вы заметите их.
Подробнее о DWH
Читать: https://habr.com/ru/companies/otus/articles/950328/
#ru
@big_data_analysis | Другие наши каналы
Всем привет! Сегодня рассмотрим, что из себя представляет Data Warehouse и зачем оно нужно вашему бизнесу.
Статья рассчитана на то, чтобы дать общее представление широкой аудитории, так что возможны упрощения и небольшие неточности – буду рада подискутировать о них в комментариях, если вы заметите их.
Подробнее о DWH
Читать: https://habr.com/ru/companies/otus/articles/950328/
#ru
@big_data_analysis | Другие наши каналы
👍2
Байесовский анализ и временные ряды в прогнозировании отказов оборудования на примере нефтегазовых компаний
Предсказание отказов оборудования в нефтегазовой отрасли задача, которая напрямую связана с деньгами и безопасностью. Простои установки стоят миллионы, а аварии могут привести к еще большим потерям. В компаниях вроде X и Z тема предиктивного обслуживания обсуждается не ради модернизации ради самой модернизации, а потому что каждый дополнительный час работы без поломки снижает затраты.
В отличие от прогнозирования спроса или продаж, где данных много и повторяются стандартные паттерны, с отказами все иначе. Оборудование способно работать месяцами без проблем, а потом неожиданно ломается. Получается, что у нас есть длинная история "все было нормально" и очень мало записей про то, как и когда все же что-то сломалось.
Читать: https://habr.com/ru/articles/953298/
#ru
@big_data_analysis | Другие наши каналы
Предсказание отказов оборудования в нефтегазовой отрасли задача, которая напрямую связана с деньгами и безопасностью. Простои установки стоят миллионы, а аварии могут привести к еще большим потерям. В компаниях вроде X и Z тема предиктивного обслуживания обсуждается не ради модернизации ради самой модернизации, а потому что каждый дополнительный час работы без поломки снижает затраты.
В отличие от прогнозирования спроса или продаж, где данных много и повторяются стандартные паттерны, с отказами все иначе. Оборудование способно работать месяцами без проблем, а потом неожиданно ломается. Получается, что у нас есть длинная история "все было нормально" и очень мало записей про то, как и когда все же что-то сломалось.
Читать: https://habr.com/ru/articles/953298/
#ru
@big_data_analysis | Другие наши каналы
Parquet — король умер? Да здравствует… кто? Обзор BtrBlocks, FastLanes, Lance и Vortex
Привет, Хабр! Если вы работаете с большими данными, то для вас, скорее всего, Parquet — это как воздух. Стандарт де-факто для колоночного хранения в экосистеме Hadoop, Spark, и вообще всего, что связано с аналитикой. Он эффективен, надёжен и поддерживается практически всеми инструментами. Казалось бы, живи и радуйся.
Но что, если я скажу, что в мире современных SSD, многоядерных CPU и вездесущих векторных баз данных старый добрый Parquet начинает показывать свой возраст? Он был спроектирован в эпоху, когда узким местом были HDD и сетевые задержки, а не скорость процессора. Сегодня железо изменилось, задачи тоже, и на сцену выходят новые, амбициозные форматы.
Давайте разберёмся, где именно Parquet даёт слабину и кто эти дерзкие новички, которые метят на его трон.
За основу взята статья Dipankar Mazumdar.
Читать: https://habr.com/ru/articles/953436/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Если вы работаете с большими данными, то для вас, скорее всего, Parquet — это как воздух. Стандарт де-факто для колоночного хранения в экосистеме Hadoop, Spark, и вообще всего, что связано с аналитикой. Он эффективен, надёжен и поддерживается практически всеми инструментами. Казалось бы, живи и радуйся.
Но что, если я скажу, что в мире современных SSD, многоядерных CPU и вездесущих векторных баз данных старый добрый Parquet начинает показывать свой возраст? Он был спроектирован в эпоху, когда узким местом были HDD и сетевые задержки, а не скорость процессора. Сегодня железо изменилось, задачи тоже, и на сцену выходят новые, амбициозные форматы.
Давайте разберёмся, где именно Parquet даёт слабину и кто эти дерзкие новички, которые метят на его трон.
За основу взята статья Dipankar Mazumdar.
Читать: https://habr.com/ru/articles/953436/
#ru
@big_data_analysis | Другие наши каналы