Data Analysis / Big Data
2.84K subscribers
566 photos
3 videos
2 files
2.76K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Домен-специфичные LLM: как сделать ИИ реально полезным для вашего бизнеса

Универсальные модели вроде GPT хорошо справляются с широким классом задач, но буксуют в узких доменах. Они не знают специфику нишевых индустрий, их жаргон и не имеют доступа к проприетарным знаниям, которые делают ваш бизнес уникальным. Когда нужна система ИИ, которая действительно «понимает» именно вашу предметную область, стоит выбирать домен-специфичные LLM (DSLM).


Читать: https://habr.com/ru/articles/951482/

#ru

@big_data_analysis | Другие наши каналы
GitOps для Airflow: как мы перешли на лёгкий K8s-native Argo Workflows

Привет! Меня зовут Александр Егоров, я MLOps-инженер в Альфа-Банке, куда попал через проект компании KTS.

За свою карьеру я построил четыре ML-платформы (одна из которых сейчас в Росреестре) и развиваю с командой пятую. Параллельно учусь в ИТМО по направлению «Безопасность искусственного интеллекта».

В этой статье я немного покритикую Airflow и поделюсь нашей историей миграции на связку Argo Workflows и Argo CD. Spoiler alert: технические подробности и результаты в наличии.


Читать: https://habr.com/ru/companies/alfa/articles/947754/

#ru

@big_data_analysis | Другие наши каналы
Переход с Oracle EBS на Oracle Fusion Cloud связан с вызовами в обеспечении соответствия, сохранении данных и объединённой отчётности. В статье рассказывается о стратегиях интеграции старых и новых систем для поддержки бизнеса и принятия решений.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Опыт разработки и внедрения универсального коллектора для интеграции КХД с Kafka

Привет, Хабр!

В этой статье хочу поделиться нашим опытом интеграции с Kafka.

В Мегафоне несколько десятков сервисов являются потребителями данных, публикуемых в кластерах Kafka. Все они разрабатывались под узкоспециализированные задачи.

В какой-то момент в нашем КХД также появилась необходимость интеграции с Kafka.

При разработке первой интеграции мы пошли традиционным путем и использовали Kafka Connect для Confluent 6.0.1. Сообщения, читаемые коннектором, перекладывались в Hadoop. Далее в PySpark выполнялся парсинг нужных данных, и полученные пачки выгружались в Oracle Exadata.

Но на этапе опытно-промышленной эксплуатации у нас возникли проблемы с производительностью из-за большого объема читаемых данных: ~100-110 млн сообщений в час (поток со звонками абонентов). Также было требование от бизнеса - данные в конечной витрине должны появляться с задержкой не более часа. Оптимизация интеграции затянулась еще на пару месяцев.

В итоге решение, которое мы внедрили в пром, не в полной мере устроило нас. Сложная реализация подразумевала необходимость привлекать на его дальнейшую доработку дефицитных экспертов.

Тем временем, перед нами встала задача разработки еще нескольких интеграций с Kafka.

Было очевидно, что требуется какое-то решение, которое не только ускоряло бы внедрение, исключая рутинную разработку, но и позволяло реализовать стандартную для таких интеграций батчевую выгрузку считанных сообщений в разные БД (Oracle/Hive/ClickHouse и в перспективе в Greenplum). И кроме того, умело выполнять предварительную обработку данных на лету (парсинг и трансформацию значений заданных атрибутов).


Читать: https://habr.com/ru/companies/megafon/articles/951788/

#ru

@big_data_analysis | Другие наши каналы
👍1
Business Intelligence (BI) в эпоху ИИ

ИИ заставляет нас, аналитиков, посмотреть на себя в зеркало и задаться вопросом: какова ценность создания и распространения графиков и диаграмм вручную?

Автор перевода: Snezhana Kiseleva


Читать: https://habr.com/ru/articles/951464/

#ru

@big_data_analysis | Другие наши каналы
IT-лидеры видят большой бизнес-потенциал в малых моделях ИИ

ИТ-лидеры видят большой бизнес-потенциал в малых моделях ИИ благодаря гибкости, низкой стоимости и нацеленности на конкретные задачи малые языковые модели (SLM) лучше подходят для бизнес-специфичных приложений и вскоре могут обойти LLM по использованию в корпоративной среде.


Читать: https://habr.com/ru/articles/951498/

#ru

@big_data_analysis | Другие наши каналы