Data Analysis / Big Data
2.82K subscribers
573 photos
4 videos
2 files
2.71K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Как вытащить EdTech-компанию из кризиса за счет ИИ в IT-инфраструктуре

Привет, Хабр! Наверняка вы помните успех онлайн-школ во время пандемии — тогда каждый или кого-то учил, или чему-то учился. Однако за пять лет технологии шагнули вперед, а EdTech остался на том же уровне — и это привело к упадку. Зачем платить за курс, если нейросеть может научить чему угодно бесплатно (хоть к качеству обучения и возникают очевидные вопросики)?

В онлайн-школе IBLS смогли превратить ML из конкурента в союзника, и с его помощью осовременить процесс обучения для всех участников. Как это получилось — рассказываю под катом.


Читать: https://habr.com/ru/companies/selectel/articles/943634/

#ru

@big_data_analysis | Другие наши каналы
🗣Интеллектуальная аналитика для data-driven компаний

11 сентября приглашаем BI-экспертов на Дельта Day — событие, посвящённое передовым тенденциям на рынке аналитики. Приходите и вы, если строите data-driven культуру в компании и хотите узнать больше о возможностях BI-систем.

На Дельта Day вы узнаете:

🔘На что обращать внимание при выборе BI-системы.
🔘Как интеграция BI и BPM помогает управлять продажами.
🔘Об особенностях дизайна и функционала мобильной аналитики.
🔘Чем Дельта BI отличается от других систем на рынке и подходит ли она именно вашему бизнесу.

Успейте зарегистрироваться — места ограничены.
RocksDB-стейт в стриминге: как ловить потерянные события и дубликаты

В стриминговых пайплайнах всё чаще приходится иметь дело не только с бесконечным потоком данных, но и с состоянием, которое нужно хранить и восстанавливать без потерь. С выходом Spark 3.2 у разработчиков появилась возможность подключать RocksDB в качестве state store — и это открывает новые горизонты для работы с большими объёмами данных. В статье разбираем, как использовать этот подход на практике: от борьбы с дубликатами и пропущенными событиями до тонкостей конфигурации и устойчивости стриминга.


Читать: https://habr.com/ru/companies/otus/articles/941412/

#ru

@big_data_analysis | Другие наши каналы
Скорость, стратегия и алгоритмы: будущее Формулы-1 в эпоху AI

Формула-1 всегда была местом пересечения инженерии и инноваций. В последние годы эта область инноваций расширилась за счёт внедрения искусственного интеллекта и машинного обучения.

От стратегии по выбору шин до аэродинамического дизайна — эти технологии меняют то, как команды планируют работу, реагируют на вызовы и развиваются. Они не заменяют человеческих специалистов, принимающих решения, но трансформируют набор инструментов, с которыми ведут борьбу за результат.


Читать: https://habr.com/ru/articles/937302/

#ru

@big_data_analysis | Другие наши каналы
Arrow Flight + ADBC: как гонять десятки ГБ/с между сервисами без REST

Привет, Хабр!

Когда делаешь сервисы на C++ и вокруг летает много данных, в какой-то момент понимаешь простую вещь: REST хорош для управления сущностями, но плохо подходит для потока колонок в десятки гигабайт в секунду. Переносить фреймы по сто миллионов строк через JSON и спотыкаться об сериализацию — не наш путь. В статье рассмотрим как собрать транспорт данных на Apache Arrow Flight и где встраивается ADBC, чтобы между сервисами гонять таблицы почти на скорости сети и не городить зоопарк драйверов.


Читать: https://habr.com/ru/companies/otus/articles/941432/

#ru

@big_data_analysis | Другие наши каналы
Как за год вырастить персонализацию на главной: эволюция рекомендаций в fashion ecom

Привет, Хабр! Меня зовут Данил Комаров, я дата-сайентист в команде персонализации Lamoda Tech. Уже больше года мы меняем подход к рекомендациям на главной странице, делая их персонализированными. Я расскажу, как мы внедряли и масштабировали решение, переводили его из оффлайна в онлайн, и бустили систему на разных слоях.


Читать: https://habr.com/ru/companies/lamoda/articles/943272/

#ru

@big_data_analysis | Другие наши каналы
Три сказа о построении RAG: От выбора модели до форматирования базы знаний

Привет! Меня зовут Александр Золотых, уже два года я работаю во ВкусВилле разработчиком ИИ-решений. В этой статье хочу рассказать, как мы сделали карманного консультанта по клиентократии — и зачем вообще он понадобился.

ВкусВилл работает по клиентократии — модели управления, которую развивает и распространяет система управления  Beyond Taylor. Основная особенность клиентократии — фокус на клиенте, когда все процессы компании выстраиваются для удовлетворения его потребности. Модель инновационная: погружаешься, и возникает множество вопросов. Конечно, лучше спросить и узнать, чем не спросить и не узнать, но не всем и не всегда это просто. Значит, нужно снижать порог входа и сделать описание модели ближе к изучающему.

Именно из этого понимания у нашей команды и появилась идея карманного консультанта — инструмента, который готов отвечать на все «глупые» и каверзные вопросы. Мы поделились замыслом с коллегами из Beyond Taylor, получили их поддержку и приступили к реализации. Так родилась наша первая задача с тем, что сейчас называется RAG (Retrieval-Augmented Generation).

Конечно, есть готовые решения (Notebook LM, Нейроэксперт), но они имеют несколько минусов:


Читать: https://habr.com/ru/companies/vkusvill/articles/944202/

#ru

@big_data_analysis | Другие наши каналы
Dagster или Airflow: что выбрать для оркестрации в DWH-проектах?

Рассказываем, какие задачи решают оркестраторы в проектах внедрения корпоративных хранилищ данных. Выясняем, в чем разница между инструментами, и почему Dagster становится все популярнее в DWH-проектах, чем Airflow.


Читать: https://habr.com/ru/articles/944284/

#ru

@big_data_analysis | Другие наши каналы
Цифровой профиль в ВТБ: как графы и эмбеддинги помогают банку понимать клиентов

Статья рассказывает о том, как банк строит единый цифровой профиль клиента, используя графы и эмбеддинги. Вы узнаете, как разрозненные данные о транзакциях, связях и балансах превращаются в мощный инструмент для анализа и прогнозирования. Разберем, почему классических табличных подходов недостаточно и как графы помогают выявлять скрытые связи между клиентами, как клиенты «превращаются в слова» и на чем измеряется успех. Статья будет полезна data scientist’ам, ML-инженерам и всем, кто интересуется практическим применением графовых методов и машинного обучения в крупном бизнесе.


Читать: https://habr.com/ru/companies/vtb/articles/944338/

#ru

@big_data_analysis | Другие наши каналы
Практика Kafka: проектирование топиков и обмен сообщениями

Ранее мы с вами развернули кластер Kafka. Что дальше?

В этой статье, как всегда, переходим от теории к практике: разработаем собственные продюсер и консьюмер на Python. Это будет не просто демонстрация кода — мы погрузимся в детали работы с Kafka.

Подробно разберем структуру сообщений Kafka,

Углубимся в основы проектирования: от топиков до настройки клиентов,

На практике изучим ключевые процессы: сериализацию, партиционирование, батчинг и сжатие данных.


Читать: https://habr.com/ru/articles/944432/

#ru

@big_data_analysis | Другие наши каналы
👍2
Аналитика преимуществ в Fusion Data Intelligence

Benefits Analytics в Fusion Data Intelligence помогает менеджерам и администраторам не просто обрабатывать данные, а извлекать важные инсайты для принятия более эффективных решений в управлении преимуществами сотрудников.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы