Data Analysis / Big Data
2.82K subscribers
573 photos
4 videos
2 files
2.71K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Техническая внутренняя кухня StarRocks: оптимизация JOIN — от логики до распределённого выполнения

Как StarRocks добивается высокой производительности JOIN-запросов в аналитических нагрузках. В материале — практическая кухня оптимизатора: какие типы JOIN эффективнее и когда их стоит конвертировать (например, CROSS→INNER, OUTER→INNER при NULL‑отвергающих предикатах), как работает predicate pushdown, извлечение предикатов из OR, вывод эквивалентностей и pushdown LIMIT. Разбираем Join Reorder для многотабличных запросов (Left‑Deep, Exhaustive, Greedy, DPsub), модель стоимости (CPU*(Row(L)+Row(R))+Memory*Row(R)) и выбор лучшего плана.

На уровне распределённого исполнения — MPP‑архитектура, свойства распределения (Distribution Property) и узлы Exchange; пять базовых планов: Shuffle, Broadcast, Bucket Shuffle, Colocate и экспериментальный Replicate Join. Плюс Global Runtime Filter (Min/Max, IN, Bloom) для ранней фильтрации на Scan. Даем практические принципы: используйте более быстрые типы JOIN, стройте хеш по малой таблице, в многоJOINовых запросах сперва выполняйте высокоселективные соединения, сокращайте объём данных и сетевой трафик. Материал для инженеров данных, DBA, разработчиков OLAP и всех, кто проектирует производительные SQL‑планы.


Читать: https://habr.com/ru/articles/943050/

#ru

@big_data_analysis | Другие наши каналы
👍1
Универсальные модели в видеоаналитике: единый фундамент для множества задач

Привет! С вами Кирилл Тузов, Data Scientist в команде видеоаналитики бэк-офиса Wildberries & Russ.

Камеры видят всё. Вопрос в том, распознают ли наши алгоритмы, что именно они видят, — и насколько быстро, надёжно и без тонны ручной работы это происходит. В этой статье я расскажу, как мы используем Self-Supervised, Zero-Shot и мультимодальные модели, чтобы приблизиться к максимально возможной эффективности.


Читать: https://habr.com/ru/companies/wildberries/articles/940530/

#ru

@big_data_analysis | Другие наши каналы
Новый скрипт для мониторинга производительности

В статье рассказывается о скрипте, который отслеживает время всего процесса от входа до выхода и автоматически отправляет предупреждения при замедлениях, позволяя быстро реагировать и предотвращать проблемы для пользователей.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Oracle Analytics AI Assistant: как настроить и использовать эффективно. В статье раскрываются основные шаги по настройке AI-ассистента, а также рекомендации для максимальной отдачи от его возможностей в аналитике. Полезно всем, кто работает с Oracle Analytics.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Эспоо внедряет Oracle Cloud Applications и Fusion Data Intelligence для оптимизации финансового управления. Этот шаг помогает городу стать международно связанным и инновационным лидером в сфере цифровых технологий. Подробнее об инициативе и её перспективах.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
«Таргетинг Портал»: как мы сделали рекламные кампании проще и эффективнее

Привет, Habr! Меня зовут Катя, я продакт-менеджер BigData в «Группе Лента» и отвечаю за развитие цифровых продуктов в направлении монетизации данных. В статье расскажу, как нам удалось уйти от Excel-файлов и ручного согласования сегментов к автоматизированному порталу, с помощью которого рекламные агентства теперь сами собирают нужные им сегменты и выгружают их в MyTarget.


Читать: https://habr.com/ru/companies/lentatech/articles/943756/

#ru

@big_data_analysis | Другие наши каналы
Зацените как похорошели транскрибации при Войси!

Вайб-кодинг вайб-кодингом, но как же не хватает простого человеческого «расшифруй мне созвон, только качественно!!». С этим вам поможет Войси.

🤯Этот ИИ-агент может с легкостью сделать из созвона текст, подвести итоги встречи и составить саммари. Войси переводит с 54 языков на русский без всяких артефактов и составляет текст в аккуратные абзацы с выделенными тезисами.

Самое удобное, что далеко ходить не надо — всё это делается прямо в «телеге». Экономьте своё время, превращая часы в минуты.

🔥А новичкам доступны 1,5 часа бесплатной транскрибации. Забирайте: https://tprg.ru/9xQo
Как вытащить EdTech-компанию из кризиса за счет ИИ в IT-инфраструктуре

Привет, Хабр! Наверняка вы помните успех онлайн-школ во время пандемии — тогда каждый или кого-то учил, или чему-то учился. Однако за пять лет технологии шагнули вперед, а EdTech остался на том же уровне — и это привело к упадку. Зачем платить за курс, если нейросеть может научить чему угодно бесплатно (хоть к качеству обучения и возникают очевидные вопросики)?

В онлайн-школе IBLS смогли превратить ML из конкурента в союзника, и с его помощью осовременить процесс обучения для всех участников. Как это получилось — рассказываю под катом.


Читать: https://habr.com/ru/companies/selectel/articles/943634/

#ru

@big_data_analysis | Другие наши каналы
🗣Интеллектуальная аналитика для data-driven компаний

11 сентября приглашаем BI-экспертов на Дельта Day — событие, посвящённое передовым тенденциям на рынке аналитики. Приходите и вы, если строите data-driven культуру в компании и хотите узнать больше о возможностях BI-систем.

На Дельта Day вы узнаете:

🔘На что обращать внимание при выборе BI-системы.
🔘Как интеграция BI и BPM помогает управлять продажами.
🔘Об особенностях дизайна и функционала мобильной аналитики.
🔘Чем Дельта BI отличается от других систем на рынке и подходит ли она именно вашему бизнесу.

Успейте зарегистрироваться — места ограничены.
RocksDB-стейт в стриминге: как ловить потерянные события и дубликаты

В стриминговых пайплайнах всё чаще приходится иметь дело не только с бесконечным потоком данных, но и с состоянием, которое нужно хранить и восстанавливать без потерь. С выходом Spark 3.2 у разработчиков появилась возможность подключать RocksDB в качестве state store — и это открывает новые горизонты для работы с большими объёмами данных. В статье разбираем, как использовать этот подход на практике: от борьбы с дубликатами и пропущенными событиями до тонкостей конфигурации и устойчивости стриминга.


Читать: https://habr.com/ru/companies/otus/articles/941412/

#ru

@big_data_analysis | Другие наши каналы
Скорость, стратегия и алгоритмы: будущее Формулы-1 в эпоху AI

Формула-1 всегда была местом пересечения инженерии и инноваций. В последние годы эта область инноваций расширилась за счёт внедрения искусственного интеллекта и машинного обучения.

От стратегии по выбору шин до аэродинамического дизайна — эти технологии меняют то, как команды планируют работу, реагируют на вызовы и развиваются. Они не заменяют человеческих специалистов, принимающих решения, но трансформируют набор инструментов, с которыми ведут борьбу за результат.


Читать: https://habr.com/ru/articles/937302/

#ru

@big_data_analysis | Другие наши каналы
Arrow Flight + ADBC: как гонять десятки ГБ/с между сервисами без REST

Привет, Хабр!

Когда делаешь сервисы на C++ и вокруг летает много данных, в какой-то момент понимаешь простую вещь: REST хорош для управления сущностями, но плохо подходит для потока колонок в десятки гигабайт в секунду. Переносить фреймы по сто миллионов строк через JSON и спотыкаться об сериализацию — не наш путь. В статье рассмотрим как собрать транспорт данных на Apache Arrow Flight и где встраивается ADBC, чтобы между сервисами гонять таблицы почти на скорости сети и не городить зоопарк драйверов.


Читать: https://habr.com/ru/companies/otus/articles/941432/

#ru

@big_data_analysis | Другие наши каналы
Как за год вырастить персонализацию на главной: эволюция рекомендаций в fashion ecom

Привет, Хабр! Меня зовут Данил Комаров, я дата-сайентист в команде персонализации Lamoda Tech. Уже больше года мы меняем подход к рекомендациям на главной странице, делая их персонализированными. Я расскажу, как мы внедряли и масштабировали решение, переводили его из оффлайна в онлайн, и бустили систему на разных слоях.


Читать: https://habr.com/ru/companies/lamoda/articles/943272/

#ru

@big_data_analysis | Другие наши каналы
Три сказа о построении RAG: От выбора модели до форматирования базы знаний

Привет! Меня зовут Александр Золотых, уже два года я работаю во ВкусВилле разработчиком ИИ-решений. В этой статье хочу рассказать, как мы сделали карманного консультанта по клиентократии — и зачем вообще он понадобился.

ВкусВилл работает по клиентократии — модели управления, которую развивает и распространяет система управления  Beyond Taylor. Основная особенность клиентократии — фокус на клиенте, когда все процессы компании выстраиваются для удовлетворения его потребности. Модель инновационная: погружаешься, и возникает множество вопросов. Конечно, лучше спросить и узнать, чем не спросить и не узнать, но не всем и не всегда это просто. Значит, нужно снижать порог входа и сделать описание модели ближе к изучающему.

Именно из этого понимания у нашей команды и появилась идея карманного консультанта — инструмента, который готов отвечать на все «глупые» и каверзные вопросы. Мы поделились замыслом с коллегами из Beyond Taylor, получили их поддержку и приступили к реализации. Так родилась наша первая задача с тем, что сейчас называется RAG (Retrieval-Augmented Generation).

Конечно, есть готовые решения (Notebook LM, Нейроэксперт), но они имеют несколько минусов:


Читать: https://habr.com/ru/companies/vkusvill/articles/944202/

#ru

@big_data_analysis | Другие наши каналы
Dagster или Airflow: что выбрать для оркестрации в DWH-проектах?

Рассказываем, какие задачи решают оркестраторы в проектах внедрения корпоративных хранилищ данных. Выясняем, в чем разница между инструментами, и почему Dagster становится все популярнее в DWH-проектах, чем Airflow.


Читать: https://habr.com/ru/articles/944284/

#ru

@big_data_analysis | Другие наши каналы
Цифровой профиль в ВТБ: как графы и эмбеддинги помогают банку понимать клиентов

Статья рассказывает о том, как банк строит единый цифровой профиль клиента, используя графы и эмбеддинги. Вы узнаете, как разрозненные данные о транзакциях, связях и балансах превращаются в мощный инструмент для анализа и прогнозирования. Разберем, почему классических табличных подходов недостаточно и как графы помогают выявлять скрытые связи между клиентами, как клиенты «превращаются в слова» и на чем измеряется успех. Статья будет полезна data scientist’ам, ML-инженерам и всем, кто интересуется практическим применением графовых методов и машинного обучения в крупном бизнесе.


Читать: https://habr.com/ru/companies/vtb/articles/944338/

#ru

@big_data_analysis | Другие наши каналы
Практика Kafka: проектирование топиков и обмен сообщениями

Ранее мы с вами развернули кластер Kafka. Что дальше?

В этой статье, как всегда, переходим от теории к практике: разработаем собственные продюсер и консьюмер на Python. Это будет не просто демонстрация кода — мы погрузимся в детали работы с Kafka.

Подробно разберем структуру сообщений Kafka,

Углубимся в основы проектирования: от топиков до настройки клиентов,

На практике изучим ключевые процессы: сериализацию, партиционирование, батчинг и сжатие данных.


Читать: https://habr.com/ru/articles/944432/

#ru

@big_data_analysis | Другие наши каналы
👍2
Аналитика преимуществ в Fusion Data Intelligence

Benefits Analytics в Fusion Data Intelligence помогает менеджерам и администраторам не просто обрабатывать данные, а извлекать важные инсайты для принятия более эффективных решений в управлении преимуществами сотрудников.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы