Data Analysis / Big Data
2.82K subscribers
573 photos
4 videos
2 files
2.7K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Переосмысление материализованных представлений: высокопроизводительный инструмент для единого lakehouse

Материализованные представления в StarRocks упрощают моделирование данных, ускоряют запросы и повышают актуальность данных в lakehouse‑архитектуре. Разбираем базовые возможности MV, три практических сценария — моделирование, прозрачное ускорение и «lake + warehouse» — и даём ссылки на актуальные рекомендации для StarRocks 3.5.


Читать: https://habr.com/ru/articles/941588/

#ru

@big_data_analysis | Другие наши каналы
👍2
Как мы устроили эпический BI Challenge: 80 героев, 1000 дашбордов и море данных в FineBI

Привет, Хабр! 👋 Меня зовут Семён Юников, я Head of BI в банке Уралсиб. Сегодня расскажу о том, как наш отдел собственными силами превратил масштабную задачу по улучшению аналитических артефактов в захватывающее и геймифицированное приключение под названием BI Challenge. Более 80 участников (внутренних разработчиков нашего Банка), свыше 1000 дашбордов, десятки внутренних обновлений и одно большое профессиональное сообщество.
😎

Читать: https://habr.com/ru/companies/uralsib/articles/941614/

#ru

@big_data_analysis | Другие наши каналы
Spark 4.0 на горизонте: Готовимся к апгрейду или остаёмся на проверенном 3.0?

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. Кажется, ещё вчера мы радовались возможностям Apache Spark 3.0, разбирались с Adaptive Query Execution и наслаждались улучшениями Pandas API. Но мир больших данных не стоит на месте, и вот уже на подходе Apache Spark 4.0. Новый мажорный релиз — это всегда событие: он обещает новые фичи, прирост производительности и, конечно же, новые вызовы при миграции.

Apache Spark де-факто стал стандартом для распределённой обработки данных. От классических ETL-пайплайнов и SQL-аналитики до сложного машинного обучения и стриминга — Spark так или иначе задействован во многих современных data-платформах. Поэтому каждый новый релиз вызывает живой интерес у комьюнити: что там под капотом? Какие проблемы решены? Не сломается ли то, что работало годами?


Читать: https://habr.com/ru/companies/arenadata/articles/921252/

#ru

@big_data_analysis | Другие наши каналы
👍2
Как строить умных AI-агентов: уроки Context Engineering от Manus

В самом начале проекта Manus перед нашей командой встал ключевой вопрос: обучать ли end-to-end агентную модель, используя open-source foundation-модели, или же строить агента поверх возможностей in-context learning у frontier models?

В моё первое десятилетие в NLP у нас и выбора-то такого не было. В далёкие времена BERT (да, прошло уже семь лет) модели приходилось fine-tune'ить и тестировать, прежде чем они могли переноситься на новую задачу. Этот процесс часто занимал недели на одну итерацию, даже при том, что тогдашние модели были крошечными по сравнению с сегодняшними LLM. Для быстроразвивающихся приложений, особенно на этапе до PMF, такие медленные циклы обратной связи — смертный приговор. Это был горький урок из моего прошлого стартапа, где я обучал модели с нуля для open information extraction и семантического поиска. А потом появились GPT-3 и Flan-T5, и мои внутренние модели стали не актуальны буквально за ночь. Ирония в том, что именно эти модели положили начало in-context learning — и открыли совершенно новый путь развития.

Из этого болезненного опыта выбор был очевиден: Manus делает ставку на context engineering. Это позволяет выпускать улучшения за часы, а не за недели, и держит наш продукт ортогональным по отношению к базовым моделям: если прогресс моделей — это прилив, то мы хотим, чтобы Manus был лодкой, а не сваей, вбитой в морское дно.

Тем не менее context engineering оказался далеко не тривиальным делом. Это экспериментальная наука — и мы перестраивали наш агентный фреймворк четыре раза, каждый раз находя более удачный способ формировать контекст. Мы с любовью называем этот ручной процесс перебора архитектур, подбора промптов и эмпирических догадок «Stochastic Graduate Descent». Это не изящно, но работает.

В этом посте я делюсь локальными оптимумами, к которым мы пришли через собственный «SGD». Если вы создаете своего AI-агента, надеюсь, эти принципы помогут вам сойтись к решению быстрее.


Читать: https://habr.com/ru/articles/936954/

#ru

@big_data_analysis | Другие наши каналы
Разбираемся с ReplacingMergeTree в ClickHouse

В мире систем обработки данных редко встречаются инструменты, которые одновременно просты в использовании и решают болезненные задачи архитекторов и инженеров. ReplacingMergeTree в ClickHouse — один из таких случаев. Этот движок берёт на себя рутину по дедупликации и обновлению строк, позволяя хранить только актуальные версии данных без лишних костылей. Как он работает на практике, зачем нужен ORDER BY, чем помогает столбец version и какие подводные камни могут ждать при проектировании — разбираем в статье.


Читать: https://habr.com/ru/companies/otus/articles/940894/

#ru

@big_data_analysis | Другие наши каналы
👍3
Новое расширение для работы с SVG

Расширение PictoStack позволяет преобразовать любые SVG-изображения в динамичные инфографики на основе данных, открывая новые возможности для визуализации информации. Узнайте, как это может изменить подход к графике.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Новый обновление Oracle Analytics Cloud сентября 2025 года предлагает расширенные возможности для визуализации, персонализации и интеллектуального анализа данных. Эти улучшения помогают пользователям работать с информацией быстрее и эффективнее. Подробнее о ключевых нововведениях.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Запуск Oracle Analytics AI Assistant для пользователей с ролью Consumer в рабочих книгах стал доступен. Теперь владельцы рабочих книг могут включать ИИ-ассистента, расширяя возможности анализа данных для конечных пользователей. Подробнее о нововведениях — в статье.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Как OAC помогает бизнесу улучшить удержание клиентов и увеличить доход

Статья рассказывает, как OAC использует данные клиентов для создания эффективных стратегий удержания и развития, открывая новые возможности для продаж и повышения лояльности. Узнайте, как технологии меняют подход к работе с клиентами.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Онлайн-студия big tech night

Если вас не будет в Москве в день ивента, подключайтесь к нашей онлайн-студии. Мы подготовили огненную программу, которая отличается от офлайн-активностей:

🔴 Выступления спикеров от компаний-организаторов и других топов в индустрии
🔴 Микс форматов — от дискуссий и интервью до фановых историй из жизни разработчиков
🔴 Интерактивы с комментариями зрителей

Проведём сразу два прямых эфира:

Студия Hard
В формате дискуссий и интервью обсудим сложные темы — управление IT-командой, AI в разработке, запуск проектов на несколько бизнесов.

Студия Soft
Настоящая вечеринка в формате Late Night Show. Будем общаться, шутить и делиться сокровенным — например, обсудим необычные хобби и безумные pet-проекты.

❗️ Можно переключаться между студиями, чтобы поймать все самые интересные темы.

💻 Мы в эфире 12 сентября с 18:00 до 21:00

❤️Зарегистрируйтесь на сайте, чтобы получить ссылку на трансляцию

Подписывайтесь:
💬 big tech night

Реклама. Рекламодатель: ООО "Яндекс" ИНН 7736207543

Это #партнёрский пост
Критерий Кендалла W: Почему рейтинги BI друг другу противоречат, и что с этим делать?

Привет, Хабр! Сегодня я хочу рассказать о применении одного из интересных методов работы со статистическими данными — расчета коэффициента конкордации, который также называют коэффициентом Кендалла W. Он помог нам упростить выбор BI-платформы на замену многострадальному Qlik, который сегодня вообще непонятно как продлевать. Под катом — куча BI-систем, наши попытки усреднить результаты рейтингов…и г-н Кендалл с его методом 100-летней давности.


Читать: https://habr.com/ru/articles/942068/

#ru

@big_data_analysis | Другие наши каналы
Библиотека OutboxML от Страхового Дома ВСК

Хабр, привет!

Меня зовут Семён Семёнов, я руковожу Data Science и Machine Learning в Страховом Доме ВСК. В этой статье расскажу, как мы создали систему автоматического обучения и развёртывания моделей машинного обучения с открытым исходным кодом.

Первый вопрос, который может задать себе читатель, знакомый с темой современного машинного обучения:
«Почему бы не взять одну из десятков (если не сотен) открытых AutoML-библиотек?»

Ответ прост: мы не стремились создать ещё один «стандартный» проект AutoML. Наша цель — сфокусироваться на вещах, которые редко встречаются в готовых решениях:


Читать: https://habr.com/ru/companies/vsk_insurance/articles/942110/

#ru

@big_data_analysis | Другие наши каналы
Как стать ML-инженером? От студента до Senior

В этой статье вы узнаете кто такой ML-инженер, чем он занимается, какие направления есть в этой профессии, а также узнаете список технологий, который нужно знать для работы в профессии.

Читать: «Как стать ML-инженером? От студента до Senior»

#ru

@big_data_analysis | Другие наши каналы
Как мы мигрировали на новый шардированный кластер ClickHouse

Всем привет! Меня зовут Мурад Арфанян, я разработчик информационных систем в Ozon Tech. Наша команда работает с данными жизненного цикла товаров в логистике. Объём продаж растет стремительными темпами и нешардированный ClickHouse уже не справляется с постоянно увеличивающимися потоками данных. Чтобы решить эту задачу, мы построили шардированный кластер, преодолев на пути несколько интересных технических вызовов. В этой статье я расскажу о нашем опыте и решениях, которые помогли масштабировать систему и обеспечить стабильную работу при росте нагрузки.


Читать: https://habr.com/ru/companies/ozontech/articles/932434/

#ru

@big_data_analysis | Другие наши каналы
🔥3
Реализация А/Б-тестов

Для А/Б-тестов в вебе показаны случайный выбор групп, хэширование, логика на бэкэнде и фронтэнде, логирование событий, одновременные эксперименты и админка. Примеры демонстрируют реализацию А/Б-тестов и устройство платформ экспериментов.
Читать

Читать: https://habr.com/ru/articles/940118/

#ru

@big_data_analysis | Другие наши каналы
Скрытая угроза: как LLM заражают друг друга предубеждениями через «безобидные» данные

tl;dr. Мы изучаем сублиминальное обучение — неожиданное явление, при котором языковые модели перенимают свойства из данных, сгенерированных другой моделью, даже если эти данные семантически никак не связаны с передаваемыми свойствами. Например, «студент» начинает предпочитать сов, если его обучить на последовательностях чисел, сгенерированных «учителем», который предпочитает сов. Тот же феномен способен передавать misalignment через данные, которые выглядят абсолютно безобидными. Этот эффект проявляется только в том случае, если учитель и студент основаны на одной и той же базовой модели.

Исследование проведено в рамках программы Anthropic Fellows. Эта статья также опубликована в блоге Anthropic Alignment Science.


Читать: https://habr.com/ru/articles/937278/

#ru

@big_data_analysis | Другие наши каналы
1
Устраиваем свой Data QA с PyTest и фикстурами

Рабочий подход к тестированию трансформации данных в ETL-процессах. На примере Python-проекта с pytest, allure и psycopg2 демонстрируется, как автоматизировать создание и наполнение таблиц, хранить схемы и данные, а затем сравнивать результат.

Читать: «Устраиваем свой Data QA с PyTest и фикстурами»

#ru

@big_data_analysis | Другие наши каналы
Обзор UDTF в PySpark

Привет, Хабр!

Сегодня разберём фичу из PySpark — UDTF. Если раньше мы писали UDF и UDAF, то UDTF — это про функцию, которая запускается в секции FROM запроса и возвращает как бы несколько стро» для каждой входной записи Звучит круто.

UDTFs пригодятся, когда на один входной объект нужно получить множество выходных строк. Простой пример: у нас есть строка текста и мы хотим разделить её на слова так, чтобы каждое слово вышло отдельной строкой. Со стандартным UDF такое не сделать (он возвращает одно значение, например конкатенацию или длину). Но UDTF может делать цикл yield внутри и выдавать сколько угодно строк. Итак, приступим к делу.


Читать: https://habr.com/ru/companies/otus/articles/942148/

#ru

@big_data_analysis | Другие наши каналы
Техническая внутренняя кухня StarRocks: оптимизация JOIN — от логики до распределённого выполнения

Как StarRocks добивается высокой производительности JOIN-запросов в аналитических нагрузках. В материале — практическая кухня оптимизатора: какие типы JOIN эффективнее и когда их стоит конвертировать (например, CROSS→INNER, OUTER→INNER при NULL‑отвергающих предикатах), как работает predicate pushdown, извлечение предикатов из OR, вывод эквивалентностей и pushdown LIMIT. Разбираем Join Reorder для многотабличных запросов (Left‑Deep, Exhaustive, Greedy, DPsub), модель стоимости (CPU*(Row(L)+Row(R))+Memory*Row(R)) и выбор лучшего плана.

На уровне распределённого исполнения — MPP‑архитектура, свойства распределения (Distribution Property) и узлы Exchange; пять базовых планов: Shuffle, Broadcast, Bucket Shuffle, Colocate и экспериментальный Replicate Join. Плюс Global Runtime Filter (Min/Max, IN, Bloom) для ранней фильтрации на Scan. Даем практические принципы: используйте более быстрые типы JOIN, стройте хеш по малой таблице, в многоJOINовых запросах сперва выполняйте высокоселективные соединения, сокращайте объём данных и сетевой трафик. Материал для инженеров данных, DBA, разработчиков OLAP и всех, кто проектирует производительные SQL‑планы.


Читать: https://habr.com/ru/articles/943050/

#ru

@big_data_analysis | Другие наши каналы
👍1
Универсальные модели в видеоаналитике: единый фундамент для множества задач

Привет! С вами Кирилл Тузов, Data Scientist в команде видеоаналитики бэк-офиса Wildberries & Russ.

Камеры видят всё. Вопрос в том, распознают ли наши алгоритмы, что именно они видят, — и насколько быстро, надёжно и без тонны ручной работы это происходит. В этой статье я расскажу, как мы используем Self-Supervised, Zero-Shot и мультимодальные модели, чтобы приблизиться к максимально возможной эффективности.


Читать: https://habr.com/ru/companies/wildberries/articles/940530/

#ru

@big_data_analysis | Другие наши каналы