Техническая внутренняя кухня StarRocks: оптимизация JOIN — от логики до распределённого выполнения
Как StarRocks добивается высокой производительности JOIN-запросов в аналитических нагрузках. В материале — практическая кухня оптимизатора: какие типы JOIN эффективнее и когда их стоит конвертировать (например, CROSS→INNER, OUTER→INNER при NULL‑отвергающих предикатах), как работает predicate pushdown, извлечение предикатов из OR, вывод эквивалентностей и pushdown LIMIT. Разбираем Join Reorder для многотабличных запросов (Left‑Deep, Exhaustive, Greedy, DPsub), модель стоимости (CPU*(Row(L)+Row(R))+Memory*Row(R)) и выбор лучшего плана.
На уровне распределённого исполнения — MPP‑архитектура, свойства распределения (Distribution Property) и узлы Exchange; пять базовых планов: Shuffle, Broadcast, Bucket Shuffle, Colocate и экспериментальный Replicate Join. Плюс Global Runtime Filter (Min/Max, IN, Bloom) для ранней фильтрации на Scan. Даем практические принципы: используйте более быстрые типы JOIN, стройте хеш по малой таблице, в многоJOINовых запросах сперва выполняйте высокоселективные соединения, сокращайте объём данных и сетевой трафик. Материал для инженеров данных, DBA, разработчиков OLAP и всех, кто проектирует производительные SQL‑планы.
Читать: https://habr.com/ru/articles/943050/
#ru
@big_data_analysis | Другие наши каналы
Как StarRocks добивается высокой производительности JOIN-запросов в аналитических нагрузках. В материале — практическая кухня оптимизатора: какие типы JOIN эффективнее и когда их стоит конвертировать (например, CROSS→INNER, OUTER→INNER при NULL‑отвергающих предикатах), как работает predicate pushdown, извлечение предикатов из OR, вывод эквивалентностей и pushdown LIMIT. Разбираем Join Reorder для многотабличных запросов (Left‑Deep, Exhaustive, Greedy, DPsub), модель стоимости (CPU*(Row(L)+Row(R))+Memory*Row(R)) и выбор лучшего плана.
На уровне распределённого исполнения — MPP‑архитектура, свойства распределения (Distribution Property) и узлы Exchange; пять базовых планов: Shuffle, Broadcast, Bucket Shuffle, Colocate и экспериментальный Replicate Join. Плюс Global Runtime Filter (Min/Max, IN, Bloom) для ранней фильтрации на Scan. Даем практические принципы: используйте более быстрые типы JOIN, стройте хеш по малой таблице, в многоJOINовых запросах сперва выполняйте высокоселективные соединения, сокращайте объём данных и сетевой трафик. Материал для инженеров данных, DBA, разработчиков OLAP и всех, кто проектирует производительные SQL‑планы.
Читать: https://habr.com/ru/articles/943050/
#ru
@big_data_analysis | Другие наши каналы
👍1
Универсальные модели в видеоаналитике: единый фундамент для множества задач
Привет! С вами Кирилл Тузов, Data Scientist в команде видеоаналитики бэк-офиса Wildberries & Russ.
Камеры видят всё. Вопрос в том, распознают ли наши алгоритмы, что именно они видят, — и насколько быстро, надёжно и без тонны ручной работы это происходит. В этой статье я расскажу, как мы используем Self-Supervised, Zero-Shot и мультимодальные модели, чтобы приблизиться к максимально возможной эффективности.
Читать: https://habr.com/ru/companies/wildberries/articles/940530/
#ru
@big_data_analysis | Другие наши каналы
Привет! С вами Кирилл Тузов, Data Scientist в команде видеоаналитики бэк-офиса Wildberries & Russ.
Камеры видят всё. Вопрос в том, распознают ли наши алгоритмы, что именно они видят, — и насколько быстро, надёжно и без тонны ручной работы это происходит. В этой статье я расскажу, как мы используем Self-Supervised, Zero-Shot и мультимодальные модели, чтобы приблизиться к максимально возможной эффективности.
Читать: https://habr.com/ru/companies/wildberries/articles/940530/
#ru
@big_data_analysis | Другие наши каналы
Новый скрипт для мониторинга производительности
В статье рассказывается о скрипте, который отслеживает время всего процесса от входа до выхода и автоматически отправляет предупреждения при замедлениях, позволяя быстро реагировать и предотвращать проблемы для пользователей.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
В статье рассказывается о скрипте, который отслеживает время всего процесса от входа до выхода и автоматически отправляет предупреждения при замедлениях, позволяя быстро реагировать и предотвращать проблемы для пользователей.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Oracle Analytics Cloud Health Check with Python: Performance Monitoring and Alerts
This script isn’t just about automation — it’s a performance monitoring and alerts tool. It measures the full end-to-end time (login → export → logoff), and if the process runs slower than expected, it immediately raises an alert so teams can respond before…
Oracle Analytics AI Assistant: как настроить и использовать эффективно. В статье раскрываются основные шаги по настройке AI-ассистента, а также рекомендации для максимальной отдачи от его возможностей в аналитике. Полезно всем, кто работает с Oracle Analytics.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Oracle Analytics Cloud: All about Oracle Analytics AI Assistant
This article discusses the setup of the Oracle Analytics AI Assistant, ways to efficiently leverage this feature, and the best practices for configuring it.
Эспоо внедряет Oracle Cloud Applications и Fusion Data Intelligence для оптимизации финансового управления. Этот шаг помогает городу стать международно связанным и инновационным лидером в сфере цифровых технологий. Подробнее об инициативе и её перспективах.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Espoo – a city with ambition to be a digital leader
The City of Espoo adopts Oracle Cloud Applications and Fusion Data Intelligence for financial management in support of its desire to be an internationally connected pioneer city.
«Таргетинг Портал»: как мы сделали рекламные кампании проще и эффективнее
Привет, Habr! Меня зовут Катя, я продакт-менеджер BigData в «Группе Лента» и отвечаю за развитие цифровых продуктов в направлении монетизации данных. В статье расскажу, как нам удалось уйти от Excel-файлов и ручного согласования сегментов к автоматизированному порталу, с помощью которого рекламные агентства теперь сами собирают нужные им сегменты и выгружают их в MyTarget.
Читать: https://habr.com/ru/companies/lentatech/articles/943756/
#ru
@big_data_analysis | Другие наши каналы
Привет, Habr! Меня зовут Катя, я продакт-менеджер BigData в «Группе Лента» и отвечаю за развитие цифровых продуктов в направлении монетизации данных. В статье расскажу, как нам удалось уйти от Excel-файлов и ручного согласования сегментов к автоматизированному порталу, с помощью которого рекламные агентства теперь сами собирают нужные им сегменты и выгружают их в MyTarget.
Читать: https://habr.com/ru/companies/lentatech/articles/943756/
#ru
@big_data_analysis | Другие наши каналы
Зацените как похорошели транскрибации при Войси!
Вайб-кодинг вайб-кодингом, но как же не хватает простого человеческого «расшифруй мне созвон, только качественно!!». С этим вам поможет Войси.
🤯Этот ИИ-агент может с легкостью сделать из созвона текст, подвести итоги встречи и составить саммари. Войси переводит с 54 языков на русский без всяких артефактов и составляет текст в аккуратные абзацы с выделенными тезисами.
Самое удобное, что далеко ходить не надо — всё это делается прямо в «телеге». Экономьте своё время, превращая часы в минуты.
🔥А новичкам доступны 1,5 часа бесплатной транскрибации. Забирайте: https://tprg.ru/9xQo
Вайб-кодинг вайб-кодингом, но как же не хватает простого человеческого «расшифруй мне созвон, только качественно!!». С этим вам поможет Войси.
🤯Этот ИИ-агент может с легкостью сделать из созвона текст, подвести итоги встречи и составить саммари. Войси переводит с 54 языков на русский без всяких артефактов и составляет текст в аккуратные абзацы с выделенными тезисами.
Самое удобное, что далеко ходить не надо — всё это делается прямо в «телеге». Экономьте своё время, превращая часы в минуты.
🔥А новичкам доступны 1,5 часа бесплатной транскрибации. Забирайте: https://tprg.ru/9xQo
Как вытащить EdTech-компанию из кризиса за счет ИИ в IT-инфраструктуре
Привет, Хабр! Наверняка вы помните успех онлайн-школ во время пандемии — тогда каждый или кого-то учил, или чему-то учился. Однако за пять лет технологии шагнули вперед, а EdTech остался на том же уровне — и это привело к упадку. Зачем платить за курс, если нейросеть может научить чему угодно бесплатно (хоть к качеству обучения и возникают очевидные вопросики)?
В онлайн-школе IBLS смогли превратить ML из конкурента в союзника, и с его помощью осовременить процесс обучения для всех участников. Как это получилось — рассказываю под катом.
Читать: https://habr.com/ru/companies/selectel/articles/943634/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Наверняка вы помните успех онлайн-школ во время пандемии — тогда каждый или кого-то учил, или чему-то учился. Однако за пять лет технологии шагнули вперед, а EdTech остался на том же уровне — и это привело к упадку. Зачем платить за курс, если нейросеть может научить чему угодно бесплатно (хоть к качеству обучения и возникают очевидные вопросики)?
В онлайн-школе IBLS смогли превратить ML из конкурента в союзника, и с его помощью осовременить процесс обучения для всех участников. Как это получилось — рассказываю под катом.
Читать: https://habr.com/ru/companies/selectel/articles/943634/
#ru
@big_data_analysis | Другие наши каналы
🗣Интеллектуальная аналитика для data-driven компаний
11 сентября приглашаем BI-экспертов на Дельта Day — событие, посвящённое передовым тенденциям на рынке аналитики. Приходите и вы, если строите data-driven культуру в компании и хотите узнать больше о возможностях BI-систем.
На Дельта Day вы узнаете:
🔘На что обращать внимание при выборе BI-системы.
🔘Как интеграция BI и BPM помогает управлять продажами.
🔘Об особенностях дизайна и функционала мобильной аналитики.
🔘Чем Дельта BI отличается от других систем на рынке и подходит ли она именно вашему бизнесу.
Успейте зарегистрироваться — места ограничены.
11 сентября приглашаем BI-экспертов на Дельта Day — событие, посвящённое передовым тенденциям на рынке аналитики. Приходите и вы, если строите data-driven культуру в компании и хотите узнать больше о возможностях BI-систем.
На Дельта Day вы узнаете:
🔘На что обращать внимание при выборе BI-системы.
🔘Как интеграция BI и BPM помогает управлять продажами.
🔘Об особенностях дизайна и функционала мобильной аналитики.
🔘Чем Дельта BI отличается от других систем на рынке и подходит ли она именно вашему бизнесу.
Успейте зарегистрироваться — места ограничены.
RocksDB-стейт в стриминге: как ловить потерянные события и дубликаты
В стриминговых пайплайнах всё чаще приходится иметь дело не только с бесконечным потоком данных, но и с состоянием, которое нужно хранить и восстанавливать без потерь. С выходом Spark 3.2 у разработчиков появилась возможность подключать RocksDB в качестве state store — и это открывает новые горизонты для работы с большими объёмами данных. В статье разбираем, как использовать этот подход на практике: от борьбы с дубликатами и пропущенными событиями до тонкостей конфигурации и устойчивости стриминга.
Читать: https://habr.com/ru/companies/otus/articles/941412/
#ru
@big_data_analysis | Другие наши каналы
В стриминговых пайплайнах всё чаще приходится иметь дело не только с бесконечным потоком данных, но и с состоянием, которое нужно хранить и восстанавливать без потерь. С выходом Spark 3.2 у разработчиков появилась возможность подключать RocksDB в качестве state store — и это открывает новые горизонты для работы с большими объёмами данных. В статье разбираем, как использовать этот подход на практике: от борьбы с дубликатами и пропущенными событиями до тонкостей конфигурации и устойчивости стриминга.
Читать: https://habr.com/ru/companies/otus/articles/941412/
#ru
@big_data_analysis | Другие наши каналы
Скорость, стратегия и алгоритмы: будущее Формулы-1 в эпоху AI
Формула-1 всегда была местом пересечения инженерии и инноваций. В последние годы эта область инноваций расширилась за счёт внедрения искусственного интеллекта и машинного обучения.
От стратегии по выбору шин до аэродинамического дизайна — эти технологии меняют то, как команды планируют работу, реагируют на вызовы и развиваются. Они не заменяют человеческих специалистов, принимающих решения, но трансформируют набор инструментов, с которыми ведут борьбу за результат.
Читать: https://habr.com/ru/articles/937302/
#ru
@big_data_analysis | Другие наши каналы
Формула-1 всегда была местом пересечения инженерии и инноваций. В последние годы эта область инноваций расширилась за счёт внедрения искусственного интеллекта и машинного обучения.
От стратегии по выбору шин до аэродинамического дизайна — эти технологии меняют то, как команды планируют работу, реагируют на вызовы и развиваются. Они не заменяют человеческих специалистов, принимающих решения, но трансформируют набор инструментов, с которыми ведут борьбу за результат.
Читать: https://habr.com/ru/articles/937302/
#ru
@big_data_analysis | Другие наши каналы
Arrow Flight + ADBC: как гонять десятки ГБ/с между сервисами без REST
Привет, Хабр!
Когда делаешь сервисы на C++ и вокруг летает много данных, в какой-то момент понимаешь простую вещь: REST хорош для управления сущностями, но плохо подходит для потока колонок в десятки гигабайт в секунду. Переносить фреймы по сто миллионов строк через JSON и спотыкаться об сериализацию — не наш путь. В статье рассмотрим как собрать транспорт данных на Apache Arrow Flight и где встраивается ADBC, чтобы между сервисами гонять таблицы почти на скорости сети и не городить зоопарк драйверов.
Читать: https://habr.com/ru/companies/otus/articles/941432/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр!
Когда делаешь сервисы на C++ и вокруг летает много данных, в какой-то момент понимаешь простую вещь: REST хорош для управления сущностями, но плохо подходит для потока колонок в десятки гигабайт в секунду. Переносить фреймы по сто миллионов строк через JSON и спотыкаться об сериализацию — не наш путь. В статье рассмотрим как собрать транспорт данных на Apache Arrow Flight и где встраивается ADBC, чтобы между сервисами гонять таблицы почти на скорости сети и не городить зоопарк драйверов.
Читать: https://habr.com/ru/companies/otus/articles/941432/
#ru
@big_data_analysis | Другие наши каналы
Как за год вырастить персонализацию на главной: эволюция рекомендаций в fashion ecom
Привет, Хабр! Меня зовут Данил Комаров, я дата-сайентист в команде персонализации Lamoda Tech. Уже больше года мы меняем подход к рекомендациям на главной странице, делая их персонализированными. Я расскажу, как мы внедряли и масштабировали решение, переводили его из оффлайна в онлайн, и бустили систему на разных слоях.
Читать: https://habr.com/ru/companies/lamoda/articles/943272/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Меня зовут Данил Комаров, я дата-сайентист в команде персонализации Lamoda Tech. Уже больше года мы меняем подход к рекомендациям на главной странице, делая их персонализированными. Я расскажу, как мы внедряли и масштабировали решение, переводили его из оффлайна в онлайн, и бустили систему на разных слоях.
Читать: https://habr.com/ru/companies/lamoda/articles/943272/
#ru
@big_data_analysis | Другие наши каналы
Три сказа о построении RAG: От выбора модели до форматирования базы знаний
Привет! Меня зовут Александр Золотых, уже два года я работаю во ВкусВилле разработчиком ИИ-решений. В этой статье хочу рассказать, как мы сделали карманного консультанта по клиентократии — и зачем вообще он понадобился.
ВкусВилл работает по клиентократии — модели управления, которую развивает и распространяет система управления Beyond Taylor. Основная особенность клиентократии — фокус на клиенте, когда все процессы компании выстраиваются для удовлетворения его потребности. Модель инновационная: погружаешься, и возникает множество вопросов. Конечно, лучше спросить и узнать, чем не спросить и не узнать, но не всем и не всегда это просто. Значит, нужно снижать порог входа и сделать описание модели ближе к изучающему.
Именно из этого понимания у нашей команды и появилась идея карманного консультанта — инструмента, который готов отвечать на все «глупые» и каверзные вопросы. Мы поделились замыслом с коллегами из Beyond Taylor, получили их поддержку и приступили к реализации. Так родилась наша первая задача с тем, что сейчас называется RAG (Retrieval-Augmented Generation).
Конечно, есть готовые решения (Notebook LM, Нейроэксперт), но они имеют несколько минусов:
Читать: https://habr.com/ru/companies/vkusvill/articles/944202/
#ru
@big_data_analysis | Другие наши каналы
Привет! Меня зовут Александр Золотых, уже два года я работаю во ВкусВилле разработчиком ИИ-решений. В этой статье хочу рассказать, как мы сделали карманного консультанта по клиентократии — и зачем вообще он понадобился.
ВкусВилл работает по клиентократии — модели управления, которую развивает и распространяет система управления Beyond Taylor. Основная особенность клиентократии — фокус на клиенте, когда все процессы компании выстраиваются для удовлетворения его потребности. Модель инновационная: погружаешься, и возникает множество вопросов. Конечно, лучше спросить и узнать, чем не спросить и не узнать, но не всем и не всегда это просто. Значит, нужно снижать порог входа и сделать описание модели ближе к изучающему.
Именно из этого понимания у нашей команды и появилась идея карманного консультанта — инструмента, который готов отвечать на все «глупые» и каверзные вопросы. Мы поделились замыслом с коллегами из Beyond Taylor, получили их поддержку и приступили к реализации. Так родилась наша первая задача с тем, что сейчас называется RAG (Retrieval-Augmented Generation).
Конечно, есть готовые решения (Notebook LM, Нейроэксперт), но они имеют несколько минусов:
Читать: https://habr.com/ru/companies/vkusvill/articles/944202/
#ru
@big_data_analysis | Другие наши каналы
Dagster или Airflow: что выбрать для оркестрации в DWH-проектах?
Рассказываем, какие задачи решают оркестраторы в проектах внедрения корпоративных хранилищ данных. Выясняем, в чем разница между инструментами, и почему Dagster становится все популярнее в DWH-проектах, чем Airflow.
Читать: https://habr.com/ru/articles/944284/
#ru
@big_data_analysis | Другие наши каналы
Рассказываем, какие задачи решают оркестраторы в проектах внедрения корпоративных хранилищ данных. Выясняем, в чем разница между инструментами, и почему Dagster становится все популярнее в DWH-проектах, чем Airflow.
Читать: https://habr.com/ru/articles/944284/
#ru
@big_data_analysis | Другие наши каналы
Цифровой профиль в ВТБ: как графы и эмбеддинги помогают банку понимать клиентов
Статья рассказывает о том, как банк строит единый цифровой профиль клиента, используя графы и эмбеддинги. Вы узнаете, как разрозненные данные о транзакциях, связях и балансах превращаются в мощный инструмент для анализа и прогнозирования. Разберем, почему классических табличных подходов недостаточно и как графы помогают выявлять скрытые связи между клиентами, как клиенты «превращаются в слова» и на чем измеряется успех. Статья будет полезна data scientist’ам, ML-инженерам и всем, кто интересуется практическим применением графовых методов и машинного обучения в крупном бизнесе.
Читать: https://habr.com/ru/companies/vtb/articles/944338/
#ru
@big_data_analysis | Другие наши каналы
Статья рассказывает о том, как банк строит единый цифровой профиль клиента, используя графы и эмбеддинги. Вы узнаете, как разрозненные данные о транзакциях, связях и балансах превращаются в мощный инструмент для анализа и прогнозирования. Разберем, почему классических табличных подходов недостаточно и как графы помогают выявлять скрытые связи между клиентами, как клиенты «превращаются в слова» и на чем измеряется успех. Статья будет полезна data scientist’ам, ML-инженерам и всем, кто интересуется практическим применением графовых методов и машинного обучения в крупном бизнесе.
Читать: https://habr.com/ru/companies/vtb/articles/944338/
#ru
@big_data_analysis | Другие наши каналы
Практика Kafka: проектирование топиков и обмен сообщениями
Ранее мы с вами развернули кластер Kafka. Что дальше?
В этой статье, как всегда, переходим от теории к практике: разработаем собственные продюсер и консьюмер на Python. Это будет не просто демонстрация кода — мы погрузимся в детали работы с Kafka.
Подробно разберем структуру сообщений Kafka,
Углубимся в основы проектирования: от топиков до настройки клиентов,
На практике изучим ключевые процессы: сериализацию, партиционирование, батчинг и сжатие данных.
Читать: https://habr.com/ru/articles/944432/
#ru
@big_data_analysis | Другие наши каналы
Ранее мы с вами развернули кластер Kafka. Что дальше?
В этой статье, как всегда, переходим от теории к практике: разработаем собственные продюсер и консьюмер на Python. Это будет не просто демонстрация кода — мы погрузимся в детали работы с Kafka.
Подробно разберем структуру сообщений Kafka,
Углубимся в основы проектирования: от топиков до настройки клиентов,
На практике изучим ключевые процессы: сериализацию, партиционирование, батчинг и сжатие данных.
Читать: https://habr.com/ru/articles/944432/
#ru
@big_data_analysis | Другие наши каналы
👍2
Аналитика преимуществ в Fusion Data Intelligence
Benefits Analytics в Fusion Data Intelligence помогает менеджерам и администраторам не просто обрабатывать данные, а извлекать важные инсайты для принятия более эффективных решений в управлении преимуществами сотрудников.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Benefits Analytics в Fusion Data Intelligence помогает менеджерам и администраторам не просто обрабатывать данные, а извлекать важные инсайты для принятия более эффективных решений в управлении преимуществами сотрудников.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Unlocking Workforce Well-Being: Introducing the Benefits Subject Area in Oracle HCM Fusion Data Intelligence (FDI) – 25R2 Update
Explore how Benefits Analytics in Fusion Data Intelligence enables benefit managers and administrators to move beyond transactions and discover insights that shape better decisions.