Переосмысление материализованных представлений: высокопроизводительный инструмент для единого lakehouse
Материализованные представления в StarRocks упрощают моделирование данных, ускоряют запросы и повышают актуальность данных в lakehouse‑архитектуре. Разбираем базовые возможности MV, три практических сценария — моделирование, прозрачное ускорение и «lake + warehouse» — и даём ссылки на актуальные рекомендации для StarRocks 3.5.
Читать: https://habr.com/ru/articles/941588/
#ru
@big_data_analysis | Другие наши каналы
Материализованные представления в StarRocks упрощают моделирование данных, ускоряют запросы и повышают актуальность данных в lakehouse‑архитектуре. Разбираем базовые возможности MV, три практических сценария — моделирование, прозрачное ускорение и «lake + warehouse» — и даём ссылки на актуальные рекомендации для StarRocks 3.5.
Читать: https://habr.com/ru/articles/941588/
#ru
@big_data_analysis | Другие наши каналы
👍1
Как мы устроили эпический BI Challenge: 80 героев, 1000 дашбордов и море данных в FineBI
Привет, Хабр! 👋 Меня зовут Семён Юников, я Head of BI в банке Уралсиб. Сегодня расскажу о том, как наш отдел собственными силами превратил масштабную задачу по улучшению аналитических артефактов в захватывающее и геймифицированное приключение под названием BI Challenge. Более 80 участников (внутренних разработчиков нашего Банка), свыше 1000 дашбордов, десятки внутренних обновлений и одно большое профессиональное сообщество.
😎
Читать: https://habr.com/ru/companies/uralsib/articles/941614/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! 👋 Меня зовут Семён Юников, я Head of BI в банке Уралсиб. Сегодня расскажу о том, как наш отдел собственными силами превратил масштабную задачу по улучшению аналитических артефактов в захватывающее и геймифицированное приключение под названием BI Challenge. Более 80 участников (внутренних разработчиков нашего Банка), свыше 1000 дашбордов, десятки внутренних обновлений и одно большое профессиональное сообщество.
😎
Читать: https://habr.com/ru/companies/uralsib/articles/941614/
#ru
@big_data_analysis | Другие наши каналы
Spark 4.0 на горизонте: Готовимся к апгрейду или остаёмся на проверенном 3.0?
Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. Кажется, ещё вчера мы радовались возможностям Apache Spark 3.0, разбирались с Adaptive Query Execution и наслаждались улучшениями Pandas API. Но мир больших данных не стоит на месте, и вот уже на подходе Apache Spark 4.0. Новый мажорный релиз — это всегда событие: он обещает новые фичи, прирост производительности и, конечно же, новые вызовы при миграции.
Apache Spark де-факто стал стандартом для распределённой обработки данных. От классических ETL-пайплайнов и SQL-аналитики до сложного машинного обучения и стриминга — Spark так или иначе задействован во многих современных data-платформах. Поэтому каждый новый релиз вызывает живой интерес у комьюнити: что там под капотом? Какие проблемы решены? Не сломается ли то, что работало годами?
Читать: https://habr.com/ru/companies/arenadata/articles/921252/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. Кажется, ещё вчера мы радовались возможностям Apache Spark 3.0, разбирались с Adaptive Query Execution и наслаждались улучшениями Pandas API. Но мир больших данных не стоит на месте, и вот уже на подходе Apache Spark 4.0. Новый мажорный релиз — это всегда событие: он обещает новые фичи, прирост производительности и, конечно же, новые вызовы при миграции.
Apache Spark де-факто стал стандартом для распределённой обработки данных. От классических ETL-пайплайнов и SQL-аналитики до сложного машинного обучения и стриминга — Spark так или иначе задействован во многих современных data-платформах. Поэтому каждый новый релиз вызывает живой интерес у комьюнити: что там под капотом? Какие проблемы решены? Не сломается ли то, что работало годами?
Читать: https://habr.com/ru/companies/arenadata/articles/921252/
#ru
@big_data_analysis | Другие наши каналы
👍1
Как строить умных AI-агентов: уроки Context Engineering от Manus
В самом начале проекта Manus перед нашей командой встал ключевой вопрос: обучать ли end-to-end агентную модель, используя open-source foundation-модели, или же строить агента поверх возможностей in-context learning у frontier models?
В моё первое десятилетие в NLP у нас и выбора-то такого не было. В далёкие времена BERT (да, прошло уже семь лет) модели приходилось fine-tune'ить и тестировать, прежде чем они могли переноситься на новую задачу. Этот процесс часто занимал недели на одну итерацию, даже при том, что тогдашние модели были крошечными по сравнению с сегодняшними LLM. Для быстроразвивающихся приложений, особенно на этапе до PMF, такие медленные циклы обратной связи — смертный приговор. Это был горький урок из моего прошлого стартапа, где я обучал модели с нуля для open information extraction и семантического поиска. А потом появились GPT-3 и Flan-T5, и мои внутренние модели стали не актуальны буквально за ночь. Ирония в том, что именно эти модели положили начало in-context learning — и открыли совершенно новый путь развития.
Из этого болезненного опыта выбор был очевиден: Manus делает ставку на context engineering. Это позволяет выпускать улучшения за часы, а не за недели, и держит наш продукт ортогональным по отношению к базовым моделям: если прогресс моделей — это прилив, то мы хотим, чтобы Manus был лодкой, а не сваей, вбитой в морское дно.
Тем не менее context engineering оказался далеко не тривиальным делом. Это экспериментальная наука — и мы перестраивали наш агентный фреймворк четыре раза, каждый раз находя более удачный способ формировать контекст. Мы с любовью называем этот ручной процесс перебора архитектур, подбора промптов и эмпирических догадок «Stochastic Graduate Descent». Это не изящно, но работает.
В этом посте я делюсь локальными оптимумами, к которым мы пришли через собственный «SGD». Если вы создаете своего AI-агента, надеюсь, эти принципы помогут вам сойтись к решению быстрее.
Читать: https://habr.com/ru/articles/936954/
#ru
@big_data_analysis | Другие наши каналы
В самом начале проекта Manus перед нашей командой встал ключевой вопрос: обучать ли end-to-end агентную модель, используя open-source foundation-модели, или же строить агента поверх возможностей in-context learning у frontier models?
В моё первое десятилетие в NLP у нас и выбора-то такого не было. В далёкие времена BERT (да, прошло уже семь лет) модели приходилось fine-tune'ить и тестировать, прежде чем они могли переноситься на новую задачу. Этот процесс часто занимал недели на одну итерацию, даже при том, что тогдашние модели были крошечными по сравнению с сегодняшними LLM. Для быстроразвивающихся приложений, особенно на этапе до PMF, такие медленные циклы обратной связи — смертный приговор. Это был горький урок из моего прошлого стартапа, где я обучал модели с нуля для open information extraction и семантического поиска. А потом появились GPT-3 и Flan-T5, и мои внутренние модели стали не актуальны буквально за ночь. Ирония в том, что именно эти модели положили начало in-context learning — и открыли совершенно новый путь развития.
Из этого болезненного опыта выбор был очевиден: Manus делает ставку на context engineering. Это позволяет выпускать улучшения за часы, а не за недели, и держит наш продукт ортогональным по отношению к базовым моделям: если прогресс моделей — это прилив, то мы хотим, чтобы Manus был лодкой, а не сваей, вбитой в морское дно.
Тем не менее context engineering оказался далеко не тривиальным делом. Это экспериментальная наука — и мы перестраивали наш агентный фреймворк четыре раза, каждый раз находя более удачный способ формировать контекст. Мы с любовью называем этот ручной процесс перебора архитектур, подбора промптов и эмпирических догадок «Stochastic Graduate Descent». Это не изящно, но работает.
В этом посте я делюсь локальными оптимумами, к которым мы пришли через собственный «SGD». Если вы создаете своего AI-агента, надеюсь, эти принципы помогут вам сойтись к решению быстрее.
Читать: https://habr.com/ru/articles/936954/
#ru
@big_data_analysis | Другие наши каналы
Разбираемся с ReplacingMergeTree в ClickHouse
В мире систем обработки данных редко встречаются инструменты, которые одновременно просты в использовании и решают болезненные задачи архитекторов и инженеров. ReplacingMergeTree в ClickHouse — один из таких случаев. Этот движок берёт на себя рутину по дедупликации и обновлению строк, позволяя хранить только актуальные версии данных без лишних костылей. Как он работает на практике, зачем нужен
Читать: https://habr.com/ru/companies/otus/articles/940894/
#ru
@big_data_analysis | Другие наши каналы
В мире систем обработки данных редко встречаются инструменты, которые одновременно просты в использовании и решают болезненные задачи архитекторов и инженеров. ReplacingMergeTree в ClickHouse — один из таких случаев. Этот движок берёт на себя рутину по дедупликации и обновлению строк, позволяя хранить только актуальные версии данных без лишних костылей. Как он работает на практике, зачем нужен
ORDER BY
, чем помогает столбец version
и какие подводные камни могут ждать при проектировании — разбираем в статье.Читать: https://habr.com/ru/companies/otus/articles/940894/
#ru
@big_data_analysis | Другие наши каналы
👍2
Новое расширение для работы с SVG
Расширение PictoStack позволяет преобразовать любые SVG-изображения в динамичные инфографики на основе данных, открывая новые возможности для визуализации информации. Узнайте, как это может изменить подход к графике.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Расширение PictoStack позволяет преобразовать любые SVG-изображения в динамичные инфографики на основе данных, открывая новые возможности для визуализации информации. Узнайте, как это может изменить подход к графике.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Turn Your SVGs into Data-Rich Infographics with PictoStack
The PictoStack custom extension lets you transform any SVG image into a dynamic, data-driven infographic.
Новый обновление Oracle Analytics Cloud сентября 2025 года предлагает расширенные возможности для визуализации, персонализации и интеллектуального анализа данных. Эти улучшения помогают пользователям работать с информацией быстрее и эффективнее. Подробнее о ключевых нововведениях.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Telegram
Data Analysis / Big Data
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке
Разместить рекламу: @tproger_sales_bot
Правила общения: https://tprg.ru/rules
Другие каналы: @tproger_channels
Разместить рекламу: @tproger_sales_bot
Правила общения: https://tprg.ru/rules
Другие каналы: @tproger_channels
Запуск Oracle Analytics AI Assistant для пользователей с ролью Consumer в рабочих книгах стал доступен. Теперь владельцы рабочих книг могут включать ИИ-ассистента, расширяя возможности анализа данных для конечных пользователей. Подробнее о нововведениях — в статье.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
Enabling Oracle Analytics AI Assistant for Consumer role users in Workbooks
Enabling Oracle Analytics AI Assistant for Consumers in Workbooks
Как OAC помогает бизнесу улучшить удержание клиентов и увеличить доход
Статья рассказывает, как OAC использует данные клиентов для создания эффективных стратегий удержания и развития, открывая новые возможности для продаж и повышения лояльности. Узнайте, как технологии меняют подход к работе с клиентами.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Статья рассказывает, как OAC использует данные клиентов для создания эффективных стратегий удержания и развития, открывая новые возможности для продаж и повышения лояльности. Узнайте, как технологии меняют подход к работе с клиентами.
Читать подробнее
#en
@big_data_analysis | Другие наши каналы
Oracle
AI-Powered Analytics for Telecom: From Churn to Retention and Growth
In this article, we’ll explore how OAC turns customer data into action, helping providers strengthen loyalty through smarter retention strategies while also unlocking new growth opportunities through upselling, cross-selling, and innovative services.