Data Analysis / Big Data
2.82K subscribers
570 photos
4 videos
2 files
2.68K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Переосмысление материализованных представлений: высокопроизводительный инструмент для единого lakehouse

Материализованные представления в StarRocks упрощают моделирование данных, ускоряют запросы и повышают актуальность данных в lakehouse‑архитектуре. Разбираем базовые возможности MV, три практических сценария — моделирование, прозрачное ускорение и «lake + warehouse» — и даём ссылки на актуальные рекомендации для StarRocks 3.5.


Читать: https://habr.com/ru/articles/941588/

#ru

@big_data_analysis | Другие наши каналы
👍1
Как мы устроили эпический BI Challenge: 80 героев, 1000 дашбордов и море данных в FineBI

Привет, Хабр! 👋 Меня зовут Семён Юников, я Head of BI в банке Уралсиб. Сегодня расскажу о том, как наш отдел собственными силами превратил масштабную задачу по улучшению аналитических артефактов в захватывающее и геймифицированное приключение под названием BI Challenge. Более 80 участников (внутренних разработчиков нашего Банка), свыше 1000 дашбордов, десятки внутренних обновлений и одно большое профессиональное сообщество.
😎

Читать: https://habr.com/ru/companies/uralsib/articles/941614/

#ru

@big_data_analysis | Другие наши каналы
Spark 4.0 на горизонте: Готовимся к апгрейду или остаёмся на проверенном 3.0?

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. Кажется, ещё вчера мы радовались возможностям Apache Spark 3.0, разбирались с Adaptive Query Execution и наслаждались улучшениями Pandas API. Но мир больших данных не стоит на месте, и вот уже на подходе Apache Spark 4.0. Новый мажорный релиз — это всегда событие: он обещает новые фичи, прирост производительности и, конечно же, новые вызовы при миграции.

Apache Spark де-факто стал стандартом для распределённой обработки данных. От классических ETL-пайплайнов и SQL-аналитики до сложного машинного обучения и стриминга — Spark так или иначе задействован во многих современных data-платформах. Поэтому каждый новый релиз вызывает живой интерес у комьюнити: что там под капотом? Какие проблемы решены? Не сломается ли то, что работало годами?


Читать: https://habr.com/ru/companies/arenadata/articles/921252/

#ru

@big_data_analysis | Другие наши каналы
👍1
Как строить умных AI-агентов: уроки Context Engineering от Manus

В самом начале проекта Manus перед нашей командой встал ключевой вопрос: обучать ли end-to-end агентную модель, используя open-source foundation-модели, или же строить агента поверх возможностей in-context learning у frontier models?

В моё первое десятилетие в NLP у нас и выбора-то такого не было. В далёкие времена BERT (да, прошло уже семь лет) модели приходилось fine-tune'ить и тестировать, прежде чем они могли переноситься на новую задачу. Этот процесс часто занимал недели на одну итерацию, даже при том, что тогдашние модели были крошечными по сравнению с сегодняшними LLM. Для быстроразвивающихся приложений, особенно на этапе до PMF, такие медленные циклы обратной связи — смертный приговор. Это был горький урок из моего прошлого стартапа, где я обучал модели с нуля для open information extraction и семантического поиска. А потом появились GPT-3 и Flan-T5, и мои внутренние модели стали не актуальны буквально за ночь. Ирония в том, что именно эти модели положили начало in-context learning — и открыли совершенно новый путь развития.

Из этого болезненного опыта выбор был очевиден: Manus делает ставку на context engineering. Это позволяет выпускать улучшения за часы, а не за недели, и держит наш продукт ортогональным по отношению к базовым моделям: если прогресс моделей — это прилив, то мы хотим, чтобы Manus был лодкой, а не сваей, вбитой в морское дно.

Тем не менее context engineering оказался далеко не тривиальным делом. Это экспериментальная наука — и мы перестраивали наш агентный фреймворк четыре раза, каждый раз находя более удачный способ формировать контекст. Мы с любовью называем этот ручной процесс перебора архитектур, подбора промптов и эмпирических догадок «Stochastic Graduate Descent». Это не изящно, но работает.

В этом посте я делюсь локальными оптимумами, к которым мы пришли через собственный «SGD». Если вы создаете своего AI-агента, надеюсь, эти принципы помогут вам сойтись к решению быстрее.


Читать: https://habr.com/ru/articles/936954/

#ru

@big_data_analysis | Другие наши каналы
Разбираемся с ReplacingMergeTree в ClickHouse

В мире систем обработки данных редко встречаются инструменты, которые одновременно просты в использовании и решают болезненные задачи архитекторов и инженеров. ReplacingMergeTree в ClickHouse — один из таких случаев. Этот движок берёт на себя рутину по дедупликации и обновлению строк, позволяя хранить только актуальные версии данных без лишних костылей. Как он работает на практике, зачем нужен ORDER BY, чем помогает столбец version и какие подводные камни могут ждать при проектировании — разбираем в статье.


Читать: https://habr.com/ru/companies/otus/articles/940894/

#ru

@big_data_analysis | Другие наши каналы
👍2
Новое расширение для работы с SVG

Расширение PictoStack позволяет преобразовать любые SVG-изображения в динамичные инфографики на основе данных, открывая новые возможности для визуализации информации. Узнайте, как это может изменить подход к графике.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Новый обновление Oracle Analytics Cloud сентября 2025 года предлагает расширенные возможности для визуализации, персонализации и интеллектуального анализа данных. Эти улучшения помогают пользователям работать с информацией быстрее и эффективнее. Подробнее о ключевых нововведениях.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Запуск Oracle Analytics AI Assistant для пользователей с ролью Consumer в рабочих книгах стал доступен. Теперь владельцы рабочих книг могут включать ИИ-ассистента, расширяя возможности анализа данных для конечных пользователей. Подробнее о нововведениях — в статье.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Как OAC помогает бизнесу улучшить удержание клиентов и увеличить доход

Статья рассказывает, как OAC использует данные клиентов для создания эффективных стратегий удержания и развития, открывая новые возможности для продаж и повышения лояльности. Узнайте, как технологии меняют подход к работе с клиентами.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы