Data Analysis / Big Data – Telegram

Data Analysis / Big Data

@big_data_analysis

2.83K subscribers

568 photos

4 videos

2 files

2.86K links

Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels

Download Telegram

About

Blog

Apps

Platform

Data Analysis / Big Data

2.83K subscribers

Data Analysis / Big Data

Как избавиться от проприетарных ETL: кейс миграции на dbtt

Несколько лет назад наш корпоративный слой данных жил на проприетарных технологиях. Данных было много, а основная СУБД — MPP-система Sybase IQ — долго не обновлялась. Мы регулярно сталкивались с тем, что у кластера «падали» ноды, каталог базы повреждался, порой даже терялись данные, а вендор не спешил выпускать исправления или даже признавать проблему. ETL-процессы работали через IBM DataStage, который также перестал развиваться. Все решения были закрыты, и мы не могли влиять на их улучшение. Vendor lock-in означает, что вы зависите от поставщика: если вендор не поддерживает нужные возможности, развитие замедляется, а долгоживущие ошибки остаются нерешенными. Такое положение становилось критичным.

Мы поняли, что для устойчивого развития платформы нужно срочно искать альтернативу: переходить на стек, которым мы можем управлять сами. При этом важно было сохранить команду: десятки разработчиков и аналитиков уже работали с существующей моделью. Новому решению следовало быть удобным для аналитиков, прозрачным для бизнеса и гибким для инженеров.

В этой статье рассказываем о том, как мы перешли с проприетарных ETL-инструментов на open-source на базе dbt, какие проблемы решали по ходу внедрения, и как построили экосистему вокруг dbt для автоматизации рутинных задач.

Читать: https://habr.com/ru/companies/gazprombank/articles/947124/

#ru

@big_data_analysis | Другие наши каналы

👍2

356 views09:41

Data Analysis / Big Data

Spark Connect. А нужны ли перемены?

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. Apache Spark давно и прочно занял место одного из ключевых инструментов в арсенале инженеров и дата-сайентистов, работающих с большими данными. Его способность быстро обрабатывать огромные объёмы информации, гибкость за счёт поддержки множества языков (Python, Scala, Java, SQL) и возможность решать самые разнообразные задачи — от сложных ETL до машинного обучения и стриминга — делают его незаменимым инструментом в мире анализа данных.

Читать: https://habr.com/ru/companies/arenadata/articles/921246/

#ru

@big_data_analysis | Другие наши каналы

329 views09:59

Data Analysis / Big Data

DOOH и RTB: как Russ развивает программатические закупки в наружной рекламе

Привет, Хабр! С вами команда Russtech. Сегодня мы хотим рассказать о работе Russ Programmatic, нашего подразделения, разработавшего систему продажи рекламного инвентаря с помощью аукционов в реальном времени. Программатик в DOOH имеет ряд отличий от традиционного digital-программатика. В этой статье мы обсудим эти ключевые особенности и поделимся нашим опытом внедрения программатических продаж.

Читать: https://habr.com/ru/companies/wildberries/articles/947376/

#ru

@big_data_analysis | Другие наши каналы

307 views13:13

Data Analysis / Big Data

Искусственный интеллект помогает энергокомпаниям анализировать погодные тенденции и точно прогнозировать потребление. Благодаря решениям OAC удаётся оптимизировать производство и обеспечить стабильное энергоснабжение. Узнайте, как это работает.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

AI-Powered Analytics for Utilities: From Forecasting to Smarter Energy Decisions

Discover how OAC’s AI-powered analytics enables utilities to analyze weather-driven consumption trends, forecast demand with confidence, optimize generation, and ensure reliable, efficient energy delivery.

260 views22:32

Data Analysis / Big Data

Динамический выбор метрик в Oracle Analytics: как параметры помогают сравнивать данные по годам и кварталам. Такой подход повышает гибкость и информативность дашбордов, делая их удобными для аналитиков и разработчиков. Узнайте подробнее в статье.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

258 views22:32

Data Analysis / Big Data

AI меняет бизнес: как технологии трансформируют компании. На Oracle AI World 2025 лидеры обсудят, как аналитика на базе искусственного интеллекта открывает новые горизонты для цифровой трансформации и развития бизнеса.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

Discover the Impact of AI-Powered Analytics at Oracle AI World 2025

AI is reshaping the way organizations run and compete. At Oracle AI World 2025, enterprise leaders and innovators will come together to explore how AI-powered analytics are driving digital transformation and unlocking new opportunities for growth.

307 views22:32

Data Analysis / Big Data

Автоматизированное машинное обучение с помощью нашего Open Source фреймворка: задача о Титанике

Привет! Меня зовут Владимир Суворов, я Senior Data Scientist в Страховом Доме ВСК и core-разработчик нашей библиотеки машинного обучения OutBoxML.

В статье сегодня мы поговорим не о выборе алгоритмов, а о том, как автоматизировать весь процесс ML — от данных до деплоя и мониторинга, сократив время на подготовку с дней до часов. Мы разберем это на примере классической задачи с Titanic, реализованной на нашем фреймворке.

Приятного прочтения!
Читать и обсуждать

Читать: https://habr.com/ru/companies/vsk_insurance/articles/948584/

#ru

@big_data_analysis | Другие наши каналы

309 views11:04

Data Analysis / Big Data

Селективная генерализация: улучшение возможностей при сохранении alignment

TL;DR: Мы провели бенчмаркинг семи методов, направленных на предотвращение эмерджентного рассогласования и других форм некорректного обобщения с использованием ограниченного объёма alignment-данных. Мы демонстрируем устойчивый трейдофф между способностями модели и согласованием, подчеркивая необходимость более эффективных методов для снижения этого конфликта. Простое включение alignment-данных в микс обучающих данных оказывается недостаточным для предотвращения рассогласования, однако простое наложение KL Divergence penalty на alignment-данные показывает лучшие результаты, чем более сложные подходы.

Читать: https://habr.com/ru/articles/945838/

#ru

@big_data_analysis | Другие наши каналы

329 views11:12

Data Analysis / Big Data

Особенности REMOVEFILTERS в DAX из Power BI

Привет, Хабр! Одной из важных функций-модификаторов в DAX является REMOVEFILTERS, он позволяет, например, убрать фильтр для расчета знаменателя в доле. Однако логика REMOVEFILTERS для столбцов может выглядеть неочевидной, например, REMOVEFILTERS только для одного поля, по которому есть условие в FILTER, не влияет на результат DAX запроса. Так, REMOVEFILTERS(customer[customer_id]) не влияет на FILTER в SUMMARIZECOLUMNS вида FILTER(customer, customer[customer_id] > 2) и для сброса фильтра нужен REMOVEFILTERS(customer) по всей таблице. В связи с этим удобно представить принципы работы REMOVEFILTERS более формально, например, в виде ER диаграммы с подписанными связями. Для построения ER диаграммы был выбран Mermaid и генерация кода диаграммы реализована на C#. Интересующимся особенностями REMOVEFILTERS — добро пожаловать под кат :)

Читать: https://habr.com/ru/articles/948294/

#ru

@big_data_analysis | Другие наши каналы

351 views08:07

Data Analysis / Big Data

Анализируем тренд: почему игрушки Фиксики Digital Collectible неожиданно стали объектом инвестиций?

От цифрового искусства к физическим активам: как NFT меняют парадигму коллекционирования и куда движется рынок.

Внезапный ажиотаж вокруг seemingly обычных детских игрушек — персонажей мультфильма «Фиксики» Digital Collectible — на маркетплейсе Ozon заставляет задуматься: мы наблюдаем спонтанный всплеск ностальгии или первый признак формирования принципиально нового инвестиционного тренда?

Всё указывает на последнее, и вот почему.

Читать: https://habr.com/ru/articles/949020/

#ru

@big_data_analysis | Другие наши каналы

310 views11:28

Data Analysis / Big Data

End-to-end вместо трёх костылей: как мы обошли OCR и выиграли по скорости и точности

Ребята, вы когда-нибудь сталкивались с тем, что ваш шикарный AI-пайплайн для обработки документов спотыкается на самом простом — на чтении текста с картинки? OCR выдает абракадабру, цифры перепутаны, а дальше по цепочке летит вся ваша безупречная логика. Знакомо? У нас была точно такая же боль.

Читать: https://habr.com/ru/companies/datafeel/articles/948380/

#ru

@big_data_analysis | Другие наши каналы

307 views04:35

Data Analysis / Big Data

Практика alignment: данные, RLHF и UX как конкурентное преимущество

Взгляд на самую большую проблему в мире ИИ, почему это важно для вас и почему это так ценно.

Согласованность — одна из самых важных тем в современной области машинного обучения (ML). Независимо от того, являетесь ли вы пользователем продуктов ML, человеком, который их разрабатывает, или компанией, решающей с их помощью задачи, вам стоит знать и хорошо понимать, что такое согласованность.

Читать: https://habr.com/ru/articles/948412/

#ru

@big_data_analysis | Другие наши каналы

316 views11:12

Data Analysis / Big Data

Оптимизация производительности запросов в OLAP‑СУБД: цели, методы и практика

Ниже — выверенная и локализованная на русский язык версия текста об оптимизации производительности СУБД. Термины без устойчивых русских эквивалентов сохранены на английском с первым пояснением.

Читать: https://habr.com/ru/articles/949338/

#ru

@big_data_analysis | Другие наши каналы

313 views11:52

Data Analysis / Big Data

ИИ-психопрофиль аудитории: как анализировать подписчиков в соцсетях с помощью GPT

Любой бизнес хочет лучше понимать своих клиентов. Но если раньше анализ ограничивался полом, возрастом и географией, то сегодня на первый план выходит психопрофиль — интересы, ценности, стиль жизни и поведенческие привычки аудитории.

Искусственный интеллект, в частности GPT-модели, позволяет анализировать такие данные быстро и без громоздких инструментов. Достаточно выгрузить подписчиков и задать ИИ задачу: выделить ключевые интересы и сегменты.

Читать: https://habr.com/ru/articles/949416/

#ru

@big_data_analysis | Другие наши каналы

303 views14:10

Data Analysis / Big Data

Как мы наводим порядок в BI: опыт внедрения процесса ревью отчётов

В 2019 году центральная BI-команда нашей компании столкнулась с типичной задачей: как небольшой командой разработчиков обеспечить качественную аналитику для тысяч сотрудников в условиях быстро растущего бизнеса и высокой самостоятельности подразделений?

Мы сделали ставку на модель self-service BI: инструмент передали бизнес-пользователям, чтобы они могли сами строить отчёты. Идея «демократизации данных» поначалу казалась удачной. Но без чётких правил, стандартов и контроля всё быстро превратилось в BI-хаос: тысячи разрозненных отчётов, низкая производительность, противоречивые метрики и перегруженная инфраструктура на Premium P3. Пользователи жаловались, доверие к BI падало, а управлять этим потоком становилось всё сложнее.

В этой статье мы — Ринат Хабибрахманов, руководитель практики BI в Лемана Тех, и Лариса Фернандес, ведущий разработчик аналитических систем, — делимся опытом нашей команды. Расскажем, как мы шаг за шагом внедряли процесс ревью Power BI-отчётов, чтобы вернуть контроль, улучшить качество аналитики и восстановить доверие пользователей к BI-системе.

Ключевым шагом стало внедрение процесса ревью. Ниже подробно разберём, зачем он понадобился, какие цели мы ставили и как его организовали.

Читать: https://habr.com/ru/articles/948004/

#ru

@big_data_analysis | Другие наши каналы

317 views14:18

Data Analysis / Big Data

MARKER: Собираем свой русскоязычный мультимодальный датасет для оценки VLM

Привет, Хабр! Меня зовут Игорь Рябков. В этой статье расскажу, как мы собрали датасет для оценки Visual Language Models на русском языке и с учетом нашего культурного контекста. Этот проект появился в рамках исследовательской работы в Инженерно-математической школе НИУ ВШЭ и VK под руководством Александра Рогачева (AI VK). Опыт показал — собрать подобный датасет под свои задачи можно и без огромных ресурсов, если подойти к делу системно.

Современные Visual Language Models — мультимодальные братья больших языковых моделей, способные одновременно ы и анализировать изображения. Казалось бы, такие модели открывают множество новых возможностей и для российских пользователей. Однако большинство известных датасетов для VLM — MMBench, MMMU, MME — ориентированы на английский язык и западную аудиторию. Локальные решения вроде K-Viscuit (Корея) и MERA (Россия) только начинают появляться, но их пока недостаточно. Поэтому мы решили собрать датасет, который бы учитывал специфику русского языка и мог покрыть актуальные задачи для пользователей.

Встречайте MARKER: Multimodal Assessment of Russian Knowledge in Educational Realms.

Читать: https://habr.com/ru/companies/vk/articles/947892/

#ru

@big_data_analysis | Другие наши каналы

327 views11:37

Data Analysis / Big Data

Нейтральное сравнение StarRocks и Apache Doris

Это обзор двух проектов аналитических СУБД с открытым исходным кодом, которые развиваются в одном классе задач, но различаются архитектурой, приоритетами и типичными сценариями применения. Ниже — нейтральное сравнение по ключевым аспектам: архитектура и запросный движок, хранение и работа в реальном времени, интеграция с открытыми форматами и lakehouse, производительность, эксплуатация и управление, а также рекомендации по выбору в зависимости от нагрузки.

Читать: https://habr.com/ru/articles/950214/

#ru

@big_data_analysis | Другие наши каналы

281 views13:14

Data Analysis / Big Data

Лучшие фреймворки для машинного обучения в 2025 году

Сегодня ни один крупный проект в области машинного обучения (ML) не обходится без фреймворков — готовых наборов библиотек, в которых базовые алгоритмы уже оптимизированы для различных архитектур. Выбор правильного фреймворка не только упрощает разработку, но и определяет успех проектов по внедрению искусственного интеллекта.

В этой статье эксперты лаборатории искусственного интеллекта российской ИТ-компании «Криптонит» рассматривают самые актуальные фреймворки для машинного обучения, анализируют причины их популярности, ключевые области применения и тенденции развития. Аналитика строится как на собственном опыте, так и на данных специализированных источников, таких как GeeksforGeeks, Upgrad, Octal Software и других, чтобы предоставить аргументированный и непредвзятый обзор.

Мы разделили обзор на две части. В первой рассматриваются фреймворки для глубокого обучения. Они ориентированы на построение и обучение нейронных сетей, в том числе сложных архитектур, таких как свёрточные модели и трансформеры. Вторая часть посвящена фреймворкам для классического машинного обучения. Они используются для работы с моделями, основанными на регрессии, решающих деревьях, методах ансамблирования (например, бустинг) и других алгоритмах без использования глубоких нейросетей.

Читать: https://habr.com/ru/companies/kryptonite/articles/950236/

#ru

@big_data_analysis | Другие наши каналы

278 views07:57

Data Analysis / Big Data

📊 Data Governance Meetup: точные данные для вашего бизнеса

Устали от хаоса в данных?

📍2 октября, Москва, 16.00 — офлайн-митап для специалистов по Data Governance.

В программе:

⚪️ демонстрации ИИ в управлении данными
⚪️ yправление справочниками, повышение качества данных, интеграция систем
⚪️ кейсы внедрения Arenadata Harmony MDM, Arenadata Catalog и FESB

Для вас будут выступать эксперты из HHru, ТМК, Navicon, Arenadata, Неолант Тенакс.

👉 Подробности и регистрация.

👍1

239 views11:02

Data Analysis / Big Data

Без тренировки, но с обучением: имплицитная динамика in-context learning

Одной из наиболее примечательных особенностей Large Language Models (LLM) является их способность к in-context learning — обучению в контексте. В частности, на этапе инференса LLM может усваивать новые паттерны без какого-либо дополнительного обновления весов, если эти паттерны представлены в виде примеров в промпте, даже если эти паттерны не встречались во время обучения. Механизмы, за счёт которых это возможно, всё ещё во многом остаются неизвестными.

В данной работе мы показываем, что комбинация слоя self-attention с MLP позволяет трансформер-блоку неявно модифицировать веса MLP-слоя в зависимости от контекста. Мы утверждаем на основе теоретического анализа и экспериментов, что этот простой механизм может объяснять, почему LLM способны обучаться в контексте, а не только во время тренировки модели. В частности, мы демонстрируем, что при ряде упрощающих допущений трансформер-блок неявно преобразует контекст в low-rank обновление весов MLP-слоя.

Читать: https://habr.com/ru/articles/949064/

#ru

@big_data_analysis | Другие наши каналы

249 views13:54

Data Analysis / Big Data

Создаем тест производительности для Oracle Analytics Cloud с помощью Apache JMeter. В статье подробно описан процесс подготовки и настройки тест-плана, который поможет оценить и улучшить работу аналитической платформы. Полезно для тех, кто работает с нагрузочным тестированием.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы

275 views17:30