Data Analysis / Big Data
2.83K subscribers
560 photos
4 videos
2 files
2.64K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Что нужно знать о приватности данных в 2025, если вы разработчик

Актуальные требования к обработке персональных данных в 2025 году. Как разработчикам соблюдать закон и избежать штрафов. Практические советы по защите информации в коде и архитектуре приложений.

Читать: «Что нужно знать о приватности данных в 2025, если вы разработчик»

#ru

@big_data_analysis | Другие наши каналы
👍2😁1
AI-агенты в деле: 15 рабочих примеров для роста вашего бизнеса

AI-агенты радикально меняют подход технических команд к автоматизации, переходя от традиционных, основанных на правилах workflow к более динамичным, интеллектуальным системам, способным адаптироваться и принимать решения в реальном времени.

В отличие от статической автоматизации, основанной на предопределенных триггерах и действиях, AI-агенты используют большие языковые модели (LLM) для обработки сложных данных, понимания контекста и реагирования на непредсказуемые сценарии.

В этой статье мы рассмотрим 15 практических примеров AI-агентов, продемонстрируем, как они автоматизируют сложные задачи и оптимизируют рабочие процессы. Также мы объясним, как платформы вроде n8n упрощают разработку, кастомизацию и масштабирование AI-агентов для применения в реальных бизнес-кейсах.

Поехали!


Читать: https://habr.com/ru/articles/930158/

#ru

@big_data_analysis | Другие наши каналы
MWS Data Compass: как мы в МТС свой корпоративный BI построили

Привет, Хабр! Я Павел Шестаков, Product Owner BI в MWS. За последние годы цифровой трансформации в нашей компании многие команды прошли путь от хаоса и пересылаемых друг другу «экселек» до удобных выстроенных процессов. И инструменты BI (Business Intelligence) сыграли в этом не последнюю роль.

Сегодня расскажу, как и почему мы внедряли и развивали свой BI и как добились того, что сейчас он обслуживает тысячи пользователей и покоряет внешний рынок. Это будет история про энтузиазм, стартап внутри корпорации, импортозамещение и, конечно же, работу с пользователями. Поехали!


Читать: https://habr.com/ru/companies/ru_mts/articles/930222/

#ru

@big_data_analysis | Другие наши каналы
Почему простой парсер не всегда решает задачу: мой опыт интеграции спортивных API

В рамках собственной системы спортивной аналитики я хотел получить real-time доступ к данным о движении коэффициентов — в частности, с платформы pickingodds.com. У сервиса интересная фича — визуализация графика изменения линии по каждому событию. Это потенциально полезный источник вторичных сигналов (например, для обнаружения аномалий, связанных с резкой коррекцией маркет-мейкеров).

Изначальный план был прост: интегрироваться по REST API, выкачивать данные раз в несколько минут, писать в TSDB, использовать далее для анализа и фичей в ML-пайплайнах. На практике же всё быстро ушло в зону нетривиальной оптимизации.


Читать: https://habr.com/ru/articles/930360/

#ru

@big_data_analysis | Другие наши каналы
По ту сторону океана: как мы съездили на Databricks Data + AI Summit

Представьте, что вы ни разу не выступали на конференциях или митапах, а тут решились и едете на ваше первое выступление, да не куда-нибудь, а на Data + AI Summit в Сан-Франциско. «Так не бывает!» — скажете вы, а я отвечу: «бывает!»

Привет! Это Женя Добрынин, Senior Data Engineer в Dodo Engineering. Сегодня я расскажу о том, как мы с коллегой ездили на конференцию в США, а заодно и о том, во сколько вам обойдётся такая поездка, и что нужно сделать, чтобы она состоялась.


Читать: https://habr.com/ru/companies/dododev/articles/929638/

#ru

@big_data_analysis | Другие наши каналы
Стратегия успеха: ключи к развитию карьеры в Data Science

Привет! Меня зовут Анна Ширшова, я уже 14 лет работаю в Data Science. В этом материале вы найдете мой личный чек‑лист по развитию карьеры: как ставить цели, где искать возможности, какие ошибки тормозят рост и как их обходить.

Работу в ВТБ я начала в качестве лида команды, которую сама собирала с нуля. За время работы она была расширена до целого Кластера моделирования для СRM и оптимизации. В него вошли четыре команды из DE, DS, MLOPs, системных аналитиков и тестировщиков, руководителем которого являюсь.

Некоторые коллеги, которые тогда вошли в команду в качестве junior DS, сейчас уже являются лидерами (product owner) команд Кластера. На основе своего опыта найма и развития сотрудников в сжатые сроки, в этой статье делюсь как стопперами, которые, на мой взгляд, мешают развитию карьеры, так и возможными путями по их устранению.


Читать: https://habr.com/ru/companies/vtb/articles/930660/

#ru

@big_data_analysis | Другие наши каналы
Интеграция приложений с Fusion Data Intelligence

В статье рассказывается о том, как с помощью Semantic Model Sandbox можно объединять внешние приложения для настройки Fusion Data Intelligence. Это открывает новые возможности для гибкой работы с данными и расширяет функционал платформы.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Gemini с режимом Deep Think впервые получил «золото» на Международной математической олимпиаде

Продвинутая версия Gemini от Google DeepMind завоевала золотую медаль на IMO 2025, решив 5 из 6 задач. Впервые модель на естественном языке прошла официальную проверку жюри олимпиады — и доказала, что способна рассуждать, как лучшие молодые математики планеты.

Читать: «Gemini с режимом Deep Think впервые получил «золото» на Международной математической олимпиаде»

#ru

@big_data_analysis | Другие наши каналы
ELT процесс в архитектуре Data lakehouse на базе open-source (kafka, dagster, s3+iceberg, trino, clickhouse и DBT)

К нам обратился один из крупнейших строительных холдингов России (ГК компаний из 10+ юридических лиц) с потребностью в сборе всех данных с филиалом, анализе и визуализации на дашбордах.

При входе на проект аналитической инфраструктуры у компании почти не было, только множество учетных систем без централизованного хранилища данных. Объем проекта был непонятен, «аппетит приходит во время еды». Важная особенность проекта — полностью закрытый контур с доступом через терминальные решения.

Было решение выбрать архитектуру Data Lakehouse на open source стеке, основой которого стали — kafka, dagster, s3+iceberg, trino, clickhouse и DBT. В результате получилось более 1000 моделей DBT, 1 тб сжатых данных, и объем продолжает расти.

Из потребителей данных — бизнес системы, Power BI отчеты, аналитики и дата‑инженеры, веб‑приложения, MDX‑кубы.

Методология ведения проекта Scrum, команда DWH‑инженеров 11 человек и greenfield‑разработка.


Читать: https://habr.com/ru/articles/931282/

#ru

@big_data_analysis | Другие наши каналы
👍1
DAX-style подход в C# для SUMMARIZECOLUMNS из Power BI

Привет, Хабр! Одной из важных функций в аналитическом языке DAX является SUMMARIZECOLUMNS, т.к. она готовит данные для дашбордов за счет декартова произведения полей группировки, если поля группировки из разных таблиц. Понятно, что на любом языке программирования можно реализовать логику, в чем-то аналогичную SUMMARIZECOLUMNS из DAX. Интересующимся DAX-style логикой для C# из NuGet пакета DaxSharp для функцииSUMMARIZECOLUMNS — добро пожаловать под кат :)


Читать: https://habr.com/ru/articles/928416/

#ru

@big_data_analysis | Другие наши каналы
Топ-5 проблем цифровизации

Потребность в цифровизации и дефицит ИТ-специалистов стимулируют бизнес внедрять low-code платформы для быстрой разработки с минимальным объемом ручного кодирования. Это позволяет не только ускорить и улучшить внутренние процессы, но и использовать готовые ИТ-решения, доказавшие свою эффективность.

Две трети крупного российского бизнеса уже внедрили low-code платформы, чтобы сохранять конкурентоспособность и повышать уровень автоматизации. В этом материале поделимся ключевыми выводами нашего исследования и разберем ТОП-5 проблем, с которыми сталкиваются компании сегодня.

Основные причины внедрения low-code

Компании стремятся найти оптимальное решение, которое будет отвечать определённым внутренним требованиям и эффективно поддерживать их бизнес-процессы.

Одной из ключевых проблем остаётся интеграция с корпоративными сервисами. ИТ-директора и руководители цифровой трансформации часто говорят про «зоопарк систем» и «лоскутную» ИТ-инфраструктуру, в то время как бизнесу требуются решения с интуитивно понятным интерфейсом, не требующие глубокой технической подготовки и позволяющие объединить данные из разных источников в одном цифровом контуре. Такие системы упрощают интеграцию, повышают прозрачность процессов и создают единую точку доступа к корпоративной информации в режиме реального времени.

Мы подготовили масштабное исследование цифровизации крупного и среднего бизнеса в России: проанализировали 120 открытых источников и провели глубинные интервью с 50 представителями рынка. 70% составили руководители корпоративных ИТ-служб, 30% — бизнес-пользователи. В выборку вошли крупные и средние компании с численностью сотрудников от 1 000 человек и годовой выручкой от 20 млрд рублей. Исследование охватило ключевые отрасли: информационные технологии (системные интеграторы и разработчики ИТ-решений), розничную торговлю (сетевые продуктовые ритейлеры, FMCG, пищевые производства), промышленность (крупные промышленные предприятия и ТЭК), финансовый сектор (банки и страховые компании), а также фармацевтику (производственные компании и аптечные сети).


Читать: https://habr.com/ru/companies/bpmsoft/articles/931640/

#ru

@big_data_analysis | Другие наши каналы
Эволюция архитектур больших языковых моделей: от GPT-2 к современным решениям

Прошло семь лет с момента разработки оригинальной архитектуры GPT. На первый взгляд, если оглянуться на GPT-2 (2019) и взглянуть вперёд на DeepSeek-V3 и Llama 4 (2024–2025), можно удивиться, насколько эти модели по-прежнему структурно схожи.

Разумеется, позиционные эмбеддинги эволюционировали от абсолютных к роторационным (RoPE), Multi-Head Attention в значительной степени уступил место Grouped-Query Attention, а более эффективная SwiGLU заменила такие функции активации, как GELU. Но если отбросить эти незначительные усовершенствования, действительно ли мы наблюдаем принципиальные архитектурные сдвиги — или просто продолжаем полировать одни и те же фундаментальные конструкции?

Сравнение LLM между собой с целью выявления ключевых факторов, влияющих на их качество (или недостатки), по-прежнему остаётся крайне нетривиальной задачей: датасеты, методы обучения и гиперпараметры сильно различаются и зачастую плохо документированы.

Тем не менее, я считаю, что изучение именно архитектурных изменений остаётся ценным подходом, позволяющим понять, над чем работают разработчики LLM в 2025 году.


Читать: https://habr.com/ru/articles/931382/

#ru

@big_data_analysis | Другие наши каналы
Будущее Python: какие тренды развития и боли языка обсуждали на PyCon 2025

Что обсуждали на PyCon 2025? Отказ от GIL в CPython 3.14, управление зависимостями, статический анализ, научный код, ML4Code и безопасность open source — всё о будущем Python.

Читать: «Будущее Python: какие тренды развития и боли языка обсуждали на PyCon 2025»

#ru

@big_data_analysis | Другие наши каналы
Давайте уже потише с ИИ

Ну хорошо, ну есть у нас ИИ. Уже как 3 года он есть. А толку? Как его правильно впихивать в техпроцесс?

- Меня не надо впихивать!

- ЧЕМ ТЫ ЭТО СКАЗАЛ?


Читать: https://habr.com/ru/articles/932252/

#ru

@big_data_analysis | Другие наши каналы
Балансируя на грани: как внедрить Differential Privacy в аналитические пайплайны на Python

В этой статье я расскажу, как добавить механизмы Differential Privacy (DP) в ваши ETL‑ и аналитические пайплайны на Python, чтобы защитить пользовательские данные и при этом сохранить качество ключевых метрик. Пошаговые примеры с реальным кодом, советы по настройке ε‑бюджета и интеграции в Airflow помогут вам избежать самых распространённых подводных камней.


Читать: https://habr.com/ru/articles/932322/

#ru

@big_data_analysis | Другие наши каналы
ClickHouse не тормозит, но теряет данные. Часть 1 — дедупликация

ClickHouse не тормозит, но теряет данные. Набор простых действий с объяснениями, позволяющий избежать потери данных


Читать: https://habr.com/ru/articles/932502/

#ru

@big_data_analysis | Другие наши каналы
Retrieval-Augmented Generation (RAG): глубокий технический обзор

Retrieval-Augmented Generation (RAG) – это архитектурный подход к генеративным моделям, который сочетает навыки поиска информации с генеративными возможностями больших языковых моделей (LLM). Идея RAG была предложена в 2020 году, чтобы преодолеть ограничение LLM – замкнутость на знаниях из обучающих данных. Вместо попыток «вживить» все знания в параметры модели, RAG-подход позволяет модели запрашивать актуальные сведения из внешних источников (баз знаний) во время генерации ответа. Это обеспечивает более точные и актуальные ответы, опирающиеся на факты, а не только на память модели.

В этой статье мы подробно рассмотрим: архитектуру RAG, её компоненты и этапы работы, современные инструменты и практики для реализации RAG, примеры кода на Python, кейсы применения в бизнесе и науке, технические вызовы и лучшие практики, сравнение RAG с классическим fine-tuning, перспективы технологии.


Читать: https://habr.com/ru/articles/931396/

#ru

@big_data_analysis | Другие наши каналы
Геоданные VS медицина. На чем строить ГИС анализ в здравоохранении в 2025 году?

Геоаналитика VS медицина: могут ли карты спасать жизни людям?

COVID-19 научил нас главному: болезни распространяются не по документам, а по реальным улицам и домам. Геоаналитика — это не только про картинки, но и про задачи. Я 5 лет превращаю медицинский хаос в цифры и карты — и вот что я понял и решил поделиться с Хабром.
Почему так — читаем

Читать: https://habr.com/ru/articles/932802/

#ru

@big_data_analysis | Другие наши каналы
Как я строил антифрод-систему для ставок: неожиданные сложности и решения

Индустрия ставок требует мощных и гибких систем для мониторинга ставок и защиты от мошенничества. Построение антифрод-системы, способной эффективно фильтровать подозрительные активности, стало непростой задачей. В этой статье я поделюсь подробностями технической части разработки антифрод-системы для ставок, построенной на основе данных из различных источников, в том числе sidestake net.


Читать: https://habr.com/ru/articles/932826/

#ru

@big_data_analysis | Другие наши каналы
Почему Kent выбрал Oracle Fusion Data Intelligence В статье рассказывается, как Kent использует технологии Oracle для повышения эффективности закупок и управления поставщиками в крупных инженерных проектах благодаря аналитике данных и современным решениям.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы