Data Analysis / Big Data
2.84K subscribers
559 photos
4 videos
2 files
2.64K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
BI: 5 трендов в сфере ИИ

Привет, Хабр! Сегодня я предлагаю немного порассуждать на тему ИИ в сфере BI-аналитики. В последнее время тема искусственного интеллекта все чаще поднимается на конференциях, да и мне самому все больше приходится рассуждать про ИИ и даже делать доклады о методах его применения (например, как на конференции Data&AI). Совершенно точно вокруг очень много хайпа и хочется разобраться, где же на самом деле ИИ в контексте BI-аналитики даёт реальное преимущество, а где — всё ещё нет.


Читать: https://habr.com/ru/companies/visiology/articles/928718/

#ru

@big_data_analysis | Другие наши каналы
ИИ без регистрации и VPN: быстрый доступ к GPT, Claude и Gemini

Как пользоваться GPT, Claude и Gemini в России без VPN и регистрации: подборка сервисов для быстрого старта.

Читать: «ИИ без регистрации и VPN: быстрый доступ к GPT, Claude и Gemini»

#ru

@big_data_analysis | Другие наши каналы
Как найти работу в IT за границей в 2025 году: ответы на часто задаваемые вопросы и рекомендации экспертов

Свежая статистика, исследования и советы экспертов: как российским IT-специалистам найти работу за границей в 2025 году.

Читать: «Как найти работу в IT за границей в 2025 году: ответы на часто задаваемые вопросы и рекомендации экспертов»

#ru

@big_data_analysis | Другие наши каналы
Визуализация организационной структуры в Fusion Data Intelligence

В статье рассказывается, как функция Position Hierarchy в Fusion Data Intelligence (версия 25R2) позволяет наглядно увидеть структуру компании через позиции сотрудников, упрощая анализ и управление.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Использование сервиса FDI Extract для расширения аналитики

В статье рассказывается, как администраторы могут применять Fusion Data Intelligence Extract Service для получения данных из отчетов Analytics Publisher и создавать дополнительные решения для бизнеса. Это открывает новые возможности в работе с аналитикой.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Что нужно знать о приватности данных в 2025, если вы разработчик

Актуальные требования к обработке персональных данных в 2025 году. Как разработчикам соблюдать закон и избежать штрафов. Практические советы по защите информации в коде и архитектуре приложений.

Читать: «Что нужно знать о приватности данных в 2025, если вы разработчик»

#ru

@big_data_analysis | Другие наши каналы
👍2😁1
AI-агенты в деле: 15 рабочих примеров для роста вашего бизнеса

AI-агенты радикально меняют подход технических команд к автоматизации, переходя от традиционных, основанных на правилах workflow к более динамичным, интеллектуальным системам, способным адаптироваться и принимать решения в реальном времени.

В отличие от статической автоматизации, основанной на предопределенных триггерах и действиях, AI-агенты используют большие языковые модели (LLM) для обработки сложных данных, понимания контекста и реагирования на непредсказуемые сценарии.

В этой статье мы рассмотрим 15 практических примеров AI-агентов, продемонстрируем, как они автоматизируют сложные задачи и оптимизируют рабочие процессы. Также мы объясним, как платформы вроде n8n упрощают разработку, кастомизацию и масштабирование AI-агентов для применения в реальных бизнес-кейсах.

Поехали!


Читать: https://habr.com/ru/articles/930158/

#ru

@big_data_analysis | Другие наши каналы
MWS Data Compass: как мы в МТС свой корпоративный BI построили

Привет, Хабр! Я Павел Шестаков, Product Owner BI в MWS. За последние годы цифровой трансформации в нашей компании многие команды прошли путь от хаоса и пересылаемых друг другу «экселек» до удобных выстроенных процессов. И инструменты BI (Business Intelligence) сыграли в этом не последнюю роль.

Сегодня расскажу, как и почему мы внедряли и развивали свой BI и как добились того, что сейчас он обслуживает тысячи пользователей и покоряет внешний рынок. Это будет история про энтузиазм, стартап внутри корпорации, импортозамещение и, конечно же, работу с пользователями. Поехали!


Читать: https://habr.com/ru/companies/ru_mts/articles/930222/

#ru

@big_data_analysis | Другие наши каналы
Почему простой парсер не всегда решает задачу: мой опыт интеграции спортивных API

В рамках собственной системы спортивной аналитики я хотел получить real-time доступ к данным о движении коэффициентов — в частности, с платформы pickingodds.com. У сервиса интересная фича — визуализация графика изменения линии по каждому событию. Это потенциально полезный источник вторичных сигналов (например, для обнаружения аномалий, связанных с резкой коррекцией маркет-мейкеров).

Изначальный план был прост: интегрироваться по REST API, выкачивать данные раз в несколько минут, писать в TSDB, использовать далее для анализа и фичей в ML-пайплайнах. На практике же всё быстро ушло в зону нетривиальной оптимизации.


Читать: https://habr.com/ru/articles/930360/

#ru

@big_data_analysis | Другие наши каналы
По ту сторону океана: как мы съездили на Databricks Data + AI Summit

Представьте, что вы ни разу не выступали на конференциях или митапах, а тут решились и едете на ваше первое выступление, да не куда-нибудь, а на Data + AI Summit в Сан-Франциско. «Так не бывает!» — скажете вы, а я отвечу: «бывает!»

Привет! Это Женя Добрынин, Senior Data Engineer в Dodo Engineering. Сегодня я расскажу о том, как мы с коллегой ездили на конференцию в США, а заодно и о том, во сколько вам обойдётся такая поездка, и что нужно сделать, чтобы она состоялась.


Читать: https://habr.com/ru/companies/dododev/articles/929638/

#ru

@big_data_analysis | Другие наши каналы
Стратегия успеха: ключи к развитию карьеры в Data Science

Привет! Меня зовут Анна Ширшова, я уже 14 лет работаю в Data Science. В этом материале вы найдете мой личный чек‑лист по развитию карьеры: как ставить цели, где искать возможности, какие ошибки тормозят рост и как их обходить.

Работу в ВТБ я начала в качестве лида команды, которую сама собирала с нуля. За время работы она была расширена до целого Кластера моделирования для СRM и оптимизации. В него вошли четыре команды из DE, DS, MLOPs, системных аналитиков и тестировщиков, руководителем которого являюсь.

Некоторые коллеги, которые тогда вошли в команду в качестве junior DS, сейчас уже являются лидерами (product owner) команд Кластера. На основе своего опыта найма и развития сотрудников в сжатые сроки, в этой статье делюсь как стопперами, которые, на мой взгляд, мешают развитию карьеры, так и возможными путями по их устранению.


Читать: https://habr.com/ru/companies/vtb/articles/930660/

#ru

@big_data_analysis | Другие наши каналы
Интеграция приложений с Fusion Data Intelligence

В статье рассказывается о том, как с помощью Semantic Model Sandbox можно объединять внешние приложения для настройки Fusion Data Intelligence. Это открывает новые возможности для гибкой работы с данными и расширяет функционал платформы.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Gemini с режимом Deep Think впервые получил «золото» на Международной математической олимпиаде

Продвинутая версия Gemini от Google DeepMind завоевала золотую медаль на IMO 2025, решив 5 из 6 задач. Впервые модель на естественном языке прошла официальную проверку жюри олимпиады — и доказала, что способна рассуждать, как лучшие молодые математики планеты.

Читать: «Gemini с режимом Deep Think впервые получил «золото» на Международной математической олимпиаде»

#ru

@big_data_analysis | Другие наши каналы
ELT процесс в архитектуре Data lakehouse на базе open-source (kafka, dagster, s3+iceberg, trino, clickhouse и DBT)

К нам обратился один из крупнейших строительных холдингов России (ГК компаний из 10+ юридических лиц) с потребностью в сборе всех данных с филиалом, анализе и визуализации на дашбордах.

При входе на проект аналитической инфраструктуры у компании почти не было, только множество учетных систем без централизованного хранилища данных. Объем проекта был непонятен, «аппетит приходит во время еды». Важная особенность проекта — полностью закрытый контур с доступом через терминальные решения.

Было решение выбрать архитектуру Data Lakehouse на open source стеке, основой которого стали — kafka, dagster, s3+iceberg, trino, clickhouse и DBT. В результате получилось более 1000 моделей DBT, 1 тб сжатых данных, и объем продолжает расти.

Из потребителей данных — бизнес системы, Power BI отчеты, аналитики и дата‑инженеры, веб‑приложения, MDX‑кубы.

Методология ведения проекта Scrum, команда DWH‑инженеров 11 человек и greenfield‑разработка.


Читать: https://habr.com/ru/articles/931282/

#ru

@big_data_analysis | Другие наши каналы
👍1
DAX-style подход в C# для SUMMARIZECOLUMNS из Power BI

Привет, Хабр! Одной из важных функций в аналитическом языке DAX является SUMMARIZECOLUMNS, т.к. она готовит данные для дашбордов за счет декартова произведения полей группировки, если поля группировки из разных таблиц. Понятно, что на любом языке программирования можно реализовать логику, в чем-то аналогичную SUMMARIZECOLUMNS из DAX. Интересующимся DAX-style логикой для C# из NuGet пакета DaxSharp для функцииSUMMARIZECOLUMNS — добро пожаловать под кат :)


Читать: https://habr.com/ru/articles/928416/

#ru

@big_data_analysis | Другие наши каналы
Топ-5 проблем цифровизации

Потребность в цифровизации и дефицит ИТ-специалистов стимулируют бизнес внедрять low-code платформы для быстрой разработки с минимальным объемом ручного кодирования. Это позволяет не только ускорить и улучшить внутренние процессы, но и использовать готовые ИТ-решения, доказавшие свою эффективность.

Две трети крупного российского бизнеса уже внедрили low-code платформы, чтобы сохранять конкурентоспособность и повышать уровень автоматизации. В этом материале поделимся ключевыми выводами нашего исследования и разберем ТОП-5 проблем, с которыми сталкиваются компании сегодня.

Основные причины внедрения low-code

Компании стремятся найти оптимальное решение, которое будет отвечать определённым внутренним требованиям и эффективно поддерживать их бизнес-процессы.

Одной из ключевых проблем остаётся интеграция с корпоративными сервисами. ИТ-директора и руководители цифровой трансформации часто говорят про «зоопарк систем» и «лоскутную» ИТ-инфраструктуру, в то время как бизнесу требуются решения с интуитивно понятным интерфейсом, не требующие глубокой технической подготовки и позволяющие объединить данные из разных источников в одном цифровом контуре. Такие системы упрощают интеграцию, повышают прозрачность процессов и создают единую точку доступа к корпоративной информации в режиме реального времени.

Мы подготовили масштабное исследование цифровизации крупного и среднего бизнеса в России: проанализировали 120 открытых источников и провели глубинные интервью с 50 представителями рынка. 70% составили руководители корпоративных ИТ-служб, 30% — бизнес-пользователи. В выборку вошли крупные и средние компании с численностью сотрудников от 1 000 человек и годовой выручкой от 20 млрд рублей. Исследование охватило ключевые отрасли: информационные технологии (системные интеграторы и разработчики ИТ-решений), розничную торговлю (сетевые продуктовые ритейлеры, FMCG, пищевые производства), промышленность (крупные промышленные предприятия и ТЭК), финансовый сектор (банки и страховые компании), а также фармацевтику (производственные компании и аптечные сети).


Читать: https://habr.com/ru/companies/bpmsoft/articles/931640/

#ru

@big_data_analysis | Другие наши каналы
Эволюция архитектур больших языковых моделей: от GPT-2 к современным решениям

Прошло семь лет с момента разработки оригинальной архитектуры GPT. На первый взгляд, если оглянуться на GPT-2 (2019) и взглянуть вперёд на DeepSeek-V3 и Llama 4 (2024–2025), можно удивиться, насколько эти модели по-прежнему структурно схожи.

Разумеется, позиционные эмбеддинги эволюционировали от абсолютных к роторационным (RoPE), Multi-Head Attention в значительной степени уступил место Grouped-Query Attention, а более эффективная SwiGLU заменила такие функции активации, как GELU. Но если отбросить эти незначительные усовершенствования, действительно ли мы наблюдаем принципиальные архитектурные сдвиги — или просто продолжаем полировать одни и те же фундаментальные конструкции?

Сравнение LLM между собой с целью выявления ключевых факторов, влияющих на их качество (или недостатки), по-прежнему остаётся крайне нетривиальной задачей: датасеты, методы обучения и гиперпараметры сильно различаются и зачастую плохо документированы.

Тем не менее, я считаю, что изучение именно архитектурных изменений остаётся ценным подходом, позволяющим понять, над чем работают разработчики LLM в 2025 году.


Читать: https://habr.com/ru/articles/931382/

#ru

@big_data_analysis | Другие наши каналы
Будущее Python: какие тренды развития и боли языка обсуждали на PyCon 2025

Что обсуждали на PyCon 2025? Отказ от GIL в CPython 3.14, управление зависимостями, статический анализ, научный код, ML4Code и безопасность open source — всё о будущем Python.

Читать: «Будущее Python: какие тренды развития и боли языка обсуждали на PyCon 2025»

#ru

@big_data_analysis | Другие наши каналы
Давайте уже потише с ИИ

Ну хорошо, ну есть у нас ИИ. Уже как 3 года он есть. А толку? Как его правильно впихивать в техпроцесс?

- Меня не надо впихивать!

- ЧЕМ ТЫ ЭТО СКАЗАЛ?


Читать: https://habr.com/ru/articles/932252/

#ru

@big_data_analysis | Другие наши каналы
Балансируя на грани: как внедрить Differential Privacy в аналитические пайплайны на Python

В этой статье я расскажу, как добавить механизмы Differential Privacy (DP) в ваши ETL‑ и аналитические пайплайны на Python, чтобы защитить пользовательские данные и при этом сохранить качество ключевых метрик. Пошаговые примеры с реальным кодом, советы по настройке ε‑бюджета и интеграции в Airflow помогут вам избежать самых распространённых подводных камней.


Читать: https://habr.com/ru/articles/932322/

#ru

@big_data_analysis | Другие наши каналы