Data Analysis / Big Data
2.84K subscribers
573 photos
4 videos
2 files
2.76K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Интеграция данных из Azure Blob Storage с помощью Fusion Data Intelligence

Статья рассказывает о том, как использовать возможности Fusion Data Intelligence для получения данных из Azure Blob Storage и их объединения с данными приложений Fusion, что расширяет аналитические возможности.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Всем тимлидам, разработчикам, тестировщикам и админам!

Счастливого Дня программиста!

Желаем вам всегда зелёных билдов, отзывчивых кластеров и тихих дежурных смен. Пусть ваши логи будут чисты от ошибок, а мониторинг предупреждает о проблемах раньше, чем о них узнают пользователи.

И чтобы пожелание точно сбылось, обязательно воспользуйтесь подарками из нашей IT-коробки. Готовили с любовью в сердце вместе с нашими друзьями.

С праздником!
👍3
Self-service аналитика для… Excel?

Одним из самых распространенных инструментов для внедрения аналитики является BI инструменты – Tableau, Superset, Datalens и многие другие, десятки их. Это отличные инструменты, но какие бы крутые и сложные визуализации традиционно у каждого из таких инструментов одной из важнейших фич является «Экспорт в Excel» - пользователям нужны выгрузки, детальные данные и т.д. На одном из проектов я обсуждал с заказчиком перспективы развития BI в компании – что уже сделано, что делаем дальше и менеджер задал коварный вопрос: «Артём, дашборды это конечно здорово, но можно ли сделать так, чтобы данные загружались к нам сразу в Excel, причем автоматически». И вот что вы придумали...


Читать: https://habr.com/ru/articles/946572/

#ru

@big_data_analysis | Другие наши каналы
Polars — «убийца Pandas» на максималках

Всем привет! Меня зовут Александр Андреев, я инженер данных. Сегодня я хочу рассказать вам о библиотеке Polars - потенциальной замене Pandas, любимой у большинства дата-инженеров и дата-саентистов библиотеки для работы с данными.

В своей статье я последовательно пройдусь от истории библиотеки Polars до примеров кода, технических аспектов ее производительности и в конце дам ссылки на все бенчмарки, обучающие материалы и дополнительные статьи, которые использовались для написания данного обзора-туториала по этой замечательной библиотеке.


Читать: https://habr.com/ru/articles/946788/

#ru

@big_data_analysis | Другие наши каналы
4👍3🤓2
Скаутинг 2.0: как ИИ и xG находят таланты раньше рынка

Футбол больше не сводится лишь к интуиции и традициям. Теперь это соревнование за то, кто сможет эффективнее использовать данные. От продуманной трансферной стратегии «Брайтона» до работы Луиша Кампуша в ПСЖ — клубы всё активнее обращаются к продвинутой аналитике, чтобы опередить соперников. Это означает использование инструментов на базе искусственного интеллекта, машинного обучения и футбольных данных для более раннего поиска талантов, снижения рисков при трансферах и получения конкурентных преимуществ.


Читать: https://habr.com/ru/articles/947034/

#ru

@big_data_analysis | Другие наши каналы
7 SQL-запросов, которые решают 90% всех задач на работе

Каждый день одно и то же. Открываешь клиент базы данных, чтобы что-то проверить, посчитать или найти. И снова пишешь почти тот же SELECT, что и вчера, с тем же WHERE и JOIN. Знакомо?

SQL в большинстве случаях не требует сложные 100-строчные запросы с вложенными подзапросами на три уровня глубины. Чаще всего нам нужны простые, отточенные и, главное, эффективные конструкции.

В этой статье я собрал 7 таких запросов-«рабочих лошадок». Это не какой-то там справочник, а готовая шпаргалка для реальных задач.


Читать: https://habr.com/ru/companies/timeweb/articles/943298/

#ru

@big_data_analysis | Другие наши каналы
👍1
Как избавиться от проприетарных ETL: кейс миграции на dbtt

Несколько лет назад наш корпоративный слой данных жил на проприетарных технологиях. Данных было много, а основная СУБД — MPP-система Sybase IQ — долго не обновлялась. Мы регулярно сталкивались с тем, что у кластера «падали» ноды, каталог базы повреждался, порой даже терялись данные, а вендор не спешил выпускать исправления или даже признавать проблему. ETL-процессы работали через IBM DataStage, который также перестал развиваться. Все решения были закрыты, и мы не могли влиять на их улучшение. Vendor lock-in означает, что вы зависите от поставщика: если вендор не поддерживает нужные возможности, развитие замедляется, а долгоживущие ошибки остаются нерешенными. Такое положение становилось критичным.

Мы поняли, что для устойчивого развития платформы нужно срочно искать альтернативу: переходить на стек, которым мы можем управлять сами. При этом важно было сохранить команду: десятки разработчиков и аналитиков уже работали с существующей моделью. Новому решению следовало быть удобным для аналитиков, прозрачным для бизнеса и гибким для инженеров.

В этой статье рассказываем о том, как мы перешли с проприетарных ETL-инструментов на open-source на базе dbt, какие проблемы решали по ходу внедрения, и как построили экосистему вокруг dbt для автоматизации рутинных задач.


Читать: https://habr.com/ru/companies/gazprombank/articles/947124/

#ru

@big_data_analysis | Другие наши каналы
👍1
Spark Connect. А нужны ли перемены?

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. Apache Spark давно и прочно занял место одного из ключевых инструментов в арсенале инженеров и дата-сайентистов, работающих с большими данными. Его способность быстро обрабатывать огромные объёмы информации, гибкость за счёт поддержки множества языков (Python, Scala, Java, SQL) и возможность решать самые разнообразные задачи — от сложных ETL до машинного обучения и стриминга — делают его незаменимым инструментом в мире анализа данных.


Читать: https://habr.com/ru/companies/arenadata/articles/921246/

#ru

@big_data_analysis | Другие наши каналы
DOOH и RTB: как Russ развивает программатические закупки в наружной рекламе

Привет, Хабр! С вами команда Russtech. Сегодня мы хотим рассказать о работе Russ Programmatic, нашего подразделения, разработавшего систему продажи рекламного инвентаря с помощью аукционов в реальном времени. Программатик в DOOH имеет ряд отличий от традиционного digital-программатика. В этой статье мы обсудим эти ключевые особенности и поделимся нашим опытом внедрения программатических продаж.


Читать: https://habr.com/ru/companies/wildberries/articles/947376/

#ru

@big_data_analysis | Другие наши каналы
Искусственный интеллект помогает энергокомпаниям анализировать погодные тенденции и точно прогнозировать потребление. Благодаря решениям OAC удаётся оптимизировать производство и обеспечить стабильное энергоснабжение. Узнайте, как это работает.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Динамический выбор метрик в Oracle Analytics: как параметры помогают сравнивать данные по годам и кварталам. Такой подход повышает гибкость и информативность дашбордов, делая их удобными для аналитиков и разработчиков. Узнайте подробнее в статье.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
AI меняет бизнес: как технологии трансформируют компании. На Oracle AI World 2025 лидеры обсудят, как аналитика на базе искусственного интеллекта открывает новые горизонты для цифровой трансформации и развития бизнеса.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Автоматизированное машинное обучение с помощью нашего Open Source фреймворка: задача о Титанике

Привет! Меня зовут Владимир Суворов, я Senior Data Scientist в Страховом Доме ВСК и core-разработчик нашей библиотеки машинного обучения OutBoxML.

В статье сегодня мы поговорим не о выборе алгоритмов, а о том, как автоматизировать весь процесс ML — от данных до деплоя и мониторинга, сократив время на подготовку с дней до часов. Мы разберем это на примере классической задачи с Titanic, реализованной на нашем фреймворке.

Приятного прочтения!
Читать и обсуждать

Читать: https://habr.com/ru/companies/vsk_insurance/articles/948584/

#ru

@big_data_analysis | Другие наши каналы
Селективная генерализация: улучшение возможностей при сохранении alignment

TL;DR: Мы провели бенчмаркинг семи методов, направленных на предотвращение эмерджентного рассогласования и других форм некорректного обобщения с использованием ограниченного объёма alignment-данных. Мы демонстрируем устойчивый трейдофф между способностями модели и согласованием, подчеркивая необходимость более эффективных методов для снижения этого конфликта. Простое включение alignment-данных в микс обучающих данных оказывается недостаточным для предотвращения рассогласования, однако простое наложение KL Divergence penalty на alignment-данные показывает лучшие результаты, чем более сложные подходы.


Читать: https://habr.com/ru/articles/945838/

#ru

@big_data_analysis | Другие наши каналы
Особенности REMOVEFILTERS в DAX из Power BI

Привет, Хабр! Одной из важных функций-модификаторов в DAX является REMOVEFILTERS, он позволяет, например, убрать фильтр для расчета знаменателя в доле. Однако логика REMOVEFILTERS для столбцов может выглядеть неочевидной, например, REMOVEFILTERS только для одного поля, по которому есть условие в FILTER, не влияет на результат DAX запроса. Так, REMOVEFILTERS(customer[customer_id]) не влияет на FILTER в SUMMARIZECOLUMNS вида FILTER(customer, customer[customer_id] > 2) и для сброса фильтра нужен REMOVEFILTERS(customer) по всей таблице. В связи с этим удобно представить принципы работы REMOVEFILTERS более формально, например, в виде ER диаграммы с подписанными связями. Для построения ER диаграммы был выбран Mermaid и генерация кода диаграммы реализована на C#. Интересующимся особенностями REMOVEFILTERS — добро пожаловать под кат :)


Читать: https://habr.com/ru/articles/948294/

#ru

@big_data_analysis | Другие наши каналы
Анализируем тренд: почему игрушки Фиксики Digital Collectible неожиданно стали объектом инвестиций?

От цифрового искусства к физическим активам: как NFT меняют парадигму коллекционирования и куда движется рынок.

Внезапный ажиотаж вокруг seemingly обычных детских игрушек — персонажей мультфильма «Фиксики» Digital Collectible — на маркетплейсе Ozon заставляет задуматься: мы наблюдаем спонтанный всплеск ностальгии или первый признак формирования принципиально нового инвестиционного тренда?

Всё указывает на последнее, и вот почему.


Читать: https://habr.com/ru/articles/949020/

#ru

@big_data_analysis | Другие наши каналы
End-to-end вместо трёх костылей: как мы обошли OCR и выиграли по скорости и точности

Ребята, вы когда-нибудь сталкивались с тем, что ваш шикарный AI-пайплайн для обработки документов спотыкается на самом простом — на чтении текста с картинки? OCR выдает абракадабру, цифры перепутаны, а дальше по цепочке летит вся ваша безупречная логика. Знакомо? У нас была точно такая же боль.


Читать: https://habr.com/ru/companies/datafeel/articles/948380/

#ru

@big_data_analysis | Другие наши каналы
Практика alignment: данные, RLHF и UX как конкурентное преимущество

Взгляд на самую большую проблему в мире ИИ, почему это важно для вас и почему это так ценно.

Согласованность — одна из самых важных тем в современной области машинного обучения (ML). Независимо от того, являетесь ли вы пользователем продуктов ML, человеком, который их разрабатывает, или компанией, решающей с их помощью задачи, вам стоит знать и хорошо понимать, что такое согласованность.


Читать: https://habr.com/ru/articles/948412/

#ru

@big_data_analysis | Другие наши каналы
Оптимизация производительности запросов в OLAP‑СУБД: цели, методы и практика

Ниже — выверенная и локализованная на русский язык версия текста об оптимизации производительности СУБД. Термины без устойчивых русских эквивалентов сохранены на английском с первым пояснением.


Читать: https://habr.com/ru/articles/949338/

#ru

@big_data_analysis | Другие наши каналы
ИИ-психопрофиль аудитории: как анализировать подписчиков в соцсетях с помощью GPT

Любой бизнес хочет лучше понимать своих клиентов. Но если раньше анализ ограничивался полом, возрастом и географией, то сегодня на первый план выходит психопрофиль — интересы, ценности, стиль жизни и поведенческие привычки аудитории.

Искусственный интеллект, в частности GPT-модели, позволяет анализировать такие данные быстро и без громоздких инструментов. Достаточно выгрузить подписчиков и задать ИИ задачу: выделить ключевые интересы и сегменты.


Читать: https://habr.com/ru/articles/949416/

#ru

@big_data_analysis | Другие наши каналы