Data Analysis / Big Data
2.82K subscribers
576 photos
4 videos
2 files
2.74K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Скаутинг 2.0: как ИИ и xG находят таланты раньше рынка

Футбол больше не сводится лишь к интуиции и традициям. Теперь это соревнование за то, кто сможет эффективнее использовать данные. От продуманной трансферной стратегии «Брайтона» до работы Луиша Кампуша в ПСЖ — клубы всё активнее обращаются к продвинутой аналитике, чтобы опередить соперников. Это означает использование инструментов на базе искусственного интеллекта, машинного обучения и футбольных данных для более раннего поиска талантов, снижения рисков при трансферах и получения конкурентных преимуществ.


Читать: https://habr.com/ru/articles/947034/

#ru

@big_data_analysis | Другие наши каналы
7 SQL-запросов, которые решают 90% всех задач на работе

Каждый день одно и то же. Открываешь клиент базы данных, чтобы что-то проверить, посчитать или найти. И снова пишешь почти тот же SELECT, что и вчера, с тем же WHERE и JOIN. Знакомо?

SQL в большинстве случаях не требует сложные 100-строчные запросы с вложенными подзапросами на три уровня глубины. Чаще всего нам нужны простые, отточенные и, главное, эффективные конструкции.

В этой статье я собрал 7 таких запросов-«рабочих лошадок». Это не какой-то там справочник, а готовая шпаргалка для реальных задач.


Читать: https://habr.com/ru/companies/timeweb/articles/943298/

#ru

@big_data_analysis | Другие наши каналы
👍1
Как избавиться от проприетарных ETL: кейс миграции на dbtt

Несколько лет назад наш корпоративный слой данных жил на проприетарных технологиях. Данных было много, а основная СУБД — MPP-система Sybase IQ — долго не обновлялась. Мы регулярно сталкивались с тем, что у кластера «падали» ноды, каталог базы повреждался, порой даже терялись данные, а вендор не спешил выпускать исправления или даже признавать проблему. ETL-процессы работали через IBM DataStage, который также перестал развиваться. Все решения были закрыты, и мы не могли влиять на их улучшение. Vendor lock-in означает, что вы зависите от поставщика: если вендор не поддерживает нужные возможности, развитие замедляется, а долгоживущие ошибки остаются нерешенными. Такое положение становилось критичным.

Мы поняли, что для устойчивого развития платформы нужно срочно искать альтернативу: переходить на стек, которым мы можем управлять сами. При этом важно было сохранить команду: десятки разработчиков и аналитиков уже работали с существующей моделью. Новому решению следовало быть удобным для аналитиков, прозрачным для бизнеса и гибким для инженеров.

В этой статье рассказываем о том, как мы перешли с проприетарных ETL-инструментов на open-source на базе dbt, какие проблемы решали по ходу внедрения, и как построили экосистему вокруг dbt для автоматизации рутинных задач.


Читать: https://habr.com/ru/companies/gazprombank/articles/947124/

#ru

@big_data_analysis | Другие наши каналы
👍1
Spark Connect. А нужны ли перемены?

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. Apache Spark давно и прочно занял место одного из ключевых инструментов в арсенале инженеров и дата-сайентистов, работающих с большими данными. Его способность быстро обрабатывать огромные объёмы информации, гибкость за счёт поддержки множества языков (Python, Scala, Java, SQL) и возможность решать самые разнообразные задачи — от сложных ETL до машинного обучения и стриминга — делают его незаменимым инструментом в мире анализа данных.


Читать: https://habr.com/ru/companies/arenadata/articles/921246/

#ru

@big_data_analysis | Другие наши каналы
DOOH и RTB: как Russ развивает программатические закупки в наружной рекламе

Привет, Хабр! С вами команда Russtech. Сегодня мы хотим рассказать о работе Russ Programmatic, нашего подразделения, разработавшего систему продажи рекламного инвентаря с помощью аукционов в реальном времени. Программатик в DOOH имеет ряд отличий от традиционного digital-программатика. В этой статье мы обсудим эти ключевые особенности и поделимся нашим опытом внедрения программатических продаж.


Читать: https://habr.com/ru/companies/wildberries/articles/947376/

#ru

@big_data_analysis | Другие наши каналы