Data Analysis / Big Data
2.83K subscribers
560 photos
4 videos
2 files
2.64K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Книги для Team Lead DS: от менеджмента к стратегии

Привет! Меня зовут Марк Паненко, я Chief Data Science в Ozon Банке. Это завершающая статья цикла о книгах для Data Science. Ранее мы обсуждали комиксы и нейросети для новичков, принципы для мидлов, профессиональную разработку, а сегодня поговорим об управлении командами. Материал основан на эпизодах подкаста Data Breakfast — в нём мы разбираем кейсы из реальной практики.


Читать: https://habr.com/ru/companies/ozonbank/articles/900736/

#ru

@big_data_analysis | Другие наши каналы
Спецификация формата RTTM: полное техническое описание

RTTM — это формат, в котором каждое событие в аудио точно знает своё место.
Он позволяет системам видеть не просто звук, а структуру разговора: кто говорит, когда, как долго — и что происходит в фоновом шуме.

В этой статье вы найдёте всё, что нужно знать об этом стандарте: как устроены его 10 полей, какую роль он играет в задачах диаризации и распознавания речи, и почему его до сих пор активно используют лидеры индустрии — такие как pyannote.audio, NVIDIA NeMo, DScore и другие.
Узнать больше про RTTM!

Читать: https://habr.com/ru/articles/900988/

#ru

@big_data_analysis | Другие наши каналы
Стриминг Apache Flink из MongoDB в PostgreSQL на Python

Привет, Хабр! Меня зовут Александр Цай, я ведущий аналитик в МТС Web Services, но на деле занимаюсь всеми вопросами, касающимися DA/DE/BI: выявлением потребностей и сбором требований, проектированием дашбордов и витрин для них, построением и развитием внутреннего хранилища, поиском источников данных, созданием сложных ETL-пайплайнов по их доставке, DQ, проведением аналитики и много чем еще.

В этом материале я расскажу про разворачивание пайплайна по стримингу данных из MongoDB в PostgreSQL с помощью Apache Flink (стримить из Kafka банально, а так заодно пощупаем документоориентированную БД). Делать это мы будем в minikube (kubernetes), а языком программирования для заданий выступит Python. Все описанное в посте выполняется на MacBook с процессором i7.

В интернете, тем более русскоязычном, нет информации о стриминге из MongoDB в Postgres с помощью Flink. Почти все материалы по Flink, которые мне попадались, сводятся к пережевыванию примера WordCount из flink-kubernetes-operator, где на запущенном поде из папки с примерами читается файл и в консоль выводится количество слов в нем. Если спускаться до использования PyFlink, то мы натыкаемся на кастомные образы с Harness SDK и Apache Beam и другие страшные слова. Знакомо?

Так вот, это не наш путь! Данное руководство будет полезно тем, кто такой же извращенец хочет пощупать Flink на родном Python и кто не планирует брать примеры, оторванные от реальности.


Читать: https://habr.com/ru/companies/ru_mts/articles/898636/

#ru

@big_data_analysis | Другие наши каналы
Optuna: находим лучшие настройки для моделей без головной боли

Если вы уже пробовали обучать модели, то знаете: выбрал не тот гиперпараметр — получил плохой результат. А перебирать их вручную или даже с помощью GridSearchCV из scikit-learn — долго, муторно и не всегда эффективно. Поэтому сегодня поговорим о том, как заставить компьютер делать эту скучную работу за нас.

В этом поможет Optuna — библиотека для автоматической оптимизации гиперпараметров. Она умнее простого перебора и часто находит отличные комбинации параметров гораздо быстрее.


Читать: https://habr.com/ru/companies/skillfactory/articles/900658/

#ru

@big_data_analysis | Другие наши каналы
Apache Spark Catalyst: секреты оптимизатора запросов, который должен знать каждый Data Engineer

Привет Хабр! Меня зовут Кучеров Андрей и я Lead Data Engineer с более чем 7-летним опытом в области распределенной обработки данных. Я работал над оптимизацией высоконагруженных Spark-приложений в X5 Retail Group и билайн, где мы обрабатывали петабайтные объемы данных. Регулярно сталкиваясь с производительностью запросов, я убедился, что понимание работы Catalyst — необходимый навык для каждого Data Engineer, работающего со Spark.


Читать: https://habr.com/ru/articles/901078/

#ru

@big_data_analysis | Другие наши каналы
1
Apache Spark Catalyst — оптимизация запросов под капотом и роль Data Engineer

Меня зовут Андрей Кучеров, и я Lead Data Engineer. Часть моей работы включает обучение команды. Я люблю делиться своим опытом, потому что в работе с данными мелочей не бывает - часто кажущиеся незначительными детали могут кардинально влиять на производительность всего пайплайна. Catalyst — не волшебник, а инструмент. И как любой инструмент, он требует понимания принципов работы. Давайте разберём его на винтики!


Читать: https://habr.com/ru/articles/899258/

#ru

@big_data_analysis | Другие наши каналы
Интеграция дат в Oracle Analytics

Узнайте, как ключи дат в Custom Knowledge помогают интегрировать финансовые календари, праздники и события в ваши данные. Это улучшает актуальность и ясность аналитики, позволяя ей соответствовать реальным бизнес-срокам.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Исследуем мир пространственных данных!

Статья погружает читателей в основы работы с геометрическими объектами: точками, линиями и многоугольниками, а также использование пространственных SQL для анализа данных. Открывайте новые возможности анализа и визуализации данных с помощью современных инструментов.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Пространственный SQL и Oracle Analytics: что нового?

Oracle Analytics представила новую функцию SDO_BUFFER для работы с пространственными данными. Узнайте, как эта функция позволяет легче обрабатывать геометрические данные и расширять аналитические возможности.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Анализ данных: от EDA до Tinder-битвы графиков

Всем привет! Меня зовут Максим Шаланкин, и я веду несколько образовательных блоков в нашей школе аналитиков данных в МТС. Сегодня я хочу рассказать, как мы организовали необычное занятие по анализу данных: в нем студенты соревновались за звание лучшего в игре, напоминающей Tinder, но для графиков предварительного анализа (EDA). Эта активность не только помогла освоить ключевые навыки визуализации, но и сделала процесс обучения увлекательным и запоминающимся, демонстрируя практическую значимость качественного анализа данных.

В этом материале я расскажу, как мы вообще обучаем EDA, какие нюансы есть в процессе и как мы делаем его интересным с помощью игры. История и графики победителей под катом.


Читать: https://habr.com/ru/companies/ru_mts/articles/900572/

#ru

@big_data_analysis | Другие наши каналы
Ускорить Pandas в 60 раз: проверяем лайфхаки из интернета на реальном проекте и обкладываемся бенчмарками

Привет! Если после заголовка вы решили, что это очередная статья в стиле «Топ-10 способов ускорить Pandas», то не торопитесь с выводами. Вместо топов и подборок предлагаю взглянуть на бенчмарки скорости и потребления памяти в зависимости от характеристик датафрейма и убедиться, что часть советов из статей по ускорению могут оказаться даже вредными. Разберём, какой из способов ускорения нужно пробовать в разных ситуациях, как это зависит от размера датафрейма и как ведёт себя в реальном проекте.


Читать: https://habr.com/ru/companies/tochka/articles/899730/

#ru

@big_data_analysis | Другие наши каналы
Что такое Ansible и как применяется в DWH-проектах? Сравнение Ansible с Puppet, Chef, SaltStack

В статье рассказываем, что такое Ansible и как инструмент может применяться в проектах DWH: от автоматического развертывания и настройки компонентов до восстановления после сбоев и централизованного управления параметрами.

Сравниваем Ansible с другими инструментами для автоматизации управления инфраструктурой: Puppet, Chef, SaltStack.


Читать: https://habr.com/ru/articles/901778/

#ru

@big_data_analysis | Другие наши каналы
🔥2
Self-Service BI: как сделать, чтобы он полетел

Мнение

“Спасение утопающих – дело рук самих утопающих”. Иногда это звучит не так уж и плохо.

Привет, Хабр! Меня зовут Юлий Гольдберг, работаю в GlowByte (занимаюсь платформами данных, BI, аналитическими решениями больше 20 лет). Сегодня хочу поделиться некоторыми наблюдениями о том, про что нужно не забывать, чтобы Self-Service BI стал реальным драйвером развития корпоративной культуры работы с данными, а не остался благим пожеланием.

Self-Service BI, не просто красивая идея, но объективная потребность

Представим, что BI еще не изобрели. Или что он есть, но где-то далеко, и нам совсем недоступен, но отчеты делать надо. Чем тогда воспользуется любой сотрудник компании, чтобы сделать отчет или презентовать его заинтересованной аудитории. В первую очередь, всем на ум приходит Excel и PowerPoint. И так оно и есть на самом деле. Excel проник повсеместно. Гибкость и возможности этих инструментов почти безграничны: что хочет пользователь, то и насчитает, что вообразил себе, то и нарисует. Максимальная свобода для любого пользователя, не имеющего серьезной ИТ-подготовки. Можно и данные собрать из разных источников, и преобразовать их нужным образом, и при необходимости сделать сложные многоэтапные расчеты. Вывести и визуализировать с условным форматированием, графиками, диаграммами.

Минусы Excel+PowerPoint хорошо известны: непрозрачность итоговых цифр (как понять, правильно ли все посчитано, когда часть цифр загружена неизвестно откуда и потом вручную скорректирована, а другая – вбита вручную прямо в таблице), расхождение результатов в разных отчетах (ведь каждый может посчитать что-то “на коленке” или скорректировать то, что ему прислали), ну и наконец практически нерешаемые проблемы производительности, когда требуется обрабатывать сотни тысяч и даже миллионы строк информации. Удобство восприятия информации в таблицах Excel – тоже спорный вопрос. Кто-то, конечно, настолько привык к таблицам, что другого взгляда на цифры просто не приемлет. Но все же зачастую сложно быстро ухватить суть и выявить проблему, когда смотришь на массив цифр из тысяч строк и десятков колонок.


Читать: https://habr.com/ru/companies/glowbyte/articles/901884/

#ru

@big_data_analysis | Другие наши каналы
Потоковая фильтрация CommonCrawl с Apache Spark для обучения языковых моделей

Для обработки Common Crawl на терабайтных объёмах широко используются архитектуры обработки данных, построенные на фреймворках вроде Apache Spark. Благодаря распределённой обработке данных и структурированному стримингу Spark позволяет разработчикам создавать масштабируемые пайплайны, применять логику фильтрации и формировать итоговые очищенные корпусы для обучения. Эта статья перевод моей статьи на medium.com, я хотел рассматреть, как на практике формируются обучающие наборы из Common Crawl (например, в проектах C4, CCNet, OSCAR, GPT-3, BLOOM, Falcon и др.) [2,3,4,5,6,7], а затем показать пример Spark Streaming-приложения, который я написал и опубликовал в GitHub. Мы также приводим пример подхода, реализованного в DeepSeek, для фильтрации математического контента — узкоспециализированная задача, которая способна дать существенный прирост в качестве моделей [8].


Читать: https://habr.com/ru/articles/902028/

#ru

@big_data_analysis | Другие наши каналы
Усовершенствование аналитики с помощью Date Keys

В статье раскрывается, как Date Keys в Custom Knowledge помогают интегрировать финансовые календари, праздники и события в ваши наборы данных. Это позволяет повысить актуальность и ясность аналитики в Oracle Analytics, согласуя данные с реальными бизнес-событиями.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Свайп, дофамин, иллюзия выбора: как сервисы превратили любовь в цифровую рулетку

Современные сервисы знакомств оптимизированы не для создания пар, а для монетизации одиночества через манипуляцию дофаминовыми циклами. Конфликт интересов между пользователями и платформами усугубляется архаичными социальными стереотипами и отсутствием платформ использующих современных технологии для поиска (хотя вроде и есть ML,скоринг, кластеризация..) И в таргетинге работают уже в весь рост. Там это выгодно. А выгодно ли сервисам?


Читать: https://habr.com/ru/articles/902498/

#ru

@big_data_analysis | Другие наши каналы
Оцени, прежде чем доверять: как сделать AI-агента полезным

Часто недооцененным аспектом разработки AI-агентов остаётся этап оценки. Хотя создать proof of concept относительно просто, поиск оптимальной конфигурации для балансировки стоимости, скорости, релевантности и других параметров требует значительных временных затрат. Инструменты и фреймворки для оценки являются ключевыми элементами этой стадии оптимизации.


Читать: https://habr.com/ru/articles/902594/

#ru

@big_data_analysis | Другие наши каналы
Оффлайн А/Б тесты в ресторанах фастфуда. Часть 1: Планирование и верификация оффлайн A/B-тестов

Привет! Меня зовут Елена Малая, я занимаюсь оффлайн A/B-тестами в Бургер Кинг Россия.

В последнее время всё больше пишут про оффлайн-эксперименты — и это здорово. Но мне часто не хватало материалов, приближённых к реальности: когда данных мало, шум высокий, а каждый тест — как разведоперация.

Эта статья — о том, как я выстраивала методологию A/B-тестирования в условиях оффлайн-ритейла. Она для тех, кто работает с данными не в идеальном вакууме, а на земле — в ресторанах, ритейле, логистике.

Здесь не будет учебных формул — только рабочие подходы, предостережения и лайфхаки, собранные через тесты, ошибки и (маленькие) победы. Если вы, как и я, когда-то поняли, что "по книжке" оно не взлетает — welcome.


Читать: https://habr.com/ru/articles/902778/

#ru

@big_data_analysis | Другие наши каналы
Оффлайн А/Б тесты в ресторанах фастфуда. Часть 2: Анализ и интерпретация результатов A/B-тестов

В первой части «Планирование и верификация оффлайн A/B-тестов» мы разобрали, как подготовить данные и убедиться, что группы для эксперимента сопоставимы. Мы провели тщательную верификацию: сравнили метрики, проверили распределения и постарались исключить искажения ещё до старта.

Теперь — самое важное.
Во второй части речь пойдёт о том, как анализировать полученные данные и не ошибиться с выводами. Мы обсудим методы, позволяющие скорректировать влияние внешних факторов, научимся контролировать ошибки первого и второго рода, выбирать подходящий статистический критерий и оценивать надёжность результатов.

Если первая часть была про чистоту эксперимента, то вторая — про силу аргументов.


Читать: https://habr.com/ru/articles/902918/

#ru

@big_data_analysis | Другие наши каналы
Аналитика по скидке: когда клиенты готовы платить только впечатлениями

Аналитика по скидке: когда клиенты готовы платить только впечатлениями

Если данные новая нефть, то почему за нее не готовы платить?

Как измерить ценность внедрения аналитики?


Читать: https://habr.com/ru/articles/903058/

#ru

@big_data_analysis | Другие наши каналы