Data Analysis / Big Data
2.83K subscribers
560 photos
4 videos
2 files
2.64K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Язык Julia: что это и почему он популярен в научных вычислениях

Что такое язык Julia. Показываем сравнение языка Джулия с другими. Рассматриваем преимущества и основные нюансы Tproger

Читать: «Язык Julia: что это и почему он популярен в научных вычислениях»

#ru

@big_data_analysis | Другие наши каналы
DWH: История поиска альтернативы PostgreSQL и Snowflake. Часть 1

Выбор облачного хранилища данных — задача не из тривиальных, особенно когда речь идёт о миллиардах полуструктурированных записей, геоаналитике и требованиях к отклику в доли секунды. В Agritask мы провели масштабное исследование: протестировали популярные DWH-платформы на реальных кейсах, сравнили производительность, параллелизм и затраты. В первой части делимся подходом к оценке, техническими требованиями и тем, почему PostgreSQL и Snowflake перестали справляться с нашими задачами.


Читать: https://habr.com/ru/companies/otus/articles/900080/

#ru

@big_data_analysis | Другие наши каналы
КОНФИДЕНЦИАЛЬНОСТЬ МЁРТВА: ЯНДЕКС И ВК ОБУЧАЮТ ИИ НА ВАШИХ ЛИЧНЫХ ДАННЫХ?

Если бы у Кевина Митника была Алиса PRO, то ему бы не пришлось рыться в мусорных баках ради доступа к персональным данным. Протестировав Yandex GPT я узнал, что голосовой ассистент от Яндекс не только раздаёт всем мой номер телефона по первому требованию, но и знает список несовершеннолетних в моей семье, несмотря на "закрытый" профиль ВКонтакте где он был опубликован. А также где-то хранит всю эту информацию без моего разрешения, но при допросе - уходит в несознанку...
Нырнуть в мусорку от Яндекса...

Читать: https://habr.com/ru/articles/900132/

#ru

@big_data_analysis | Другие наши каналы
❤‍🔥1
Проект Колхоз — светлое будущее своими руками

Long story short: мы сделали штуку на фото для удобного подключения любых датчиков (а также устройств управления) к ESP32 DOIT Devkit V1. ESP32 это как Arduino, только лучше. Используя любые датчики и любые интерфейсы мы можем автоматизировать что угодно используя мощные фреймворки в виде ESPHome и Home Assistant. Это если совсем вкратце.


Читать: https://habr.com/ru/articles/900314/

#ru

@big_data_analysis | Другие наши каналы
Что такое конвейер данных? И почему вы должны это знать

Конвейер данных (Data Pipeline) - это последовательность шагов для обработки данных. Если данные еще не присутствуют в платформе данных, они поступают в начале конвейера. Затем конвейер обрабатывает данные через ряд этапов, где выход каждого этапа становится входом следующего. Этот процесс продолжается до тех пор, пока конвейер не будет завершен. В некоторых случаях независимые этапы могут выполняться одновременно.


Читать: https://habr.com/ru/articles/900640/

#ru

@big_data_analysis | Другие наши каналы
Как мы в Почтатех заместили Qlik Sense на Luxms BI

Меня зовут Евгений Дрензелев, я Техлид BI компании Почтатех, которая занимается предоставлением IT-решений для Почты России.  И эта статья —  опыт нашей команды по импортозамещению западного продукта Qlik Sense на российский Luxms BI.

В статье расскажу о трудностях, с которыми мы столкнулись в процессе импортозамещения, а также о тех выгодах и положительных изменениях, которые мы получили в результате.


Читать: https://habr.com/ru/articles/900618/

#ru

@big_data_analysis | Другие наши каналы
Эксгаустеры и где они обитают: о новой разработке рассказывает эксперт ЕВРАЗа

Исключить аварийные остановки на производстве и прогнозировать время, когда агрегаты нуждаются в ремонте, – такие цели успешно реализовала команда ЕВРАЗа. Для этого на агломерационной фабрике внедрили автоматизированную систему, причем не отличающуюся особой сложностью. Как она работает, расскажу я, Python Backend разработчик компании Ольга Седова.


Читать: https://habr.com/ru/companies/evraz/articles/900716/

#ru

@big_data_analysis | Другие наши каналы
Книги для Team Lead DS: от менеджмента к стратегии

Привет! Меня зовут Марк Паненко, я Chief Data Science в Ozon Банке. Это завершающая статья цикла о книгах для Data Science. Ранее мы обсуждали комиксы и нейросети для новичков, принципы для мидлов, профессиональную разработку, а сегодня поговорим об управлении командами. Материал основан на эпизодах подкаста Data Breakfast — в нём мы разбираем кейсы из реальной практики.


Читать: https://habr.com/ru/companies/ozonbank/articles/900736/

#ru

@big_data_analysis | Другие наши каналы
Спецификация формата RTTM: полное техническое описание

RTTM — это формат, в котором каждое событие в аудио точно знает своё место.
Он позволяет системам видеть не просто звук, а структуру разговора: кто говорит, когда, как долго — и что происходит в фоновом шуме.

В этой статье вы найдёте всё, что нужно знать об этом стандарте: как устроены его 10 полей, какую роль он играет в задачах диаризации и распознавания речи, и почему его до сих пор активно используют лидеры индустрии — такие как pyannote.audio, NVIDIA NeMo, DScore и другие.
Узнать больше про RTTM!

Читать: https://habr.com/ru/articles/900988/

#ru

@big_data_analysis | Другие наши каналы
Стриминг Apache Flink из MongoDB в PostgreSQL на Python

Привет, Хабр! Меня зовут Александр Цай, я ведущий аналитик в МТС Web Services, но на деле занимаюсь всеми вопросами, касающимися DA/DE/BI: выявлением потребностей и сбором требований, проектированием дашбордов и витрин для них, построением и развитием внутреннего хранилища, поиском источников данных, созданием сложных ETL-пайплайнов по их доставке, DQ, проведением аналитики и много чем еще.

В этом материале я расскажу про разворачивание пайплайна по стримингу данных из MongoDB в PostgreSQL с помощью Apache Flink (стримить из Kafka банально, а так заодно пощупаем документоориентированную БД). Делать это мы будем в minikube (kubernetes), а языком программирования для заданий выступит Python. Все описанное в посте выполняется на MacBook с процессором i7.

В интернете, тем более русскоязычном, нет информации о стриминге из MongoDB в Postgres с помощью Flink. Почти все материалы по Flink, которые мне попадались, сводятся к пережевыванию примера WordCount из flink-kubernetes-operator, где на запущенном поде из папки с примерами читается файл и в консоль выводится количество слов в нем. Если спускаться до использования PyFlink, то мы натыкаемся на кастомные образы с Harness SDK и Apache Beam и другие страшные слова. Знакомо?

Так вот, это не наш путь! Данное руководство будет полезно тем, кто такой же извращенец хочет пощупать Flink на родном Python и кто не планирует брать примеры, оторванные от реальности.


Читать: https://habr.com/ru/companies/ru_mts/articles/898636/

#ru

@big_data_analysis | Другие наши каналы
Optuna: находим лучшие настройки для моделей без головной боли

Если вы уже пробовали обучать модели, то знаете: выбрал не тот гиперпараметр — получил плохой результат. А перебирать их вручную или даже с помощью GridSearchCV из scikit-learn — долго, муторно и не всегда эффективно. Поэтому сегодня поговорим о том, как заставить компьютер делать эту скучную работу за нас.

В этом поможет Optuna — библиотека для автоматической оптимизации гиперпараметров. Она умнее простого перебора и часто находит отличные комбинации параметров гораздо быстрее.


Читать: https://habr.com/ru/companies/skillfactory/articles/900658/

#ru

@big_data_analysis | Другие наши каналы
Apache Spark Catalyst: секреты оптимизатора запросов, который должен знать каждый Data Engineer

Привет Хабр! Меня зовут Кучеров Андрей и я Lead Data Engineer с более чем 7-летним опытом в области распределенной обработки данных. Я работал над оптимизацией высоконагруженных Spark-приложений в X5 Retail Group и билайн, где мы обрабатывали петабайтные объемы данных. Регулярно сталкиваясь с производительностью запросов, я убедился, что понимание работы Catalyst — необходимый навык для каждого Data Engineer, работающего со Spark.


Читать: https://habr.com/ru/articles/901078/

#ru

@big_data_analysis | Другие наши каналы
1
Apache Spark Catalyst — оптимизация запросов под капотом и роль Data Engineer

Меня зовут Андрей Кучеров, и я Lead Data Engineer. Часть моей работы включает обучение команды. Я люблю делиться своим опытом, потому что в работе с данными мелочей не бывает - часто кажущиеся незначительными детали могут кардинально влиять на производительность всего пайплайна. Catalyst — не волшебник, а инструмент. И как любой инструмент, он требует понимания принципов работы. Давайте разберём его на винтики!


Читать: https://habr.com/ru/articles/899258/

#ru

@big_data_analysis | Другие наши каналы
Интеграция дат в Oracle Analytics

Узнайте, как ключи дат в Custom Knowledge помогают интегрировать финансовые календари, праздники и события в ваши данные. Это улучшает актуальность и ясность аналитики, позволяя ей соответствовать реальным бизнес-срокам.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Исследуем мир пространственных данных!

Статья погружает читателей в основы работы с геометрическими объектами: точками, линиями и многоугольниками, а также использование пространственных SQL для анализа данных. Открывайте новые возможности анализа и визуализации данных с помощью современных инструментов.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Пространственный SQL и Oracle Analytics: что нового?

Oracle Analytics представила новую функцию SDO_BUFFER для работы с пространственными данными. Узнайте, как эта функция позволяет легче обрабатывать геометрические данные и расширять аналитические возможности.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Анализ данных: от EDA до Tinder-битвы графиков

Всем привет! Меня зовут Максим Шаланкин, и я веду несколько образовательных блоков в нашей школе аналитиков данных в МТС. Сегодня я хочу рассказать, как мы организовали необычное занятие по анализу данных: в нем студенты соревновались за звание лучшего в игре, напоминающей Tinder, но для графиков предварительного анализа (EDA). Эта активность не только помогла освоить ключевые навыки визуализации, но и сделала процесс обучения увлекательным и запоминающимся, демонстрируя практическую значимость качественного анализа данных.

В этом материале я расскажу, как мы вообще обучаем EDA, какие нюансы есть в процессе и как мы делаем его интересным с помощью игры. История и графики победителей под катом.


Читать: https://habr.com/ru/companies/ru_mts/articles/900572/

#ru

@big_data_analysis | Другие наши каналы
Ускорить Pandas в 60 раз: проверяем лайфхаки из интернета на реальном проекте и обкладываемся бенчмарками

Привет! Если после заголовка вы решили, что это очередная статья в стиле «Топ-10 способов ускорить Pandas», то не торопитесь с выводами. Вместо топов и подборок предлагаю взглянуть на бенчмарки скорости и потребления памяти в зависимости от характеристик датафрейма и убедиться, что часть советов из статей по ускорению могут оказаться даже вредными. Разберём, какой из способов ускорения нужно пробовать в разных ситуациях, как это зависит от размера датафрейма и как ведёт себя в реальном проекте.


Читать: https://habr.com/ru/companies/tochka/articles/899730/

#ru

@big_data_analysis | Другие наши каналы
Что такое Ansible и как применяется в DWH-проектах? Сравнение Ansible с Puppet, Chef, SaltStack

В статье рассказываем, что такое Ansible и как инструмент может применяться в проектах DWH: от автоматического развертывания и настройки компонентов до восстановления после сбоев и централизованного управления параметрами.

Сравниваем Ansible с другими инструментами для автоматизации управления инфраструктурой: Puppet, Chef, SaltStack.


Читать: https://habr.com/ru/articles/901778/

#ru

@big_data_analysis | Другие наши каналы
🔥2
Self-Service BI: как сделать, чтобы он полетел

Мнение

“Спасение утопающих – дело рук самих утопающих”. Иногда это звучит не так уж и плохо.

Привет, Хабр! Меня зовут Юлий Гольдберг, работаю в GlowByte (занимаюсь платформами данных, BI, аналитическими решениями больше 20 лет). Сегодня хочу поделиться некоторыми наблюдениями о том, про что нужно не забывать, чтобы Self-Service BI стал реальным драйвером развития корпоративной культуры работы с данными, а не остался благим пожеланием.

Self-Service BI, не просто красивая идея, но объективная потребность

Представим, что BI еще не изобрели. Или что он есть, но где-то далеко, и нам совсем недоступен, но отчеты делать надо. Чем тогда воспользуется любой сотрудник компании, чтобы сделать отчет или презентовать его заинтересованной аудитории. В первую очередь, всем на ум приходит Excel и PowerPoint. И так оно и есть на самом деле. Excel проник повсеместно. Гибкость и возможности этих инструментов почти безграничны: что хочет пользователь, то и насчитает, что вообразил себе, то и нарисует. Максимальная свобода для любого пользователя, не имеющего серьезной ИТ-подготовки. Можно и данные собрать из разных источников, и преобразовать их нужным образом, и при необходимости сделать сложные многоэтапные расчеты. Вывести и визуализировать с условным форматированием, графиками, диаграммами.

Минусы Excel+PowerPoint хорошо известны: непрозрачность итоговых цифр (как понять, правильно ли все посчитано, когда часть цифр загружена неизвестно откуда и потом вручную скорректирована, а другая – вбита вручную прямо в таблице), расхождение результатов в разных отчетах (ведь каждый может посчитать что-то “на коленке” или скорректировать то, что ему прислали), ну и наконец практически нерешаемые проблемы производительности, когда требуется обрабатывать сотни тысяч и даже миллионы строк информации. Удобство восприятия информации в таблицах Excel – тоже спорный вопрос. Кто-то, конечно, настолько привык к таблицам, что другого взгляда на цифры просто не приемлет. Но все же зачастую сложно быстро ухватить суть и выявить проблему, когда смотришь на массив цифр из тысяч строк и десятков колонок.


Читать: https://habr.com/ru/companies/glowbyte/articles/901884/

#ru

@big_data_analysis | Другие наши каналы