Data Analysis / Big Data
2.83K subscribers
562 photos
4 videos
2 files
2.65K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
Apache Spark Catalyst — оптимизация запросов под капотом и роль Data Engineer

Меня зовут Андрей Кучеров, и я Lead Data Engineer. Часть моей работы включает обучение команды. Я люблю делиться своим опытом, потому что в работе с данными мелочей не бывает - часто кажущиеся незначительными детали могут кардинально влиять на производительность всего пайплайна. Catalyst — не волшебник, а инструмент. И как любой инструмент, он требует понимания принципов работы. Давайте разберём его на винтики!


Читать: https://habr.com/ru/articles/899258/

#ru

@big_data_analysis | Другие наши каналы
Интеграция дат в Oracle Analytics

Узнайте, как ключи дат в Custom Knowledge помогают интегрировать финансовые календари, праздники и события в ваши данные. Это улучшает актуальность и ясность аналитики, позволяя ей соответствовать реальным бизнес-срокам.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Исследуем мир пространственных данных!

Статья погружает читателей в основы работы с геометрическими объектами: точками, линиями и многоугольниками, а также использование пространственных SQL для анализа данных. Открывайте новые возможности анализа и визуализации данных с помощью современных инструментов.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Пространственный SQL и Oracle Analytics: что нового?

Oracle Analytics представила новую функцию SDO_BUFFER для работы с пространственными данными. Узнайте, как эта функция позволяет легче обрабатывать геометрические данные и расширять аналитические возможности.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Анализ данных: от EDA до Tinder-битвы графиков

Всем привет! Меня зовут Максим Шаланкин, и я веду несколько образовательных блоков в нашей школе аналитиков данных в МТС. Сегодня я хочу рассказать, как мы организовали необычное занятие по анализу данных: в нем студенты соревновались за звание лучшего в игре, напоминающей Tinder, но для графиков предварительного анализа (EDA). Эта активность не только помогла освоить ключевые навыки визуализации, но и сделала процесс обучения увлекательным и запоминающимся, демонстрируя практическую значимость качественного анализа данных.

В этом материале я расскажу, как мы вообще обучаем EDA, какие нюансы есть в процессе и как мы делаем его интересным с помощью игры. История и графики победителей под катом.


Читать: https://habr.com/ru/companies/ru_mts/articles/900572/

#ru

@big_data_analysis | Другие наши каналы
Ускорить Pandas в 60 раз: проверяем лайфхаки из интернета на реальном проекте и обкладываемся бенчмарками

Привет! Если после заголовка вы решили, что это очередная статья в стиле «Топ-10 способов ускорить Pandas», то не торопитесь с выводами. Вместо топов и подборок предлагаю взглянуть на бенчмарки скорости и потребления памяти в зависимости от характеристик датафрейма и убедиться, что часть советов из статей по ускорению могут оказаться даже вредными. Разберём, какой из способов ускорения нужно пробовать в разных ситуациях, как это зависит от размера датафрейма и как ведёт себя в реальном проекте.


Читать: https://habr.com/ru/companies/tochka/articles/899730/

#ru

@big_data_analysis | Другие наши каналы
Что такое Ansible и как применяется в DWH-проектах? Сравнение Ansible с Puppet, Chef, SaltStack

В статье рассказываем, что такое Ansible и как инструмент может применяться в проектах DWH: от автоматического развертывания и настройки компонентов до восстановления после сбоев и централизованного управления параметрами.

Сравниваем Ansible с другими инструментами для автоматизации управления инфраструктурой: Puppet, Chef, SaltStack.


Читать: https://habr.com/ru/articles/901778/

#ru

@big_data_analysis | Другие наши каналы
🔥2
Self-Service BI: как сделать, чтобы он полетел

Мнение

“Спасение утопающих – дело рук самих утопающих”. Иногда это звучит не так уж и плохо.

Привет, Хабр! Меня зовут Юлий Гольдберг, работаю в GlowByte (занимаюсь платформами данных, BI, аналитическими решениями больше 20 лет). Сегодня хочу поделиться некоторыми наблюдениями о том, про что нужно не забывать, чтобы Self-Service BI стал реальным драйвером развития корпоративной культуры работы с данными, а не остался благим пожеланием.

Self-Service BI, не просто красивая идея, но объективная потребность

Представим, что BI еще не изобрели. Или что он есть, но где-то далеко, и нам совсем недоступен, но отчеты делать надо. Чем тогда воспользуется любой сотрудник компании, чтобы сделать отчет или презентовать его заинтересованной аудитории. В первую очередь, всем на ум приходит Excel и PowerPoint. И так оно и есть на самом деле. Excel проник повсеместно. Гибкость и возможности этих инструментов почти безграничны: что хочет пользователь, то и насчитает, что вообразил себе, то и нарисует. Максимальная свобода для любого пользователя, не имеющего серьезной ИТ-подготовки. Можно и данные собрать из разных источников, и преобразовать их нужным образом, и при необходимости сделать сложные многоэтапные расчеты. Вывести и визуализировать с условным форматированием, графиками, диаграммами.

Минусы Excel+PowerPoint хорошо известны: непрозрачность итоговых цифр (как понять, правильно ли все посчитано, когда часть цифр загружена неизвестно откуда и потом вручную скорректирована, а другая – вбита вручную прямо в таблице), расхождение результатов в разных отчетах (ведь каждый может посчитать что-то “на коленке” или скорректировать то, что ему прислали), ну и наконец практически нерешаемые проблемы производительности, когда требуется обрабатывать сотни тысяч и даже миллионы строк информации. Удобство восприятия информации в таблицах Excel – тоже спорный вопрос. Кто-то, конечно, настолько привык к таблицам, что другого взгляда на цифры просто не приемлет. Но все же зачастую сложно быстро ухватить суть и выявить проблему, когда смотришь на массив цифр из тысяч строк и десятков колонок.


Читать: https://habr.com/ru/companies/glowbyte/articles/901884/

#ru

@big_data_analysis | Другие наши каналы
Потоковая фильтрация CommonCrawl с Apache Spark для обучения языковых моделей

Для обработки Common Crawl на терабайтных объёмах широко используются архитектуры обработки данных, построенные на фреймворках вроде Apache Spark. Благодаря распределённой обработке данных и структурированному стримингу Spark позволяет разработчикам создавать масштабируемые пайплайны, применять логику фильтрации и формировать итоговые очищенные корпусы для обучения. Эта статья перевод моей статьи на medium.com, я хотел рассматреть, как на практике формируются обучающие наборы из Common Crawl (например, в проектах C4, CCNet, OSCAR, GPT-3, BLOOM, Falcon и др.) [2,3,4,5,6,7], а затем показать пример Spark Streaming-приложения, который я написал и опубликовал в GitHub. Мы также приводим пример подхода, реализованного в DeepSeek, для фильтрации математического контента — узкоспециализированная задача, которая способна дать существенный прирост в качестве моделей [8].


Читать: https://habr.com/ru/articles/902028/

#ru

@big_data_analysis | Другие наши каналы
Усовершенствование аналитики с помощью Date Keys

В статье раскрывается, как Date Keys в Custom Knowledge помогают интегрировать финансовые календари, праздники и события в ваши наборы данных. Это позволяет повысить актуальность и ясность аналитики в Oracle Analytics, согласуя данные с реальными бизнес-событиями.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Свайп, дофамин, иллюзия выбора: как сервисы превратили любовь в цифровую рулетку

Современные сервисы знакомств оптимизированы не для создания пар, а для монетизации одиночества через манипуляцию дофаминовыми циклами. Конфликт интересов между пользователями и платформами усугубляется архаичными социальными стереотипами и отсутствием платформ использующих современных технологии для поиска (хотя вроде и есть ML,скоринг, кластеризация..) И в таргетинге работают уже в весь рост. Там это выгодно. А выгодно ли сервисам?


Читать: https://habr.com/ru/articles/902498/

#ru

@big_data_analysis | Другие наши каналы
Оцени, прежде чем доверять: как сделать AI-агента полезным

Часто недооцененным аспектом разработки AI-агентов остаётся этап оценки. Хотя создать proof of concept относительно просто, поиск оптимальной конфигурации для балансировки стоимости, скорости, релевантности и других параметров требует значительных временных затрат. Инструменты и фреймворки для оценки являются ключевыми элементами этой стадии оптимизации.


Читать: https://habr.com/ru/articles/902594/

#ru

@big_data_analysis | Другие наши каналы
Оффлайн А/Б тесты в ресторанах фастфуда. Часть 1: Планирование и верификация оффлайн A/B-тестов

Привет! Меня зовут Елена Малая, я занимаюсь оффлайн A/B-тестами в Бургер Кинг Россия.

В последнее время всё больше пишут про оффлайн-эксперименты — и это здорово. Но мне часто не хватало материалов, приближённых к реальности: когда данных мало, шум высокий, а каждый тест — как разведоперация.

Эта статья — о том, как я выстраивала методологию A/B-тестирования в условиях оффлайн-ритейла. Она для тех, кто работает с данными не в идеальном вакууме, а на земле — в ресторанах, ритейле, логистике.

Здесь не будет учебных формул — только рабочие подходы, предостережения и лайфхаки, собранные через тесты, ошибки и (маленькие) победы. Если вы, как и я, когда-то поняли, что "по книжке" оно не взлетает — welcome.


Читать: https://habr.com/ru/articles/902778/

#ru

@big_data_analysis | Другие наши каналы
Оффлайн А/Б тесты в ресторанах фастфуда. Часть 2: Анализ и интерпретация результатов A/B-тестов

В первой части «Планирование и верификация оффлайн A/B-тестов» мы разобрали, как подготовить данные и убедиться, что группы для эксперимента сопоставимы. Мы провели тщательную верификацию: сравнили метрики, проверили распределения и постарались исключить искажения ещё до старта.

Теперь — самое важное.
Во второй части речь пойдёт о том, как анализировать полученные данные и не ошибиться с выводами. Мы обсудим методы, позволяющие скорректировать влияние внешних факторов, научимся контролировать ошибки первого и второго рода, выбирать подходящий статистический критерий и оценивать надёжность результатов.

Если первая часть была про чистоту эксперимента, то вторая — про силу аргументов.


Читать: https://habr.com/ru/articles/902918/

#ru

@big_data_analysis | Другие наши каналы
Аналитика по скидке: когда клиенты готовы платить только впечатлениями

Аналитика по скидке: когда клиенты готовы платить только впечатлениями

Если данные новая нефть, то почему за нее не готовы платить?

Как измерить ценность внедрения аналитики?


Читать: https://habr.com/ru/articles/903058/

#ru

@big_data_analysis | Другие наши каналы
Тайные сообщества товаров: обзор графовых методов

Привет, Хабр! На связи команда матчинга и группировки из ecom.tech. Наша команда решает задачи поиска, группировки и сортировки товаров, с помощью алгоритмов машинного обучения. Например, такие алгоритмы объединяют товары от разных продавцов в одной карточке, что дает покупателям возможность сэкономить время и деньги.

Сегодня мы расскажем, как исследовали алгоритмы community detection для группировки товаров, с какими проблемами столкнулись и при чём тут матчинг. Статья будет полезна всем, кто работает с большими объемами данных и ищет способы оптимизировать операции с этими данными. Поехали!


Читать: https://habr.com/ru/companies/ecom_tech/articles/894982/

#ru

@big_data_analysis | Другие наши каналы
Со скоростью кометы: ускоряем Spark без переписывания кода

Привет, Хабр! Меня зовут Лев Маковеев. Я младший инженер по обработке данных в компании «Криптонит». В этой статье хочу поделиться с вами результатами небольшого исследования, в ходе которого мы протестировали ускоритель запросов Apache DataFusion Comet и пришли к довольно впечатляющим результатам. Забегая вперёд, отмечу, что в отдельных тестах ускорение было более чем десятикратным!


Читать: https://habr.com/ru/companies/kryptonite/articles/902872/

#ru

@big_data_analysis | Другие наши каналы
2👍2🔥2
Подготовка JMeter для тестирования Oracle Analytics

Хотите оптимизировать производительность Oracle Analytics Platform Services? Узнайте, как правильно настроить Apache JMeter для проведения эффективных нагрузочных тестов. Подробное руководство поможет вам раскрыть все возможности платформы.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Основы эффективных дата-моделей

Погрузитесь в мир дата-моделей, рёбер, уровней и мэппингов. Узнайте, как применять эти концепции для структурирования данных, оптимизации мэппингов и создания интуитивных визуализаций. Эта статья поможет повысить эффективность работы с данными.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Интеграция внешних источников данных

Как подключить внешние данные к вашему расширению? Статья рассказывает о том, какие шаги необходимо предпринять для успешной интеграции и какие преимущества это может принести. Развивайте ваше приложение с помощью дополнительных данных.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Методы расширения атрибутивного состава таблиц БД

Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили?

Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве.

Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.


Читать: https://habr.com/ru/companies/T1Holding/articles/903546/

#ru

@big_data_analysis | Другие наши каналы