Data Analysis / Big Data
2.83K subscribers
569 photos
4 videos
2 files
2.66K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
4 онлайн-курса по анализу данных для начинающих

Курс «Продуктовый аналитик в IT»
Старт 14 сентября, онлайн, 74 000 ₽

На курсе изучите продуктовый анализ в data-driven компаниях с нуля за 4,5 месяца. Научитесь обрабатывать и подготавливать данные при помощи SQL и Python, визуализировать и наглядно представлять полученные результаты, а также проводить сегментацию аудитории и запускать A/B-тесты.

Курс «Бизнес-аналитик в IT»
Старт 23 августа, онлайн, 78 000 ₽

Освоите базовые знания устройства программных продуктов и коммерческой разработки ПО, научитесь деловой коммуникации с клиентами и командой разработки, а также изучите основные техники сбора, анализа и спецификации требований к разработке ПО. Также научитесь составлять артефакты, с которыми работает бизнес-аналитик, и поймёте свою роль в команде разработки и бизнесе.

Курс «Аналитика с 0: быстрый старт»
Постоянный доступ, онлайн, от 45 000 ₽

На курсе научитесь собирать, обрабатывать и анализировать данные с помощью SQL, Excel и Google Sheets. Сможете визуализировать полученные данные с помощью Tableau и научитесь работать с основными метриками IT-продуктов для их улучшения.

Курс «Аналитика на Python»
Постоянный доступ, онлайн, от 39 000 ₽

На курсе освоите навыки анализа данных с помощью Python, включая работу с большими данными, библиотеками Pandas и NumPy. Также научитесь парсить данные из интернета, включая веб-страницы, профили Вконтакте и открытые API.

#курсы
Пример уменьшения размерности данных с помощью линейных и нелинейных методов в Python

Уменьшение размерности данных широко используется в области машинного обучения и анализа данных. Его цель состоит в том, чтобы упростить обработку данных за счет уменьшения количества объектов в наборе данных при сохранении ключевой информации. Когда мы сталкиваемся с данными большой размерности, уменьшение размерности может помочь нам снизить вычислительную сложность, повысить производительность и результативность модели.


Читать: https://habr.com/ru/articles/751050/
Коллаборативная фильтрация vs Рейтинг фильма на Кинопоиске. Мой опыт написания кино рекомендательной системы

Некоторое время назад я решил написать рекомендательную систему для фильмов. Подобные системы умеют предсказывать оценку фильма, который пользователь еще не смотрел, на основании его оценок других, ранее просмотренных фильмов.
И результаты меня удивили

Читать: https://habr.com/ru/articles/751006/
Работа с хребтами (ridge plot) в Seaborn

Визуализация данных является важной частью анализа данных, помогая нам лучше понять данные, выявлять закономерности и тенденции. Среди многих инструментов визуализации данных библиотека seaborn пользуется популярностью благодаря относительной простоте в использовании и настройке достаточно красивых и информативных диаграмм.

В этой статье рассматривается вопрос касающийся использования библиотеки seaborn для создания красивых карт хребтов и разъясняется их использование, а также демонтируется гибкость библиотеки с помощью демонстрации кода.


Читать: https://habr.com/ru/articles/751550/
Работа со скрипичной диаграммой (Violin Plot) в Seaborn

Скрипичные диаграммы могут эффективно отображать распределение данных, сравнивать различные наборы данных и выявлять аномалии (выбросы) и тенденции. В этой статье мы рассмотрим четыре различных стиля скрипичных диаграмм Seaborn, включая обычную, сгруппированную, горизонтальную и улучшенную версии, и разберемся в случаях их применения, преимуществах и недостатках. Мы также покажем, как улучшить код, чтобы нарисовать структурированную скрипку.


Читать: https://habr.com/ru/articles/751898/
Ребят, ищем пишущего IT-редактора блогов в Tproger

Условия: удалёнка, фултайм

Что делать:
— искать темы, которые понравятся клиентам и заинтересуют читателей;
— вникать в эти темы настолько, чтобы говорить с экспертами примерно на одном языке;
— проводить интервью и собирать фактуру;
— превращать фактуру в статью, которую захочется читать и репостить;
— дорабатывать статью вместе с экспертами и менеджерами клиента.

Требования:
— пишете логично и ёмко, видите стилистические и речевые ошибки в тексте;
— быстро находите и проверяете информацию (в том числе в англоязычных источниках);
— любите общаться с экспертами и умеете их разговорить;
— спокойно реагируете на комментарии, но можете отстоять свою позицию, если правка неуместна;
— тактично вносите правки, чтобы автор не расстраивался, а был благодарен за помощь;
— знаете, что такое ключевое слово, мета-описание и зачем нужен Wordstat.

Чтобы откликнуться, заполняйте анкету.

#вакансии #работа
Книга «Data Science в действии»

Привет, Хаброжители!

В проектах обработки и анализа данных много движущихся частей, и требуются практика и знания, чтобы создать гармоничную комбинацию кода, алгоритмов, наборов данных, форматов и визуальных представлений. Эта уникальная книга содержит описание пяти практических проектов, включая отслеживание вспышек заболеваний по заголовкам новостей, анализ социальных сетей и поиск закономерностей в данных о переходах по рекламным объявлениям.

Автор не ограничивается поверхностным обсуждением теории и искусственными примерами. Исследуя представленные проекты, вы узнаете, как устранять распространенные проблемы, такие как отсутствующие и искаженные данные и алгоритмы, не соответствующие создаваемой модели. По достоинству оцените подробные инструкции по настройке и детальные обсуждения решений, в которых описываются типичные точки отказа, и обретите уверенность в своих навыках.

Читать: https://habr.com/ru/companies/piter/articles/752258/
Ликбез по LLM, новинки от Nvidia и видеокейс по внедрению MLOps

Всем привет! Новый выпуск нашего «Вестника» по ML и дата-аналитике получился очень насыщенным и разносторонне полезным. Во-первых, сразу несколько объемных ликбезов по LLM – на английском языке, но в нашей сфере по-другому никак. Зато есть очень толковый русскоязычный текст про актуальные подходы к ELT – нашел здесь, на Хабре. Еще много полезностей для любителей рыночных отчетов, красочных сборок инструментов и так далее. Точно обогатитесь парочкой говорящих скринов.

Еще больше полезных текстов по DataOps и MLOps, а также целое комьюнити на почти 1,5К человек — в Telegram-сообществе «MLечный путь».


Читать: https://habr.com/ru/companies/selectel/articles/752458/
Свойство типа Controller Service в кастомном процессоре NiFi

В этой короткой статье я хочу показать, как использовать в качестве одного из свойств кастомного процессора NiFi стандартную службу Controller Service, а также как написать тест для такого процессора.В качестве примера будем использовать стандартную службу SSLContextService.


Читать: https://habr.com/ru/articles/752690/
Что такое Data Observability и с чем ее едят?

В последние годы растет сложность IT-инфраструктуры в компаниях и, соответственно, спрос на сервисы мониторинга ее работоспособности. Их все больше покупают, в них все чаще инвестируют. Но в данной статье мы расскажем о новом смежном тренде - Data Observability. Что это и чем она отличается от Infrastructure Observability?

Классический мониторинг - это наблюдение за работой инфраструктуры и приложений. А Data Observability позволяет осуществлять мониторинг потоков данных (и даже бизнес-процессов) и находить в них сбои.

Рассмотрим несколько примеров.


Читать: https://habr.com/ru/companies/amvera/articles/752788/
[recovery mode] Как развить в компании культуру принимать решения на основе данных

Data-driven подход - это метод управления бизнесом, основанный на анализе данных. Он позволяет компаниям принимать решения на основе фактов и цифр, а не на основе интуиции или предположений. В результате, компания может оптимизировать свою деятельность, увеличить эффективность и прибыльность, а также улучшить качество продукции или услуг. В этой статье мы рассмотрим, как внедрить data-driven подход в компанию. Так как я работала аналитиком данных, то и советы будут идти как от человека, чья основная обязанность помогать коллегам принимать решения на основе данных, однако полезными они будут и руководителям отделов, если они решили внедрить подход в своей компании.

Первый шаг во внедрении data-driven подхода - это понимание, какие данные используются в компании для принятия решений и какие еще нужны. Поговорите с коллегами и узнайте, как они принимают решения, где они берут данные и каких данных им не хватает. Обычно они с удовольствием пожалуются Вам какие данные они не могут достать.

Далее создайте продукт на основе их потребностей и покажите его коллегам. Например, создайте отчёт в Power Bi показывающий нужные показатели.

Самое важное: подойдите к каждому коллеге (если их слишком много, то можно провести вебинар) и обсудите дашборд, покажите, как им пользоваться. Вы можете найти инсайты в их зоне ответственности и показать им: "Вот видишь у тебя доля телевизоров в 45+ диагонали меньше, чем по остальным сегментам. Не дорабатываем в этом направлении." В этот момент мы продаём наш отчёт и культуру принятия решений на основе данных. Если просто отдать отчёт им никто не будет пользоваться. а) Не понятно куда нажимать, куда смотреть. Даже если у Вас визуализации на высоком уровне, не удивляйтесь, что пользователи даже не найдут как отфильтровать данные за нужный им период. б) И без этих отчётов как -то работали же. Поэтому мы должны донести ценность до пользователя. Не просто показать, где найти данные, но и как принимать решения на их основе. Например, раньше подготовка к переговорам занимала 2 дня, а сейчас 3 часа, благодаря тому что все данные уже есть. Осталось просто сделать нужные скриншоты и вставить их в презентацию.


Читать: https://habr.com/ru/articles/753158/
👍1
Эффективная загрузка внешних данных в корпоративное хранилище: опыт «Магнита»

Сегодня я хотел бы поделиться с вами опытом, который мы приобрели в компании «Магнит» при загрузке данных из внешних источников в корпоративное хранилище данных. Расскажу о проблемах, с которыми мы столкнулись и решениях, которые нам помогли облегчить процесс загрузки, повысить эффективность и ускорить получение доступа к данным.


Читать: https://habr.com/ru/companies/magnit/articles/753002/
Целостность, точность, согласованность: три фактора, обеспечивающие качество машинного обучения

Эффективность моделей машинного обучения напрямую зависит от обучающих данных. Если данные неполны или размечены неверно, то эти пробелы отразятся на прогнозах модели.

Но как выявлять высококачественные данные и обеспечивать их уровень уже в процессе работы над проектом? И что означает «качество данных» в контексте машинного обучения?

Можно упростить ответ на этот вопрос, сведя качество данных к трём основным характеристикам: целостности (integrity), точности (accuracy) и согласованности (consistency).
* Целостность: надёжность используемого датасета
* Точность: степень валидности и корректности присвоенных аннотаций
* Согласованность: степень согласованности присвоенных аннотаций во всём датасете

Можно воспринимать каждый из этих факторов как часть высокоуровневой дорожной карты для обеспечения качества данных на всех этапах конвейера аннотирования.


Читать: https://habr.com/ru/articles/740978/
👍1
Как закалялась сталь: моделируем остывание рельса, чтобы сделать его прочнее

Цифровая трансформация подобна ремонту: однажды начавшись, не заканчивается уже никогда. Разработчики и дата-сайентисты выискивают по цехам ЕВРАЗа — где бы ещё причинить пользу своими знаниями и умениями? На этот раз им на глаза попалось производство рельсов. И увидели они, что это хорошо, но можно ещё лучше…

Конечно, в действительности процесс принятия решений выглядит немного иначе. Однако термоупрочнение рельсов — действительно перспективный объект для цифровизации. Под катом вы сможете прочесть, как строилась математическая модель остывания рельса, а главное — зачем.


Читать: https://habr.com/ru/companies/evraz/articles/682046/
Span of Control & Manager Assignment – A Dataset based Approach

Organizational structures are evolving and managers are key in defining the structure and understanding the decision flow within any organization. Span of Control is one of the essential KPIs that play a crucial role in boosting productivity and fostering organizational growth. Regular analysis of spans ensures the their efficiency and effectiveness.This article explains how to fetch a manager's direct reports count (span) efficiently to create a manager-employee relationship report.

Read: https://blogs.oracle.com/analytics/post/span-of-control-manager-assignment-a-dataset-based-approach
ML-искусство переживать проблемы: как избегать разочарований и находить аналоги товаров в периоды out-of-stock

Приветствуем читателей Хабра! Мы, команда дата-сайентистов и дата-аналитиков компании «ДатаЛаб»* (ГК «Автомакон»), запускаем серию статей, в которых поднимем актуальные темы и предложим свои решения проблемных ситуаций онлайн-ритейла. Каждый день мы решаем бизнес-задачи ритейла по повышению продаж, сокращению издержек и управлению рисками.

Стартуем со статьи, в которой рассмотрим одну из самых распространенных проблем в онлайн-ритейле – отсутствие товара (out-of-stock) в моменте и поделимся рекомендациями по ее устранению.


Читать: https://habr.com/ru/companies/automacon/articles/754092/