Яндекс Практикум. Программирование и анализ данных
12K subscribers
603 photos
2 videos
1 file
574 links
Полезное для начинающих разработчиков, тестировщиков и аналитиков данных. Отвечаем на вопросы и делимся новостями Практикума. Выбрать курс и попробовать свои силы бесплатно: https://ya.cc/t/3bO2f2245AmCeQ

Номер заявления в РКН 4970781590
Download Telegram
EDA в Python: подборка полезных ресурсов для начинающих аналитиков

Разведочный анализ данных (EDA) — первый шаг перед построением сложных моделей. Он помогает понять структуру данных, выявить проблемы и определить, какие методы анализа использовать. Ниже — подборка материалов для изучения EDA в Python.

Книга «Python и анализ данных» — практическое руководство по обработке данных с помощью pandas, NumPy и Jupyter. Включает работу с очисткой, переформатированием и подготовкой данных. Дополнительные материалы доступны на GitHub и сайте издательства.

A guide to Exploratory Data Analysis in Python — статья на английском. В статье показывается, как загрузить данные, просмотреть первые строки таблицы и получить общее представление о доступных признаках. Затем рассматриваются шаги анализа — всё с примерами.

«Визуальная обработка пропущенных значений» — пропуски встречаются почти в каждом наборе данных. В статье рассказывается о библиотеке missingno, которая позволяет визуализировать и оценивать целостность данных без ручной проверки.

«Разведочный анализ данных в Python: руководство для новичков» — автор разбирает, что такое одномерный и двумерный анализ, этапы работы с данными и делится практическим примером на Python. Можно скачать датасет и повторять пошагово.

«Обработка пропусков в данных» — пропуски могут быть вызваны ошибками ввода, сокрытием информации или фродом. В статье рассматриваются методы обработки пропусков, их плюсы и минусы, а также как неправильный выбор метода влияет на результат анализа.

«Что такое корреляция и что означает коррелировать — краткое определение, причины и простые примеры» — автор объясняет, какие бывают типы связи, что означает коэффициент корреляции и насколько можно полагаться на него при формировании гипотез.

«Линейный коэффициент корреляции Пирсона» — автор объясняет, как на практике рассчитывать этот коэффициент, в том числе в Excel, и как через преобразование Фишера найти доверительный интервал для оценки надёжности результата. В статье есть наглядные примеры, а также видеоролик.

«Моем датасет: руководство по очистке данных в Python» — методы работы с пропусками, дубликатами и выбросами на примере датасета с ценами на жилье в России. Практические примеры с кодом и объяснениями.

A Gentle Introduction to EDA — статья на английском. Разведочный анализ рассматривается не как одноразовый этап, а как повторяющийся процесс, который помогает лучше понять структуру данных и увидеть потенциальные проблемы. Множество иллюстраций и пошаговый разбор датасета с информацией о пассажирах «Титаника».

Сохраняйте, чтобы не потерять 🖤
3🤔1