EDA в Python: подборка полезных ресурсов для начинающих аналитиков
Разведочный анализ данных (EDA) — первый шаг перед построением сложных моделей. Он помогает понять структуру данных, выявить проблемы и определить, какие методы анализа использовать. Ниже — подборка материалов для изучения EDA в Python.
Книга «Python и анализ данных» — практическое руководство по обработке данных с помощью pandas, NumPy и Jupyter. Включает работу с очисткой, переформатированием и подготовкой данных. Дополнительные материалы доступны на GitHub и сайте издательства.
A guide to Exploratory Data Analysis in Python — статья на английском. В статье показывается, как загрузить данные, просмотреть первые строки таблицы и получить общее представление о доступных признаках. Затем рассматриваются шаги анализа — всё с примерами.
«Визуальная обработка пропущенных значений» — пропуски встречаются почти в каждом наборе данных. В статье рассказывается о библиотеке missingno, которая позволяет визуализировать и оценивать целостность данных без ручной проверки.
«Разведочный анализ данных в Python: руководство для новичков» — автор разбирает, что такое одномерный и двумерный анализ, этапы работы с данными и делится практическим примером на Python. Можно скачать датасет и повторять пошагово.
«Обработка пропусков в данных» — пропуски могут быть вызваны ошибками ввода, сокрытием информации или фродом. В статье рассматриваются методы обработки пропусков, их плюсы и минусы, а также как неправильный выбор метода влияет на результат анализа.
«Что такое корреляция и что означает коррелировать — краткое определение, причины и простые примеры» — автор объясняет, какие бывают типы связи, что означает коэффициент корреляции и насколько можно полагаться на него при формировании гипотез.
«Линейный коэффициент корреляции Пирсона» — автор объясняет, как на практике рассчитывать этот коэффициент, в том числе в Excel, и как через преобразование Фишера найти доверительный интервал для оценки надёжности результата. В статье есть наглядные примеры, а также видеоролик.
«Моем датасет: руководство по очистке данных в Python» — методы работы с пропусками, дубликатами и выбросами на примере датасета с ценами на жилье в России. Практические примеры с кодом и объяснениями.
A Gentle Introduction to EDA — статья на английском. Разведочный анализ рассматривается не как одноразовый этап, а как повторяющийся процесс, который помогает лучше понять структуру данных и увидеть потенциальные проблемы. Множество иллюстраций и пошаговый разбор датасета с информацией о пассажирах «Титаника».
Сохраняйте, чтобы не потерять 🖤
Разведочный анализ данных (EDA) — первый шаг перед построением сложных моделей. Он помогает понять структуру данных, выявить проблемы и определить, какие методы анализа использовать. Ниже — подборка материалов для изучения EDA в Python.
Книга «Python и анализ данных» — практическое руководство по обработке данных с помощью pandas, NumPy и Jupyter. Включает работу с очисткой, переформатированием и подготовкой данных. Дополнительные материалы доступны на GitHub и сайте издательства.
A guide to Exploratory Data Analysis in Python — статья на английском. В статье показывается, как загрузить данные, просмотреть первые строки таблицы и получить общее представление о доступных признаках. Затем рассматриваются шаги анализа — всё с примерами.
«Визуальная обработка пропущенных значений» — пропуски встречаются почти в каждом наборе данных. В статье рассказывается о библиотеке missingno, которая позволяет визуализировать и оценивать целостность данных без ручной проверки.
«Разведочный анализ данных в Python: руководство для новичков» — автор разбирает, что такое одномерный и двумерный анализ, этапы работы с данными и делится практическим примером на Python. Можно скачать датасет и повторять пошагово.
«Обработка пропусков в данных» — пропуски могут быть вызваны ошибками ввода, сокрытием информации или фродом. В статье рассматриваются методы обработки пропусков, их плюсы и минусы, а также как неправильный выбор метода влияет на результат анализа.
«Что такое корреляция и что означает коррелировать — краткое определение, причины и простые примеры» — автор объясняет, какие бывают типы связи, что означает коэффициент корреляции и насколько можно полагаться на него при формировании гипотез.
«Линейный коэффициент корреляции Пирсона» — автор объясняет, как на практике рассчитывать этот коэффициент, в том числе в Excel, и как через преобразование Фишера найти доверительный интервал для оценки надёжности результата. В статье есть наглядные примеры, а также видеоролик.
«Моем датасет: руководство по очистке данных в Python» — методы работы с пропусками, дубликатами и выбросами на примере датасета с ценами на жилье в России. Практические примеры с кодом и объяснениями.
A Gentle Introduction to EDA — статья на английском. Разведочный анализ рассматривается не как одноразовый этап, а как повторяющийся процесс, который помогает лучше понять структуру данных и увидеть потенциальные проблемы. Множество иллюстраций и пошаговый разбор датасета с информацией о пассажирах «Титаника».
Сохраняйте, чтобы не потерять 🖤
❤3🤔1