Анализ данных (Data analysis)

Топ-5 браузерных расширений для специалистов по анализу данных

Сейчас исследователи данных в основном работают в браузере с помощью Jupyter Notebook или другого подобного браузерного блокнота. Некоторые задачи можно выполнять вне браузера, но затем дата-сайентист опять возвращается в браузерный блокнот.

Учитывая такую специфику работы специалистов по данным, эти 5 браузерных расширений точно пригодятся любому дата-сайентисту.

Читать дальше

@data_analysis_ml

🔥22👍4👎2

6.71K views18:02

Анализ данных (Data analysis)

Как собрать платформу обработки данных «своими руками»?

Один заказчик, который заинтересовался нашими компетенциям в построении инфраструктур, предложил крупный интеграционный проект. Архитекторы клиента придумали сложную и большую платформу, которая включала в себя машинное обучение, обработку данных и управлялась с помощью Kubernetes. Нам поставили задачу реализовать проект платформы, настроить связность элементов, построить и запустить инфраструктуру в эксплуатацию.

В итоге всё прошло хорошо и заказчик доволен. А у нас возникла идея скомпоновать свою платформу — такую, чтобы она была доступной не только большому бизнесу, но и компаниям среднего и малого масштаба. То есть сделать так, чтобы можно было получать большие возможности и не платить при этом огромные деньги.

Читать дальше

@data_analysis_ml

👍12🔥4

5.16K views06:47

Анализ данных (Data analysis)

#01TheNotSoToughML | Что означает “подогнать линию”

Что такое подгонка линии?
Когда мы начинаем изучать любой курс по МО, первое, с чем мы сталкиваемся, — это проведение линии вблизи точек. В связи с этим вы часто можете встретить термин “линейная регрессия”.

Примечание. Хотя в этой статье пойдет речь в основном об интуитивных решениях, лежащих в основе линейной регрессии, мы также будем использовать уравнения.

Кстати, мы будем создавать эти уравнения самостоятельно!

Читать дальше

@data_analysis_ml

👍13🔥2

6.3K views13:00

Анализ данных (Data analysis)

🎯 Снижаем размерность. Факторный анализ и метод главных компонент

Задача была такая: набор признаков должен обеспечить максимальную информативность. Это значит, что отбираются признаки, способные объяснить наибольшую долю дисперсии исходного набора.

Факторный анализ – многомерный метод, который применяется для изучения связей между переменными, когда существует предположение об избыточности исходных данных. Вращение Varimax в ходе факторного анализа способствует нахождению наилучшего подпространства признаков.

Метод главных компонент – метод статистического анализа, позволяющих снизить размерность пространства признаков и потерять при этом минимальное количество информации. Достигается это за счёт построения подпространства признаков меньшей размерности таким образом, чтобы дисперсия, распределённая по получаемым осям, была максимальна.

Первым этапом будет генерация исходных данных: DataFrame, большее количество столбцов которого будут заполнены случайными числами с заданной амплитудой, и лишь некоторые признаки (назову их существенными), которые будут выступать переменными, используемыми в модели. Я рассмотрю представленные выше методы на примере снижения размерности полученного набора данных.

Читать дальше

@data_analysis_ml

🔥11👍8

5.67K views08:42

Анализ данных (Data analysis)

🚀 @machinelearning_interview - в Канале собраны все возможные вопросы и ответы с собеседований по Аналитике данных и Машинному обучению. Для всех уровней разработчиков от авторов популярного канала Machine learning.

Материалы канала реально помогут подготовиться к data science собеседованию.

👉Перейти

👍8❤1

5.66K views07:26

Анализ данных (Data analysis)

Обнаружение фейковых новостей по их заголовкам

Идея данного проекта состоит в том, чтобы создать модель машинного обучения, которая могла бы определять, являются ли заголовки новостей, представленные в интернете, правдой или нет. Для обучения модели в данной статье будем использовать данные из файла train.tsv, который содержит новостные заголовки взятые с https://panorama.pub и https://lenta.ru. В файле находится таблица, состоящая из двух колонок. В колонке title записаны заголовки новостей. В колонке is_fake содержатся метки: 0 – новость реальная, 1 – новость выдуманная.

Читать дальше

@data_analysis_ml

👍24🤔2

5.38K views07:26

Анализ данных (Data analysis)

📏 Как измерить опоссумов линейной регрессией

А что если использовать свои навыки регрессии, чтобы предсказать длину головы опоссума по остальным метриками его тела?

Для тех, кто подзабыл: линейная регрессия— это регрессионная модель, которая позволяет описать зависимость одной переменной от одной или нескольких других переменных с линейной функцией зависимости.

В открытом доступе есть датасет про опоссумов. Для расчёта нужно взять csv-файл, который содержит информацию из девяти метрик каждого из 104 горных кистехвостых опоссумов, отловленных в семи местах от Южной Виктории до центрального Квинсленда.

➡️ Читать
🎯Датасет
🔗Код

@data_analysis_ml

👍19😁6❤4🔥3

8.21K views06:29

Анализ данных (Data analysis)

🚀 Эффективный сбор данных с DASK.

Чем больше у нас данных, тем больше возможностей извлечь из них полезную в работе информацию. Однако сбор данных - это только часть задачи, первый этап. Необходимо решить и где их хранить, и как обработать.

Обычно для этого используются проверенные временем инструменты, например, Pandas и NumPy. Они эффективны и пользуются большим доверием.

По мере увеличения объёма данных мы начинаем сталкиваться с физическими ограничениями этих инструментов. Отчасти эта проблема решается увеличением объёма оперативной памяти. Но это не всегда возможно и только отодвигает проблему, не решая её принципиально. Также хотелось бы иметь возможность обрабатывать данные параллельно на нескольких компьютерах или используя несколько процессоров/ядер. Для решения задач можно было бы перейти к более масштабируемому решению, такому как Spark, но, зачастую, такая доработка требует много времени.

Разве не было бы замечательно, если бы вы могли сделать это в своей системе локально, а при необходимости и масштабировать до кластера? В этом может помочь Dask.

➡️ Читать
🎯Шпаргалка по Dask

@data_analysis_ml

👍9🔥1

4.75K views07:16

Анализ данных (Data analysis)

🔥 9 бесплатных курсов Гарварда для изучения науки о данных в 2022 году

Читать

@data_analysis_ml

Дзен | Статьи

🔥 9 бесплатных курсов Гарварда для изучения науки о данных в 2022 году

Статья автора «Машинное обучение» в Дзене ✍: В прошлом месяце я написал статью о создании дорожной карты обучения науке о данных с помощью бесплатных курсов, предлагаемых Массачусетским...

👍23🔥5❤1🥰1😁1

6.82K views14:16

Анализ данных (Data analysis)

🎑 Визуализация в Python: matplotlib

Про возможность отрисовки графиков в Python знают многие, но что с настройкой графиков? Представим, вам хотелось бы сделать стандартный график в Python более информативным — развернуть его, добавить/убрать легенду, оси — или более привлекательным на вид – «поиграть» с цветом или шрифтом.
Расскажу о библиотеке matplotlib, которая позволяет строить графики любых, даже самых сложных форм, а впоследствии настраивать их так, чтобы добиться максимальной читаемости и информативности.

➡️ Читать
✅ Шпаргалка по Matplotlib

@data_analysis_ml

👍16🔥9❤2

6.37K views07:54

Анализ данных (Data analysis)

🌉 Ансамбли методов в алгоритмах поиска выбросов

Большое число практических задач, например, поиск мошеннических операций, выявление брака или аномалий, обнаружение вирусных атак на основе нетипичной активности сводятся к задачам определения выбросов в данных. Для определения выбросов обычно используют стандартные методы, например, метод ближайших соседей (KNN) или метод локального уровня выбросов (LOF). Применение ансамблей позволяет улучшить точность работы стандартных методов. В посте рассмотрю, как это сделать.

Идея ансамблей методов проста. Буду делать подвыборки из обучающей выборки и обучать на них базовые алгоритмы. Получаю набор из независимых детекторов (этот набор называется ансамбль), которые выдают оценки для каждой точки данных. Комбинируя оценки выбросов от базовых алгоритмов, обученных на различных подвыборках, получаю более точное предсказание выбросов.

Источник

@data_analysis_ml

👍17🔥2❤1

5.26K views09:20

Анализ данных (Data analysis)

❄️ Визуализируем данные из xml в виде социальной сети

Вы наверняка часто слышали об XML и вам известно хотя бы одно приложение, экспортирующее данные в этот формат. XML имеет большую совместимость и благодаря этому применяется для обмена данными между базами данных и пользовательскими компьютерами. Но как именно с ним работать и анализировать? В этой статье разберем практическую задачу с экспортированными данными в XML и визуализацией этих данных.

➡️ Читать

@data_analysis_ml

👍12🔥1

4.32K views07:40

Анализ данных (Data analysis)

🌌 Выявление и визуализация отсутствующих данных для применения машинного обучения

У нас есть персональные данные покупателей сервиса, их местоположение, а также данные о статусе покупки сервиса и обратна связь по качеству сервиса в одном предложении.

Для того, чтобы решить задачу о прогнозе оттока клиентов необходимо прежде всего оценить качество имеющихся данных. Вопрос качества данных важен потому, что от него напрямую зависит корректность решения задачи машинного обучения.

Предлагаю рассмотреть имеющиеся данные на вопрос наличия в них пустых значений, чтобы оценить полноту предоставленной информации. Для того, чтобы вопрос качества имеющихся данных был наглядным визуализируем полноту данных при помощи разных инструментов.

Рассмотрим мой стандартный способ визуализации полноты данных с помощью диаграммы, дендрограммы и тепловой карты корреляции наличия данных.

➡️ Читать

@data_analysis_ml

👍10🔥4

5.69K views06:14

Анализ данных (Data analysis)

🧠 NLP. Проект по распознаванию адресов. Natasha, Pullenti, Stanza

Многие аналитики данных сталкиваются с задачей распознавания адресов, напечатанных на документах. Для решения этой задачи я обратился к инструментам выявления сущностей в тексте с помощью NLP: NLTK, Spacy, Flair, DeepPavlov, Polyglot, AdaptNLP, Stanza, AllenNLP, HanLP, PullEnti, Natasha и т. д. Глаза начали разбегаться. И что же делать? Конечно, выбрать самое лучшее. Я выбрал несколько самых популярных библиотек, поддерживающих русский язык, и сравнил, кукую же из них использовать — Natasha, Stanza и Pullenti. Далее пойдет речь именно об этих библиотеках.

➡️ Читать

@data_analysis_ml

🔥7❤2👍2

5.68K views09:16

Анализ данных (Data analysis)

💨 Машинное обучение для поиска аномалий

Выявлять нетипичное поведение или аномальные значения признаков можно разными путями. При наличие данных за прошедшие периоды, размеченные как fraud/not fraud, можно использовать модели классификаторы для выявления подозрительных операций в настоящем. Я же рассмотрю случай, когда размеченных должным образом данных нет и анализ нужно проводить с чистого листа. Данная методика была применена для анализа поставщиков программного обеспечения и компьютерной техники на предмет выявления компаний с аномальным, не характерным для подобных контрагентов поведением.

➡️ Читать дальше

@data_analysis_ml

🔥12👍5

5.48K viewsedited 07:58

Анализ данных (Data analysis)

🦾 Динамика в деле: интерактивные графики в Dash.

Фреймворк Dash позволяет создавать веб-приложения с визуализацией различной информации, в частности – графиков. Несомненно, такая функция фреймворка очень полезна для специалиста по анализу данных.

Dash в основном использует «под капотом» Plotly.js (построение диаграмм), Flask (веб-сервер) и React (веб-интерфейс). Вам не нужно разбираться в этих технологиях, чтобы успешно применять Dash в своей работе, достаточно просто иметь базовые знания в Python и представлять, какие графики вы хотите видеть на своем дэшборде.

➡️ Читать дальше
⚙️ Полный код

@data_analysis_ml

👍14🔥4❤1🥰1

5.24K views07:49

Анализ данных (Data analysis)

💪 Colossal-AI инструмент, который упрощает инженерные задачи обучения нейронных сетей для исследователей данных

Архитектура Transformer улучшила производительность моделей глубокого обучения в таких областях, как компьютерное зрение и обработка естественного языка. Вместе с лучшей производительностью приходят и большие размеры моделей. Это создает проблемы производительности аппаратного обеспечения. Не разумно тренировать большие модели, такие как Vision Transformer, BERT, GPT, на одном графическом процессоре или одной машине. Существует острая потребность в обучении моделей в распределенной среде. Однако распределенное обучение, особенно параллелизм моделей, часто требует знаний в области компьютерных систем и архитектуры. Для исследователей ИИ остается сложной задачей внедрение сложных распределенных обучающих решений для своих моделей. В этой статье рассмотрим систему Colossal-AI, которая представляет собой единую параллельную обучающую систему, предназначенную для плавной интеграции различных парадигм методов распараллеливания. Она позволяет исследователям данных сосредоточиться на разработке архитектуры модели и отделяет проблемы распределенного обучения от процесса разработки.

➡️ Читать дальше
⚙️ Github

@data_analysis_ml

👍11🔥3

4.55K views09:05

Анализ данных (Data analysis)

📋 Собеседование в области науки о данных: 7 распространенных ошибок

Наука о данных — одна из самых быстрорастущих областей в технологической индустрии. Если вы постоянно получаете отказы после собеседований, постарайтесь выявить свои “слабые места” и поработать над ними. Данная статья вам в этом поможет.
Материал написан на основе собеседований с более чем 70 кандидатами на различные должности в области науки о данных и МО.

➡️ Читать дальше

@data_analysis_ml

👍12👎1🔥1

5.12K views13:07

Анализ данных (Data analysis)

Многих молодых аналитиков, и не только их, работа с исследованиями уводит в темные дебри поиска проблем, планирования, итераций, выводов, а про презентацию результатов и вовсе забывают. Самое досадное случается, когда все потраченные усилия уходят «в стол». И это далеко не редкость для бизнеса.

В последнем кейсе на Хабре аналитик из Delivery Club поделился подходом их команды по работе с исследованиями. Из статьи вы узнаете, почему так важен подготовительный этап, а в конце вас ждет чек-лист основных действий.

@data_analysis_ml

Хабр

Не работай «в стол»: руководство для эффективного аналитика

Привет, Хабр! Меня зовут Денис, я работаю продуктовым аналитиком в Delivery Club. Наша команда за последние полгода провела около сотни продуктовых исследований данных, которые способствовали...

👍18🔥7👎1

5.13K viewsedited 06:55

Анализ данных (Data analysis)

📃 Классификация текста с использованием моделей трансформеров

Модели трансформеров на данный момент являются state-of-the-art решениями в мире обработки естественного языка. Новые, более крупные и качественные модели появляются почти каждый месяц, устанавливая новые критерии производительности по широкому кругу задач. В данной статье мы будем использовать модель трансформера для бинарной классификации текста.

Для работы с текстом существует большое количество решений. Самая простая и популярная связка – TF-IDF + линейная модель. Данный подход позволяет обрабатывать и решать языковые задачи без особых затрат вычислительных ресурсов. Однако процесс использования такой связки требует дополнительных операций: чистка, лемматизация. В случае с BERT можно (даже нужно) опустить препроцессинг и сразу перейти к токенизации и обучению. Помимо дополнительных шагов, линейные модели часто выдают некорректные результат, так как не учитывают контекст слов. Понимание контекста является главным преимуществом трансформеров. На входе имеются обращения пользователей на различные темы. Необходимо обучить модель находить обращения с жалобой на сотрудника или другими словами – бинарная классификация

➡️ Читать дальше

@data_analysis_ml

🔥7👍4👎2

4.79K views15:52

About

Blog

Apps

Platform