Анализ данных (Data analysis)
46.3K subscribers
2.34K photos
277 videos
1 file
2.07K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
📃 Классификация текста с использованием моделей трансформеров

Модели трансформеров на данный момент являются state-of-the-art решениями в мире обработки естественного языка. Новые, более крупные и качественные модели появляются почти каждый месяц, устанавливая новые критерии производительности по широкому кругу задач. В данной статье мы будем использовать модель трансформера для бинарной классификации текста.

Для работы с текстом существует большое количество решений. Самая простая и популярная связка – TF-IDF + линейная модель. Данный подход позволяет обрабатывать и решать языковые задачи без особых затрат вычислительных ресурсов. Однако процесс использования такой связки требует дополнительных операций: чистка, лемматизация. В случае с BERT можно (даже нужно) опустить препроцессинг и сразу перейти к токенизации и обучению. Помимо дополнительных шагов, линейные модели часто выдают некорректные результат, так как не учитывают контекст слов. Понимание контекста является главным преимуществом трансформеров. На входе имеются обращения пользователей на различные темы. Необходимо обучить модель находить обращения с жалобой на сотрудника или другими словами – бинарная классификация

➡️ Читать дальше

@data_analysis_ml
🔥7👍4👎2
📊 «Представление информации»: базовые правила визуализации данных

Рассказываем о самых важных принципах дизайнерской работы с инфографикой.

Работа с данными требует точности и педантичности. Даже из-за неправильного выбора цвета или ошибочной сортировки вся инфографика может испортиться, а читатель уйдёт с неправильными выводами.

В книге «Представление информации» Тафти на реальных примерах разбирает ошибки в визуализации данных и формулирует принципы, которые помогут вам сделать инфографику понятной.

Издательство — Graphics Press.

Эдвард Тафти — американский статистик и член Американской статистической ассоциации. Благодаря своим книгам и публикациям о представлении информации считается одним из основоположников информационного дизайна. В своих книгах он рассказывает об удачных инфографиках и аргументированно критикует плохие.

Рассказываем о принципах из книги «Представление информации»: почему данные не нуждаются в декорациях, как использовать информационные слои и как количество информации может влиять на эмоции человека.

➡️ Читать дальше
📓 Handbook of Data Visualization

@data_analysis_ml
🔥10👍61👎1
🌓 Как разделять набор данных

Как оптимально разделить набор данных на обучающую, валидационную и тестовую выборки?

У каждого подмножества данных есть цель, от создания модели до обеспечения её производительности:

Обучающий набор: это подмножество данных, которые я буду использовать для обучения модели.

Валидационная выборка: используется для контроля процесса обучения. Она поможет предотвратить переобучение и обеспечит более точную настройку входных параметров.

Тестовый набор: подмножество данных для оценки производительности модели.

➡️ Читать дальше

@data_analysis_ml
🔥7👍1👎1
⭐️ Обучение модели W2NER для поиска именованных сущностей в текстах на русском языке

Задача распознавания сущностей (NER) постоянно возникает при машинной обработке документов, продолжается улучшение показателей качества и скорости работы алгоритмов для решения данной задачи. Предлагаю рассмотреть модель W2NER – классификатор попарных отношений слов в предложении. Далее я обучу модель на русскоязычном датасете и оценю качество её работы. Данные взяты из научной публикации: Unified Named Entity Recognition as Word-Word Relation Classification авторов Jingye Li и др.

➡️ Читать дальше
↪️ Github

@data_analysis_ml
👍51👎1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Качественно новый уровень визуализации данных в Python

Нам сложно отказываться от дел, на которые мы уже потратили много времени. Поэтому мы остаёмся на нелюбимой работе, вкладываемся в проекты, которые точно не «взлетят». А ещё продолжаем пользоваться утомительной библиотекой matplotlib для построения графиков, когда есть более эффективные и привлекательные альтернативы.

За последние несколько месяцев я осознал, что единственная причина, по которой я пользуюсь matplotlib, заключается в том, что я потратил сотни часов на изучение её запутанного синтаксиса. Из-за неё я жил на StackOverflow, пытаясь найти ответ на тот или иной вопрос. К счастью, для создания графиков на Python настали светлые времена, и после изучения доступных вариантов я выбрал явного победителя (с точки зрения простоты использования, документации и функциональности) в лице библиотеки plotly. В этой статье мы с ней познакомимся и научимся делать более качественные графики за меньшее время — зачастую с помощью одной строки кода.

Весь код для этой статьи доступен на GitHub. Все графики интерактивны, а посмотреть их можно на NBViewer.

➡️ Читать дальше
↪️ Код

@data_analysis_ml
🔥19👍74👎2
🚀 Data-Science-процессы: Jupyter Notebook для продакшена

Рефакторинг написанного в Notebook кода для запуска в продакшене — трудная и ресурсоемкая задача. Материал о том, как с помощью MLOps-инструментов и приемов сократить время от исследования до запуска решения. Описанное в статье — результат структурированного опыта дата-сайентистов и ML-разработчиков из сотен компаний.

➡️ Читать дальше
↪️ Знакомство с Jupyter Notebook

@data_analysis_ml
👍11🔥1
🪄 Магия таблиц стилей Matplotlib. Продвинутая Визуализации данных.

Визуализация данных — важная компетенция любого специалиста по данным. К сожалению, создание готовых к публикации визуализаций данных занимает очень много времени и хорошего вкуса. В мире Python + Matplotlib специалисты по данным зачастую строят графики низкого качества, которые, мягко говоря, не вдохновляют.

К счастью, замечательная библиотека Matplotlib может улучшить качество ваших графиков с помощью всего лишь нескольких строк кода. В Matplotlib есть много таблиц стилей по умолчанию, которые вы можете найти здесь, но куда интереснее создать свой стиль.

Я решил показать вам, как создать свою собственную таблицу стилей, которая может улучшить уровень ваших визуализаций. Вы можете использовать таблицу стилей, которую я сгенерировал, или изменить ее по своему вкусу. Давайте начнем.


➡️ Читать дальше
↪️ Код

@data_analysis_ml
🔥9👍5
💻 Моделирование данных в мире современного стека данных 2.0

Представьте, что вам нужно проанализировать данные об элементах, которые клиенты видят в списке веб-приложения. Это могут быть результаты поиска, товары для продажи, наиболее релевантные сообщения в ленте новостей и список новых звонков в службу поддержки клиентов — для аналитиков они все одинаковы.

Такие данные могут быть использованы аналитиками для оценки CTR (показателя кликабельности) при разработке тех или иных рекомендательных алгоритмов, позволяющих определить наблюдаемость различных позиций в списке (например, 1-я по сравнению с 10-й).

➡️ Читать дальше
➡️ Моделирование данных: зачем нужно и как реализовать

@data_analysis_ml
👍9🔥1
🌏 Использование Redis для работы с геоданными

Работа с геопространственными данными заведомо сложная задача, хотя бы потому что широта и долгота это числа с плавающей запятой и они должны быть очень высокоточными. К тому же, казалось бы, широта и долгота могут быть представлены в виде сетки, но на самом деле нет, не могут, просто потому что Земля не плоская, а математика - это сложная наука.

➡️ Читать дальше
↪️ Redis for Geospatial Data whitepaper
⚙️ Запуск Redis в Google Colab Python

@data_analysis_ml
👍9🔥2👎1
📡 Простая обработка возобновляющихся данных или как создать легко воспроизводимый DS проект.

Аналитику или исследователю данных приходится разрабатывать множество алгоритмов по обработке и анализу различных данных. Большинство алгоритмов разрабатываются для многоразового использования, а значит, код либо запускается разработчиком с определенной периодичностью, либо код передается другим пользователям для обработки своих данных. При этом алгоритмы имеют множество параметров и зависимостей, которые необходимо индивидуально настраивать под определенные данные.

Для того чтобы сделать процесс развертывания, использования и доработки алгоритма интуитивно понятным воспользуемся инструментом Kedro. Основная концепция kedro заключается в модульной структуре, где весь цикл работы с данными формируется из отдельных блоков в единый рабочий процесс

➡️ Читать дальше
⚙️ Код
⚙️ Kedro

@data_analysis_ml
🔥10👍5
📖 Краткое руководство по созданию наборов данных с помощью Python

Если вам когда-нибудь приходилось собирать данные о своих пользователях, вы знаете, насколько это сложно. Так почему бы не попытаться создать свой собственный набор данных?

В этой статье я опишу простой процесс сбора пользовательских данных, который можно реализовать менее чем за час. Это позволит вам легко собирать и хранить пользовательские данные.

Сначала мы будем использовать Streamlit, чтобы создать веб-страницу для размещения пользовательского интерфейса сбора данных, а затем — Google Sheets API вместе с одним классным пакетом Python для хранения введенных пользователями данных.

➡️ Читать дальше

@data_analysis_ml
👍9🔥4
💬 Основы обработки естественного языка за 10 минут

В этой статье будут рассмотрены следующие процессы:

1. Токенизация.

2. Стоп-слова.

3. Выделение основы слова.

4. Лемматизация.

5. Создание базы слов.

6. Маркировка частей речи.

7. Построение цепочек слов.

Но прежде всего разберёмся, что же такое NLP.

Естественный язык (NL) обозначает явление, благодаря которому люди общаются друг с другом, а его обработка означает лишь передачу данных в понятной форме. Таким образом, можно сказать, что NLP — это способ, который помогает компьютерам общаться с людьми на их языке.

➡️ Читать дальше

@data_analysis_ml
👍8🔥2
📖Практическая статистика для специалистов Data SciencePDF

50+ важнейших понятий с использованием R и Python

⚙️ Книга

@data_analysis_ml
👍21🔥6👎1🥰1
Как создать хранилище данных за 5 шагов

Будучи участником многочисленных проектов по преобразованию сложных типов данных, могу подтвердить статистику, согласно которой 85% проектов по обработке данных терпят неудачу.

Вот основные причины этих неудач.

Трансформирование стеков данных.
Недостаточная подготовленность данных.
Некомпетентность команды.
Нетерпеливость заинтересованных сторон.
Чрезмерное усердие руководства.
Отсутствие инвестиций, необходимых для изменения организационной культуры.

➡️ Читать дальше

@data_analysis_ml
👍10🔥1
8 показателей эффективности классификации

Классификация — это тип контролируемой задачи машинного обучения. Цель классификации — предсказание признаков одного или нескольких наблюдаемых объектов или класса, к которому они принадлежат.

Важным элементом любого рабочего процесса машинного обучения является оценка эффективности модели. Это процесс, при котором обученную модель используют для прогнозирования на материале ранее не отображенных, помеченных данных. При классификации оценивают количество правильных прогнозов, сделанных моделью.

В реальных задачах классификации обычно невозможно достичь 100% верных прогнозов, поэтому при оценке модели полезно знать не только то, насколько она была неверна, но в чем.

➡️ Читать дальше

@data_analysis_ml
🔥8👍4
💫 4 пакета Python для причинно-следственного анализа данных

Причинно-следственный анализ — это область экспериментальной статистики, направленная на установление и обоснование причинно-следственных связей. Использование статистических алгоритмов для доказательства причинно-следственных связей в наборе данных при строгом допущении называется эксплораторным причинно-следственным анализом (ЭПСА).

ЭПСА — это способ доказать причинно-следственные связи с помощью более контролируемых экспериментов, а не только на основе корреляции. Часто требуется испытать контрфактическое состояние  — иное состояние при других обстоятельствах. Проблема в том, что корреляционный анализ позволяет приблизительно установить только причинно-следственные связи, но не контрфактические.

Анализ причинно-следственных связей — это совершенно другая область исследований в науке о данных, поскольку он отличается от предсказаний, полученных в результате моделирования с помощью машинного обучения. Можно всегда предсказать результат МО на основе имеющихся данных, но не то, что выходит за рамки этих данных.

Чтобы узнать больше о причинно-следственном анализе, познакомимся с 4 пакетами Python, которые можно использовать для исследования данных.

➡️ Читать дальше

@data_analysis_ml
🔥18👍62
✒️ Распознавание чисел в прописном виде.

Суть задачи

Есть большой объём данных отсканированных через Adobe File reader документов в виде txt файлов, разного формата. Нам нужно распарсить эти документы по некоторым параметрам и достать из них число, записанное прописью. Для того чтобы вытаскивать параметры мы используем Natasha, но из-за «мусорных» данных, вызванных либо качеством сканов, либо не идеальности самого сканера, она не всегда справляется со своей задачей. Тут нам и приходит на помощь алгоритм, о котором далее пойдёт речь.

➡️ Читать дальше
⚙️ Код на Python

@data_analysis_ml
👍8
📁 Автоматизированная загрузка массива CSV в БД

Потребность в подобной разработке возникла в связи с необходимостью перемещения больших объемов данных из одной системы управления базами данных в другую. Из-за большого размера выгрузки её пришлось разбивать на множество мелких CSV. Загрузка каждого файла вручную заняла бы много времени. Это и стало причиной создания программы, о которой пойдет речь. Разработанный ноутбук Python будет сам определять типы данных внутри CSV и автоматически загружать их в таблицу БД. В каталоге с ноутбуком должны быть созданы две папки: in (куда нужно сложить загружаемые CSV) и out (куда будут перемещены уже загруженные файлы). После создания папок можно приступить к написанию кода.

➡️ Читать дальше
⚙️ Код

@data_analysis_ml
👍12🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ 10 простых хаков, которые ускорят анализ данных Python

Сделать анализ данных Python быстрее и лучше – мечта каждого разработчика. Вот наглядные примеры: узнайте, как добавить чуточку магии в код.

В этой статье собраны лучшие советы и приёмы. Некоторые из них распространённые, а некоторые новые, но обязательно пригодятся в будущем.

➡️ Читать дальше

@data_analysis_ml
👍33🔥53
📊 ТОП-10 инструментов для Data Science

Хотите сделать свою работу в области науки о данных продуктивнее? Подбирайте удобные и эффективные инструменты. Рассмотрим десять лучших, получивших наибольшее распространение среди специалистов по Data Science во всем мире.

➡️ Часть 1
➡️ Часть 2

@data_analysis_ml
👍13🔥4