Анализ данных (Data analysis) – Telegram

Анализ данных (Data analysis)

@data_analysis_ml

47.2K subscribers

2.65K photos

304 videos

1 file

2.29K links

Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp

Download Telegram

About

Blog

Apps

Platform

Анализ данных (Data analysis)

47.2K subscribers

Анализ данных (Data analysis)

❄️ Визуализируем данные из xml в виде социальной сети

Вы наверняка часто слышали об XML и вам известно хотя бы одно приложение, экспортирующее данные в этот формат. XML имеет большую совместимость и благодаря этому применяется для обмена данными между базами данных и пользовательскими компьютерами. Но как именно с ним работать и анализировать? В этой статье разберем практическую задачу с экспортированными данными в XML и визуализацией этих данных.

➡️ Читать

@data_analysis_ml

👍12🔥1

4.32K views07:40

Анализ данных (Data analysis)

🌌 Выявление и визуализация отсутствующих данных для применения машинного обучения

У нас есть персональные данные покупателей сервиса, их местоположение, а также данные о статусе покупки сервиса и обратна связь по качеству сервиса в одном предложении.

Для того, чтобы решить задачу о прогнозе оттока клиентов необходимо прежде всего оценить качество имеющихся данных. Вопрос качества данных важен потому, что от него напрямую зависит корректность решения задачи машинного обучения.

Предлагаю рассмотреть имеющиеся данные на вопрос наличия в них пустых значений, чтобы оценить полноту предоставленной информации. Для того, чтобы вопрос качества имеющихся данных был наглядным визуализируем полноту данных при помощи разных инструментов.

Рассмотрим мой стандартный способ визуализации полноты данных с помощью диаграммы, дендрограммы и тепловой карты корреляции наличия данных.

➡️ Читать

@data_analysis_ml

👍10🔥4

5.69K views06:14

Анализ данных (Data analysis)

🧠 NLP. Проект по распознаванию адресов. Natasha, Pullenti, Stanza

Многие аналитики данных сталкиваются с задачей распознавания адресов, напечатанных на документах. Для решения этой задачи я обратился к инструментам выявления сущностей в тексте с помощью NLP: NLTK, Spacy, Flair, DeepPavlov, Polyglot, AdaptNLP, Stanza, AllenNLP, HanLP, PullEnti, Natasha и т. д. Глаза начали разбегаться. И что же делать? Конечно, выбрать самое лучшее. Я выбрал несколько самых популярных библиотек, поддерживающих русский язык, и сравнил, кукую же из них использовать — Natasha, Stanza и Pullenti. Далее пойдет речь именно об этих библиотеках.

➡️ Читать

@data_analysis_ml

🔥7❤2👍2

5.68K views09:16

Анализ данных (Data analysis)

💨 Машинное обучение для поиска аномалий

Выявлять нетипичное поведение или аномальные значения признаков можно разными путями. При наличие данных за прошедшие периоды, размеченные как fraud/not fraud, можно использовать модели классификаторы для выявления подозрительных операций в настоящем. Я же рассмотрю случай, когда размеченных должным образом данных нет и анализ нужно проводить с чистого листа. Данная методика была применена для анализа поставщиков программного обеспечения и компьютерной техники на предмет выявления компаний с аномальным, не характерным для подобных контрагентов поведением.

➡️ Читать дальше

@data_analysis_ml

🔥12👍5

5.48K viewsedited 07:58

Анализ данных (Data analysis)

🦾 Динамика в деле: интерактивные графики в Dash.

Фреймворк Dash позволяет создавать веб-приложения с визуализацией различной информации, в частности – графиков. Несомненно, такая функция фреймворка очень полезна для специалиста по анализу данных.

Dash в основном использует «под капотом» Plotly.js (построение диаграмм), Flask (веб-сервер) и React (веб-интерфейс). Вам не нужно разбираться в этих технологиях, чтобы успешно применять Dash в своей работе, достаточно просто иметь базовые знания в Python и представлять, какие графики вы хотите видеть на своем дэшборде.

➡️ Читать дальше
⚙️ Полный код

@data_analysis_ml

👍14🔥4❤1🥰1

5.24K views07:49

Анализ данных (Data analysis)

💪 Colossal-AI инструмент, который упрощает инженерные задачи обучения нейронных сетей для исследователей данных

Архитектура Transformer улучшила производительность моделей глубокого обучения в таких областях, как компьютерное зрение и обработка естественного языка. Вместе с лучшей производительностью приходят и большие размеры моделей. Это создает проблемы производительности аппаратного обеспечения. Не разумно тренировать большие модели, такие как Vision Transformer, BERT, GPT, на одном графическом процессоре или одной машине. Существует острая потребность в обучении моделей в распределенной среде. Однако распределенное обучение, особенно параллелизм моделей, часто требует знаний в области компьютерных систем и архитектуры. Для исследователей ИИ остается сложной задачей внедрение сложных распределенных обучающих решений для своих моделей. В этой статье рассмотрим систему Colossal-AI, которая представляет собой единую параллельную обучающую систему, предназначенную для плавной интеграции различных парадигм методов распараллеливания. Она позволяет исследователям данных сосредоточиться на разработке архитектуры модели и отделяет проблемы распределенного обучения от процесса разработки.

➡️ Читать дальше
⚙️ Github

@data_analysis_ml

👍11🔥3

4.55K views09:05

Анализ данных (Data analysis)

📋 Собеседование в области науки о данных: 7 распространенных ошибок

Наука о данных — одна из самых быстрорастущих областей в технологической индустрии. Если вы постоянно получаете отказы после собеседований, постарайтесь выявить свои “слабые места” и поработать над ними. Данная статья вам в этом поможет.
Материал написан на основе собеседований с более чем 70 кандидатами на различные должности в области науки о данных и МО.

➡️ Читать дальше

@data_analysis_ml

👍12👎1🔥1

5.12K views13:07

Анализ данных (Data analysis)

Многих молодых аналитиков, и не только их, работа с исследованиями уводит в темные дебри поиска проблем, планирования, итераций, выводов, а про презентацию результатов и вовсе забывают. Самое досадное случается, когда все потраченные усилия уходят «в стол». И это далеко не редкость для бизнеса.

В последнем кейсе на Хабре аналитик из Delivery Club поделился подходом их команды по работе с исследованиями. Из статьи вы узнаете, почему так важен подготовительный этап, а в конце вас ждет чек-лист основных действий.

@data_analysis_ml

Не работай «в стол»: руководство для эффективного аналитика

Привет, Хабр! Меня зовут Денис, я работаю продуктовым аналитиком в Delivery Club. Наша команда за последние полгода провела около сотни продуктовых исследований данных, которые способствовали...

👍18🔥7👎1

5.13K viewsedited 06:55

Анализ данных (Data analysis)

📃 Классификация текста с использованием моделей трансформеров

Модели трансформеров на данный момент являются state-of-the-art решениями в мире обработки естественного языка. Новые, более крупные и качественные модели появляются почти каждый месяц, устанавливая новые критерии производительности по широкому кругу задач. В данной статье мы будем использовать модель трансформера для бинарной классификации текста.

Для работы с текстом существует большое количество решений. Самая простая и популярная связка – TF-IDF + линейная модель. Данный подход позволяет обрабатывать и решать языковые задачи без особых затрат вычислительных ресурсов. Однако процесс использования такой связки требует дополнительных операций: чистка, лемматизация. В случае с BERT можно (даже нужно) опустить препроцессинг и сразу перейти к токенизации и обучению. Помимо дополнительных шагов, линейные модели часто выдают некорректные результат, так как не учитывают контекст слов. Понимание контекста является главным преимуществом трансформеров. На входе имеются обращения пользователей на различные темы. Необходимо обучить модель находить обращения с жалобой на сотрудника или другими словами – бинарная классификация

➡️ Читать дальше

@data_analysis_ml

🔥7👍4👎2

4.79K views15:52

Анализ данных (Data analysis)

📊 «Представление информации»: базовые правила визуализации данных

Рассказываем о самых важных принципах дизайнерской работы с инфографикой.

Работа с данными требует точности и педантичности. Даже из-за неправильного выбора цвета или ошибочной сортировки вся инфографика может испортиться, а читатель уйдёт с неправильными выводами.

В книге «Представление информации» Тафти на реальных примерах разбирает ошибки в визуализации данных и формулирует принципы, которые помогут вам сделать инфографику понятной.

Издательство — Graphics Press.

Эдвард Тафти — американский статистик и член Американской статистической ассоциации. Благодаря своим книгам и публикациям о представлении информации считается одним из основоположников информационного дизайна. В своих книгах он рассказывает об удачных инфографиках и аргументированно критикует плохие.

Рассказываем о принципах из книги «Представление информации»: почему данные не нуждаются в декорациях, как использовать информационные слои и как количество информации может влиять на эмоции человека.

➡️ Читать дальше
📓 Handbook of Data Visualization

@data_analysis_ml

🔥10👍6❤1👎1

5.44K views11:00

Анализ данных (Data analysis)

🌓 Как разделять набор данных

Как оптимально разделить набор данных на обучающую, валидационную и тестовую выборки?

У каждого подмножества данных есть цель, от создания модели до обеспечения её производительности:

Обучающий набор: это подмножество данных, которые я буду использовать для обучения модели.

Валидационная выборка: используется для контроля процесса обучения. Она поможет предотвратить переобучение и обеспечит более точную настройку входных параметров.

Тестовый набор: подмножество данных для оценки производительности модели.

➡️ Читать дальше

@data_analysis_ml

🔥7👍1👎1

4.33K viewsedited 07:55

Анализ данных (Data analysis)

⭐️ Обучение модели W2NER для поиска именованных сущностей в текстах на русском языке

Задача распознавания сущностей (NER) постоянно возникает при машинной обработке документов, продолжается улучшение показателей качества и скорости работы алгоритмов для решения данной задачи. Предлагаю рассмотреть модель W2NER – классификатор попарных отношений слов в предложении. Далее я обучу модель на русскоязычном датасете и оценю качество её работы. Данные взяты из научной публикации: Unified Named Entity Recognition as Word-Word Relation Classification авторов Jingye Li и др.

➡️ Читать дальше
↪️ Github

@data_analysis_ml

👍5❤1👎1🔥1

4.96K viewsedited 12:23

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

✅ Качественно новый уровень визуализации данных в Python

Нам сложно отказываться от дел, на которые мы уже потратили много времени. Поэтому мы остаёмся на нелюбимой работе, вкладываемся в проекты, которые точно не «взлетят». А ещё продолжаем пользоваться утомительной библиотекой matplotlib для построения графиков, когда есть более эффективные и привлекательные альтернативы.

За последние несколько месяцев я осознал, что единственная причина, по которой я пользуюсь matplotlib, заключается в том, что я потратил сотни часов на изучение её запутанного синтаксиса. Из-за неё я жил на StackOverflow, пытаясь найти ответ на тот или иной вопрос. К счастью, для создания графиков на Python настали светлые времена, и после изучения доступных вариантов я выбрал явного победителя (с точки зрения простоты использования, документации и функциональности) в лице библиотеки plotly. В этой статье мы с ней познакомимся и научимся делать более качественные графики за меньшее время — зачастую с помощью одной строки кода.

Весь код для этой статьи доступен на GitHub. Все графики интерактивны, а посмотреть их можно на NBViewer.

➡️ Читать дальше
↪️ Код

@data_analysis_ml

🔥19👍7❤4👎2

6.55K views18:35

Анализ данных (Data analysis)

🚀 Data-Science-процессы: Jupyter Notebook для продакшена

Рефакторинг написанного в Notebook кода для запуска в продакшене — трудная и ресурсоемкая задача. Материал о том, как с помощью MLOps-инструментов и приемов сократить время от исследования до запуска решения. Описанное в статье — результат структурированного опыта дата-сайентистов и ML-разработчиков из сотен компаний.

➡️ Читать дальше
↪️ Знакомство с Jupyter Notebook

@data_analysis_ml

👍11🔥1

6.33K viewsedited 09:12

Анализ данных (Data analysis)

🪄 Магия таблиц стилей Matplotlib. Продвинутая Визуализации данных.

Визуализация данных — важная компетенция любого специалиста по данным. К сожалению, создание готовых к публикации визуализаций данных занимает очень много времени и хорошего вкуса. В мире Python + Matplotlib специалисты по данным зачастую строят графики низкого качества, которые, мягко говоря, не вдохновляют.

К счастью, замечательная библиотека Matplotlib может улучшить качество ваших графиков с помощью всего лишь нескольких строк кода. В Matplotlib есть много таблиц стилей по умолчанию, которые вы можете найти здесь, но куда интереснее создать свой стиль.

Я решил показать вам, как создать свою собственную таблицу стилей, которая может улучшить уровень ваших визуализаций. Вы можете использовать таблицу стилей, которую я сгенерировал, или изменить ее по своему вкусу. Давайте начнем.

➡️ Читать дальше
↪️ Код

@data_analysis_ml

🔥9👍5

8.26K viewsedited 09:57

Анализ данных (Data analysis)

💻 Моделирование данных в мире современного стека данных 2.0

Представьте, что вам нужно проанализировать данные об элементах, которые клиенты видят в списке веб-приложения. Это могут быть результаты поиска, товары для продажи, наиболее релевантные сообщения в ленте новостей и список новых звонков в службу поддержки клиентов — для аналитиков они все одинаковы.

Такие данные могут быть использованы аналитиками для оценки CTR (показателя кликабельности) при разработке тех или иных рекомендательных алгоритмов, позволяющих определить наблюдаемость различных позиций в списке (например, 1-я по сравнению с 10-й).

➡️ Читать дальше
➡️ Моделирование данных: зачем нужно и как реализовать

@data_analysis_ml

👍9🔥1

6.1K views08:07

Анализ данных (Data analysis)

🌏 Использование Redis для работы с геоданными

Работа с геопространственными данными заведомо сложная задача, хотя бы потому что широта и долгота это числа с плавающей запятой и они должны быть очень высокоточными. К тому же, казалось бы, широта и долгота могут быть представлены в виде сетки, но на самом деле нет, не могут, просто потому что Земля не плоская, а математика - это сложная наука.

➡️ Читать дальше
↪️ Redis for Geospatial Data whitepaper
⚙️ Запуск Redis в Google Colab Python

@data_analysis_ml

👍9🔥2👎1

5.54K viewsedited 08:29

Анализ данных (Data analysis)

📡 Простая обработка возобновляющихся данных или как создать легко воспроизводимый DS проект.

Аналитику или исследователю данных приходится разрабатывать множество алгоритмов по обработке и анализу различных данных. Большинство алгоритмов разрабатываются для многоразового использования, а значит, код либо запускается разработчиком с определенной периодичностью, либо код передается другим пользователям для обработки своих данных. При этом алгоритмы имеют множество параметров и зависимостей, которые необходимо индивидуально настраивать под определенные данные.

Для того чтобы сделать процесс развертывания, использования и доработки алгоритма интуитивно понятным воспользуемся инструментом Kedro. Основная концепция kedro заключается в модульной структуре, где весь цикл работы с данными формируется из отдельных блоков в единый рабочий процесс

➡️ Читать дальше
⚙️ Код
⚙️ Kedro

@data_analysis_ml

🔥10👍5

5.45K views08:59

Анализ данных (Data analysis)

📖 Краткое руководство по созданию наборов данных с помощью Python

Если вам когда-нибудь приходилось собирать данные о своих пользователях, вы знаете, насколько это сложно. Так почему бы не попытаться создать свой собственный набор данных?

В этой статье я опишу простой процесс сбора пользовательских данных, который можно реализовать менее чем за час. Это позволит вам легко собирать и хранить пользовательские данные.

Сначала мы будем использовать Streamlit, чтобы создать веб-страницу для размещения пользовательского интерфейса сбора данных, а затем — Google Sheets API вместе с одним классным пакетом Python для хранения введенных пользователями данных.

➡️ Читать дальше

@data_analysis_ml

👍9🔥4

8.77K views09:00

Анализ данных (Data analysis)

💬 Основы обработки естественного языка за 10 минут

В этой статье будут рассмотрены следующие процессы:

1. Токенизация.

2. Стоп-слова.

3. Выделение основы слова.

4. Лемматизация.

5. Создание базы слов.

6. Маркировка частей речи.

7. Построение цепочек слов.

Но прежде всего разберёмся, что же такое NLP.

Естественный язык (NL) обозначает явление, благодаря которому люди общаются друг с другом, а его обработка означает лишь передачу данных в понятной форме. Таким образом, можно сказать, что NLP — это способ, который помогает компьютерам общаться с людьми на их языке.

➡️ Читать дальше

@data_analysis_ml

👍8🔥2

5.18K views09:01

Анализ данных (Data analysis)

📖Практическая статистика для специалистов Data SciencePDF

50+ важнейших понятий с использованием R и Python

⚙️ Книга

@data_analysis_ml

👍21🔥6👎1🥰1

6.13K viewsedited 09:14