Анализ данных (Data analysis)
46.3K subscribers
2.34K photos
277 videos
1 file
2.07K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
💻 Как быстро и легко создавать прототипы датасайенс-проектов

Проект в области науки о данных можно успешно реализовать при наличии минимального стека технологий. Более того, чем меньше стек, тем лучше проект!

Jupyter Notebook — неотъемлемая часть повседневной работы специалистов по данным. Большинство проектов в этой области также нуждаются в интерактивном дашборде.

А что если превратить ноутбуки в многофункциональные дашборды? Это возможно!

Как правило, для разработки дашборда требуются знания HTML, JavaScript и CSS. Такие инструменты, как Streamlit и Dash, позволяют обойтись без этих знаний.

Тем не менее преобразовывать ноутбуки в функциональные приложения все равно нужно вручную, для чего потребуется копировать множество фрагментов.

Однако с помощью Mercury можно мгновенно превратить Jupyter Notebook в интерактивный дашборд, онлайн-слайд-шоу или веб-сервис.

➡️ Читать дальше

@data_analysis_ml
👍151🔥1😁1
📈 Различные варианты визуализации данных с примерами кода.

Визуализация данных — это большая часть работы специалистов в области data science. На ранних стадиях развития проекта часто необходимо выполнять разведочный анализ данных (РАД, Exploratory data analysis (EDA)), чтобы выявить закономерности, которые обнаруживают данные. Визуализация данных помогает представить большие и сложные наборы данных в простом и наглядном виде. На этапе окончания проекта важно суметь отчитаться о его результатах так, чтобы даже непрофессионалам, не обладающим техническими знаниями, всё стало ясно и понятно.

Matplotlib — это популярная библиотека для визуализации данных, написанная на языке Python. Хоть пользоваться ей очень просто, настройка данных, параметров, графиков и отрисовки для каждого нового проекта — занятие нудное и утомительное. В этом посте мы разберем 6 способов визуализации данных и напишем быстрые и простые функции для их реализации с помощью питоновской библиотеки Matplotlib. А пока взгляните на прекрасный график, который поможет вам выбрать правильный тип визуализации данных!

Алгоритм выбора техники визуализации в зависимости от задачи

➡️ Читать дальше

@data_analysis_ml
👍165🔥1
Какие учебники по математическому анализу, линейной алгебре и теории вероятностей лучше подходят для изучения анализа данных?

К сожалению, анализ данных не устроен как стройная теория - это лоскутное одеяло методов, которые опираются на определенные идеи, беря, иногда, для решения одной задачи, половину курса теории оптимизации.
Более того, существует некоторое количество абсолютно необходимых практических навыков для работы в этой области, которые не будут подвязаны к существующим учебникам, поэтому существенную часть, вероятно, придется изучать по документации пакетов.

Для старта:

1 Начните изучение с практических навыков описательной статистики (может взять учебник с названием "статистика" (не математическая статистика), взять датасет на kaggle и начать баловаться с pandas. Это даст вам существенное понимание про элементарную предобработку.

2 Возьмите книжку по практике математической статистики Гмурмана и попытайтесь средствами того же pandas по-постраивать доверительные интервалы, да по-проверять гипотезы.

3 После освоения pandas - вам стоит перейти к библиотеке scikit-learn, почитать ее документацию, поупражняться на конкретных датасетах с кластеризациями, предобработкой, тренировкой моделей и визуализацией. Для визуализации следует ознакомиться с matplotlib и bokeh.
4 Дальше желательно изучить SQL. На фоне владения pandas он окажется простым
5 Потом, почти наверняка наступит период овладения torch и keras.
Вот дальше можно пойти в разные стороны:
• копать в сторону теории без библиотек (типа HMM) и в совершенстве овладеть numpy и stats;
• копать в сторону больших данных и изучать Hadoop и Spark;
• копать в сторону компьютерного зрения и изучать opencv;
• узучать биоинформатику и изучать взаимодействия с GenBank и другими биоинформатическими сервисами
• уйти в изучение по информационному поиску, изучать какой-нибудь EllasticSearch, NLTK, pymorphy, request и регулярные выражения.
Ну и там на самом деле это просто верхушка айсберга.
Поймите тут такую вещь, что понимание - это круто, конечно, но есть отдельно огромная работа уже просто освоить готовые технологии.
Если Вы параллельно сможете еще и теорию осваивать на тему, то советую

1 по анализу трехтомник У. Рудина,
2 по линейной алгебре "Задачи и теоремы линейной алгебры" Прасолова,
3 а по теории вероятностей начать с "Гмурмана" чисто с практических соображений,
4 потом перейти на "Боровкова".
5 Есть еще хорошая книга "Коралов-Синай", но у нее безумно маленький тираж на русском языке.
Еще, разумеется, вам абсолютно необходимо будет знать что-то про конечномерную оптимизацию - это вообще лучше всего по методичкам на сайтах различных вузов посмотреть.

@data_analysis_ml
👍49🔥11
⭐️ Как работает коллаборативная фильтрация?

Коллаборативная фильтрация – метод, используемый в рекомендательных системах, для прогнозирования неизвестных предпочтений одного пользователя по известным предпочтениям других пользователей. Наиболее часто применяется для повышения продаж, конверсии, эффективности публикации информационных материалов и других метрик в электронной коммерции.
Метод основан на предположении о том, что пользователи, которые одинаково оценивали какие-либо товары (услуги) в прошлом, склонны давать похожие оценки другим товарам в будущем. Исходя из этого допущения, рекомендательная система будет предлагать те товары, которыми интересовалась аудитория, а конкретный пользователь еще нет. В этом и будет проявляться коллаборация – прогнозы составляются индивидуально для каждого, хотя используемая для них информация собрана от многих участников.

На задачу рекомендательной системы можно смотреть как на заполнение пропусков в матрице оценок товаров пользователями. Для этого применяют два основных подхода, основанные на сходстве пользователей (user-based collaborative filtering) и похожести предлагаемых продуктов (item-based collaborative filtering).

В общем виде алгоритм состоит из следующих шагов:

Найти, насколько другие пользователи (продукты) похожи на пользователя (продукт), для которого необходимо выдать рекомендацию.
По оценкам других пользователей (продуктов) предсказать, какую оценку даст исследуемый пользователь определенному продукту, учитывая с большим весом тех пользователей (продукты), которые больше похожи на данный.
В качестве меры похожести часто используют косинусную меру, коэффициент корреляции Пирсона, евклидово расстояние, коэффициент Танимото и манхэттенское расстояние.

Разработчики коллаборативной фильтрации применяют различные решения для учета явности и неявности оценок и предпочтений пользователей. Примером явной оценки является количество звезд, поставленных зрителем после просмотра фильма в онлайн-кинотеатре Okko, или нажатие кнопки “дизлайк” у статьи Яндекс Дзен. В наше динамичное время, как правило, объем неявных оценок превышает явную обратную связь, поэтому высокий потенциал для повышения качества рекомендаций несет именно неявный рейтинг, когда есть все основания полагать, что пользователь воспользовался услугой, но не захотел сообщить своё мнение о ней. В этом случае рекомендательная система может попытаться спрогнозировать оценку по другим метрикам, например времени чтения статьи или просмотра видео. Недосмотренный фильм, как и статья, которая удержала на себе внимание не больше 5 секунд, скорее всего не смогли понравиться.

Важно понимать, что результативность коллаборативной фильтрации может быть низкой, когда рекомендательная система еще не накопила достаточного набора данных о новом пользователе или товаре. Эта ситуация называется проблемой холодного старта. Она может проявляться так же для непопулярных товаров и неактивных пользователей.

➡️ Коллаборативная фильтрация и ее реализация

@data_analysis_ml
👍14🔥3
✒️ Валидация моделей машинного обучения и анализа данных.

Cегодня мы разберем валидацию моделей.

Иногда термин «валидация» ассоциируется с вычислением одной точечной статистической метрики (например, ROC AUC) на отложенной выборке данных. Однако такой подход может привести к ряду ошибок.

В статье разберем, о каких ошибках идет речь, подробнее рассмотрим процесс валидации и дадим ответы на вопросы:

- на каком этапе жизненного цикла модели проводится валидация? Спойлер: это происходит больше одного раза;
- какие метрики обычно применяются при валидации и с какой целью?
- почему важно использовать не только количественные, но и качественные метрики?

Примеры в статье будут из финансового сектора. Финансовый сектор отличается от других областей (больше предписаний со стороны регулятора — Центрального банка), но в то же время в секторе большой опыт применения моделирования для решения бизнес-задач и есть широкий спектр опробованных на практике тестов по валидации моделей. Поэтому статья будет интересна как тем, кто работает в ритейле, телекоме, промышленности, так и специалистам любой другой сферы, где применяются модели машинного обучения.

➡️ Читать дальше

@data_analysis_ml
👍11
Карл Андерсон / Аналитическая культура

Это практическое пошаговое руководство по внедрению в вашей организации управления на основе данных. Карл Андерсон, директор по аналитике в компании Warby Parker, провел интервью с ведущими аналитиками и учеными и собрал кейсы, которые и легли в основу данной книги. Вы узнаете, какие процессы следует ввести на всех уровнях и как именно это сделать, с какими трудностями можно столкнуться на этом пути и как их преодолеть. Автор рассказывает об аналитической цепочке ценностей, которая поможет принимать правильные решения и достигать лучших бизнес-результатов.

Книга будет интересна CEO и владельцам бизнеса, менеджерам, аналитикам.

📖 Книга

@data_analysis_ml
👍21🔥5
🏙 Большое руководство по визуализации. Визуализация данных с помощью веб-фреймворка Dash.

Сам Dash это некий коллаб HTML, React.Js, Flask и CSS и предоставляет python классы для всех своих визуальных компонентов.

В качестве демонстративного датасета я возьму датасет diamonds с сайта kaggle (https://www.kaggle.com/shivam2503/diamonds)

Если описывать полностью все функции, которые предоставляет dash, уйдет довольно много времени, исходя из этого, предлагаю в качестве простого примера визуализировать более камерную задачу. Допустим, вывести гистограмму количества драгоценных камней в зависимости от нескольких факторов: качество огранки, уровень чистоты и цвет. При этом выбор нужной гистограммы происходит непосредственно в веб интерфейсе.

➡️ Читать дальше
📄 Датасет
⚙️ Код

@data_analysis_ml
👍14🔥2
🎇 Сравнение различных способов редактирования Spark DataFrame

При работе с распределенными базами данных чаще всего используют Spark и его собственные DataFrame.

В данном посте разберём различные способы создания столбцов путем преобразования, вычислений, применения регулярных выражений и т.д. Также мы сравним длительность каждого способа и какой лучше где п

➡️ Читать дальше
📄 Основы работы со Spark DataFrame
⚙️ Spark

@data_analysis_ml
👍10
🐍📊 Графики в Python: 9 видов визуализации, привлекающих внимание лучше, чем гистограмма. Инструкция по визуализации данных.

Гистограмма – это двухмерный график с прямоугольными столбцами по оси X или Y. Мы используем эти столбцы для сравнения значений, принадлежащих дискретным категориям, сравнивая высоту или ширину соответствующих столбцов. Такие графики часто используются для визуализации данных, поскольку их нетрудно создать и просто понять.

Однако в некоторых ситуациях, таких, как создание инфографики или когда необходимо привлечь внимание публики к данным, гистограмма может быть недостаточно привлекательной. Иногда слишком большое количество гистограмм может сделать презентацию скучной.

Визуализация данных включает множество видов графиков. Эта статья продемонстрирует девять идей, которые можно использовать не только для разнообразия, но и для улучшения внешнего вида полученных результатов.

➡️ Читать дальше

@data_analysis_ml
👍18🔥4
🔎 Обнаружение фейковых новостей с помощью машинного обучения

Однажды летом мама угостила меня горячей содовой с лаймом. Зачем же подогревать охлаждающий напиток? Мама объяснила, что лайм, соединяясь с горячей водой, превращается из кислоты в основание. По ее словам, такой напиток может убивать раковые клетки — она узнала это из социальных сетей.

Удивительный факт! А что если это просто обман? Оказалось, что так и есть.

➡️ Читать дальше
📄 Датасет
⚙️ Код

@data_analysis_ml
👍7🔥5
🔥 Как самостоятельно выучиться на дата-саентиста, не бросая на ветер деньги.

Недавно собрал ответ на этот вопрос достаточно развернуто, на мой взгляд, чтобы поделиться им с широкой аудиторией. Не все платные курсы плохие (хотя большинство — да — из-за механизмов отбора, продаж и слабой программы), но о них напишу отдельно. Мне кажется, нужно учитывать больше персонализированных параметров для того, чтобы грамотно выбирать хороший курс за деньги.

— Во-первых, в список вошли бесплатные онлайн-курсы и ресурсы для самостоятельного обучения, которые проходила сама или советует профессиональное сообщество аналитиков и дата-саентистов (часто упоминающиеся в ODS.ai), где не нужно проходить какой-то отбор или быть ограниченным офлайн-посещением.

— Во-вторых, конечно, это далеко не полный список онлайн-курсов, который вы можете встретить, зато в него попали лучшие курсы от сильных математических и Computer Science-школ мир и другие распространенные ресурсы среди профи из того, что я смогла отфильтровать на свой вкус.

— В-третьих, начну с рекордно короткого списка, с которого, как мне кажется, стоит начинать обучение предмету, и он идет сразу же следующим абзацем:

➡️ Читать дальше


@data_analysis_ml
👍24🔥9👎2
This media is not supported in your browser
VIEW IN TELEGRAM
🧰 Инструменты для быстрого овладения наукой о данных.

Подобное желание изъявляют тысячи выпускников вузов. Им не хватает четкого ориентира в приобретении навыков, необходимых для того, чтобы стать специалистом по обработке данных. Наука о данных — очень популярная область, которая прельщает многих высокими доходами и возможностью работать на дому. Поэтому вышеописанные ожидания вполне понятны. Однако кто-то должен помочь вчерашнему выпускнику стать специалистом по обработке данных, причем незамедлительно. Имея за плечами более десяти лет академического и отраслевого опыта, я могу предложить быстрое решение, которое поможет всем претендентам достичь своей цели.

Для начала стоит выяснить, зачем нужен специалист по обработке данных и какие требования к нему предъявляют бизнесмены-работодатели. После этого поговорим о роли науки о данных в современном мире.

➡️ Читать дальше

@data_analysis_ml
👍142🔥2👎1
🔐 Предохранители для данных: как автоматические выключатели повышают Data Quality

Представьте, что бизнес-метрика неожиданно резко вырастает или проседает. Как понять, реальное это изменение или проблема с качеством данных?

В чем суть предохранителя

Если возникают проблемы с данными, предохранитель разрывает «цепь» и не пускает некачественные данные в следующие процессы обработки. В результате данные, которые приходятся на периоды низкого качества, не входят в отчеты. А значит, можно быть уверенным в их корректности.

Такой проактивный подход сокращает Time-to-Reliable-Insights до минут. А автоматизация обеспечивает прямую зависимость данных от их качества. Это позволяет избежать разрушительных авралов, которые возникают всякий раз, когда нужно проверить и поправить метрики или отчеты. Далее мы в подробностях рассмотрим, как внедрять такие предохранители.

➡️ Читать дальше

@data_analysis_ml
👍9
💡 SQL для Data Science: альтернатива обмену через Google Disk и Slack

Аналитический труд всегда читается больше одного раза. Поговорим о том, как добиться удобного и надежного обмена проектами в области Data Science с повторным применением коллективных наработок спустя годы.

Специалисты в области науки о данных много времени тратят на продуктовую аналитику. Несмотря на широкий спектр доступных программных инструментов, таких как Jupyter Notebook с Python, Tidyverse, Superset и даже Java UDFs, продуктовая аналитика все равно нуждается в SQL.

Но как происходит сама работа с SQL, где записываются команды и запросы? Например, сначала — написание запроса во встроенной IDE Superset и внесение правок до момента ответа на поставленный вопрос, затем — внесение результатов в Google Doc вместе с другими документами.

А в итоге — отправка результатов через электронное письмо или сообщение в Slack и полное исчезновение в море корпоративного шума.

Содержание руководства:

- Проблематика командной работы в Data Science.
- Разбор нарушений в обмене наработками.
- Замкнутый цикл благодаря открытым записям.


➡️ Читать дальше


@data_analysis_ml
👍10
📄 Анализ данных для выявления признаков неструктурированном тексте с помощью pandas и json.

При анализе данных есть необходимость выявлять объекты контроля по атрибутам, размещенным в неструктурированном текстовом поле. На первый взгляд, задача может показаться легкой, если анализируемый объем незначительный, но когда объем обрабатываемой базы составляет миллионы строк, то для решения задачи необходим творческий подход.

Передо мной стояла задача по выявлению выгодоприобретателей наших клиентов и определению даты последнего обновления сведений о них. Решать ее буду с использованием библиотек Python pandas и json.

Для начала я по признакам, определяющим выгодоприобретателя, осуществил обработку текстового поля, содержащую необходимую информацию и отобрал пул организаций, подходящих под указанные признаки.

➡️ Читать дальше

@data_analysis_ml
👍13🔥1
🔪 Метод SHAP для категориальных признаков

Категориальные признаки необходимо преобразовывать, прежде чем использовать их в модели. Зачастую это делается с помощью прямого кодирования  —  в итоге получаем бинарную переменную для каждой категории.

Проблемы не возникают до попытки понять модель с помощью метода SHAP. Каждая бинарная переменная будет иметь свое собственное значение SHAP. Это затрудняет понимание общего вклада исходного категориального признака.

Для решения этой проблемы используется простой подход  —  сложение значений SHAP для каждой бинарной переменной. Получаем то, что можно интерпретировать как значение SHAP для исходного категориального признака.

Поговорим о том, как это сделать с помощью кода Python. Вы увидите, что можно использовать агрегированные графические представления SHAP. Однако их возможности ограничены, когда речь идет о понимании природы взаимосвязей категориальных признаков. Поэтому в завершение будет показано, как для визуализации значений SHAP можно использовать диаграммы размаха.

➡️ Читать дальше
🗒 Набор данных

@data_analysis_ml
👍11🔥1
Исследовательский отдел Яндекса поделился с сообществом большой нейросетью для задач обработки естественного языка

RuLeanALBERT — децентрализованно обученная модель, которая как минимум не уступает аналогам на таких бенчмарках, как Russian SuperGLUE и RuCoLA. Запустить открытый код нейросети можно даже на домашнем компьютере с достаточно мощным графическим чипом.

Это крупнейшая подобная нейросеть для русского языка. Например, с её помощью можно реализовывать классификаторы, программы для разного представления текстов и других задач, где не нужна генерация. Исследователи Yandex Research выложили код, а также чекпоинт модели, которые позволяют ей воспользоваться.

➡️ Читать дальше
⚙️ Код и чекпоинт
👍16
🐳 Руководство по Docker для аналитика даннных.

Представьте, как вы устанавливаете программное обеспечение, требующее установку всех его зависимостей. Придется столкнуться со множеством ошибок, вручную выяснить и устранить все их причины. Каждый раз  —  попытки запустить всю систему заново, чтобы наконец-то правильно завершить установку… Именно в этот момент на помощь приходит Docker, пытаясь серьезно облегчить жизнь.

Содержание статьи:

1. Образы и контейнеры.
2. Запуск первой программы в Docker.
3. Основные команды контейнеров Docker.
4. Командная строка Docker-контейнера.
5. Пользовательские образы Docker.
6. Запуск веб-приложения в Docker.
7. Docker и сопоставление портов.
8. Выводы.


➡️ Читать дальше

@data_analysis_ml
👍21
🌠 Лучшие примеры инфографики (51 фото) простые, сложные, крутые

В современном мире все информационные ресурсы борются за привлечение внимания пользователей. Когда сознание перегружено бытовыми проблемами, телевидением, радио, перепиской в социальных сетях, межличностным общением и информационным шумом, человеку сложно сосредоточиться.

Если пользователь видит неструктурированный, без картинок текст, скорее всего, он его проигнорирует, решит, что не стоит тратить время на чтение. Инфографика помогает привлечь внимание людей и передает данные в наглядной и простой форме. В статье мы расскажем о ней подробнее, плюс будут даны примеры инфографики в картинках.

➡️ Читать дальше

@data_analysis_ml
👍14👎2
📈 Визуализация в Python: сравнительный анализ Matplotlib и Plotly

Data Scientist работает с огромным объемом данных, который необходимо проанализировать и обработать. Одним из подходов к анализу данных является их визуализация с использованием графического представления.

Сегодня существует множество библиотек для визуализации данных в Python. Одной из самых популярных является Matplotlib, однако этот инструмент создавался задолго до бурного развития Data Science, и в большей мере ориентирован на отображение массивов NumPy и параметрических функций SciPy. В то же время в Data Science распространен обобщенный тип объектов – датасеты, крупные таблицы с разнородными данными. Для визуализации подобных данных разрабатываются новые библиотеки визуализации, например, Plotly.

Далее предложим вашему вниманию сравнительный анализ библиотек Matplotlib и Plotly.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥2