Анализ данных (Data analysis)
46.3K subscribers
2.34K photos
275 videos
1 file
2.07K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
👣 Fine-Tune модели основанной на трансформерах (Rubert) для классификации текстов

Задача классификации текста уже давно является устоявшейся во многих компаниях. Она используется для определения настроения клиентов, разделения документов на заранее известные темы, детекции фейковых новостей и т.д. Сегодня я представлю state of the art подход для решения задачи бинарной классификации, а именно детекция сообщений, в которой присутствует жалоба на сотрудника.

А также сравню по точности два подхода: Fine-Tune Bert и получение предобученных эмбеддингов и их классификация с использованием полносвязной нейронной сети.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍141🔥1
⭐️ 9 продуктов для создания дашбордов

Семь Open Source и два low-code-продукта для визуализации BI-аналитики.

Для решение клиентских задач мы постоянно ищем способы сделать лучше. И очень часто сделать лучше значит сменить продукт. Поэтому мы постоянно анализируем рынок различных nocode-решений. Мы решили поделиться накопленными знаниями о такой важной задаче как построение аналитических дашбордов.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍231🔥1
🖥 Mito: быстрый анализ данных на Python

Представьте, что вам нужно изучить данные и преобразовать их, но времени не хватает. Вы владеете методами Pandas, которые нужно использовать для построения столбца, его сортировки, изменения имени и создания визуализации, но написание кода для получения всего этого займет больше времени, чем вы можете себе позволить.

Что же делать? Можно быстро написать код и довести дело до конца (что может привести к глупым ошибкам) или же использовать библиотеку Mito, чтобы исследовать и преобразовать данные за несколько минут. Mito — это библиотека Python, которая позволяет проводить анализ данных так же быстро, как если бы вы работали с электронными таблицами в Microsoft Excel.

Чтобы разобраться в том, как она работает, для начала скачайте набор данных и установите библиотеку. В этом руководстве будет использоваться набор данных игроков FIFA 22. Его можно загрузить здесь. Мы будем исследовать этот набор данных с помощью библиотеки Mito. Чтобы ее установить, скачайте либо Jupyter Notebook, либо Jupyter Lab. Затем выполните приведенную ниже команду в терминале или командной строке.

▶️ Читать дальше
▶️ Датасет
▶️ Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31🔥51
Как увеличить скорость Pandas и обрабатывать 10 млн необработанных наборов данных за миллисекунды

За последние годы использование Pandas выросло в бесчисленное количество раз. Покажу вам, как использовать Pandas максимально быстрым способом. Потому что вы не можете ускорить то, что и так быстро работает.

Было бы странным использовать функции, которые в документации Pandas четко указаны как медленные, а не как самые быстрые методы.

В этой статье покажем вам лучшие практики некоторых наиболее распространенных операций с данными в Pandas. Вы даже можете рассматривать эти рекомендации как «здравый смысл», потому что именно так создатель Pandas намеревался использовать свою библиотеку.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥31👎1
🖥 Карта развития дата-сайентиста: с чего начать, к чему идти и сколько времени потребуется

Каждый, кто заинтересовался наукой о данных, задаётся вопросом: а сколько времени понадобится, чтобы её изучить? Мы составили примерный график профессионального развития дата-сайентиста по трём уровням — базовый, средний и продвинутый. Чтобы было проще сравнивать с требованиями вакансий, привели их к принятым в IT терминам: стажёр (intern), джун (junior, младший), мидл (middle, средний) и сеньор (senior, старший).

Уровни для дата-сайентиста рассмотрим на примере языка Python. Но вообще в Data Science используют и другие языки и платформы — R, Julia, SAS, MATLAB.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21👎162🔥2🌚1
📈 23 сайта с дата сетами: для усиления портфолио аналитика

Эта статья для тех, кто хочет укрепить свое портфолио как аналитика или просто попрактиковаться в свободное время.

Особенно будет полезно начинающим аналитикам, которые хотят получить опыт в аналитике.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍267🔥6
🌃 Big Data - действительно полезный блог для всех, кто работает с данными.

- огромный набор бесплатных датасетов
- инструменты для работы с данными
- обучающие материалы для датасаентистов
- перевод книг и статей

🔥 Смотреть
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍31
🔥 Более 100 бесплатных курсов и ресурсов по аналитике

Большая подборка для аналитиков данных, продуктовых аналитиков, веб аналитиков, маркетинговых аналитиков и особенно тех, кто хочет ими стать!

Все материалы бесплатны!

Подборка составлена по областям знаний, которые нужны аналитику, чтобы быть востребованным на рынке.

Обязательно сохраняйте и пересылайте друзьям!

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20🔥82❤‍🔥2🤨1
✔️ 5 бесплатных курсов по визуализации и дашбордам


➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍102🔥2
🚀 Parser2GIS - парсер сайта 2GIS с помощью браузера Google Chrome.

Полезный инструмент для сбора данных.

Установка из PyPI
# CLI
pip install parser-2gis
# CLI + GUI
pip install parser-2gis[gui]

Парсер для автоматического сбора базы адресов и контактов предприятий, которые работают на территории России , Казахстана , Украины , Беларуси , Азербайджана , Киргизии , Узбекистана , Чехии , Египта , Италии , Саудовской Аравии , Кипра , Объединенных Арабских Эмиратов , Чили , Катара , Омана , Бахрейна , Кувейта .

🖥 Github
📝 Документация

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍253🔥2
✔️ 49 бесплатных курсов по аналитике

Большая подборка для продуктовых аналитиков (начинающих и продолжающий), а также менеджеров продукта и предпринимателей.

Обязательно сохраняйте и пересылайте друзьям!

Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍174🔥3
📌 Шпаргалки по matplotlib и bokeh

Одни из самых популярных библиотек для визуализации данных на Python.

➡️PDF в хорошем качестве: https://matplotlib.org/cheatsheets/

#cheatsheet #python

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24🔥43
This media is not supported in your browser
VIEW IN TELEGRAM
Понятие о визуализации данных в Pandas, если вы пришли из Excel

Прочитав много уроков по визуализации данных Pandas, я до сих пор не могу понять их механику. Создание даже простого сюжета всегда требует от меня изучения документации.

И даже после запуска кода и получения правильного сюжета, это не делает меня уверенным, чтобы попробовать его самостоятельно. Возможно, я ищу связь с Excel. Связь между сюжетом и данными просто кажется интуитивно понятной с помощью графического интерфейса.

Имея это в виду, могу ли я каким-то образом донести это до Pandas?

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍191🔥1
⭐️ Подходы к получению данных с сайтов на примере.

В данной задаче мне потребовалось получить информацию как с сайта так и с PDF файлов проектных деклараций, загруженных на этом сайте. Оба шага сопровождались поиском эффективного решения.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍172🔥2🏆2
This media is not supported in your browser
VIEW IN TELEGRAM
📊 Моделирование времени ожидания Starbucks с использованием цепей Маркова

Можно с легкостью сказать, что нас окружает большое количество людей для которых кофе - это религия. Они пьют кофе, чтобы пообщаться, пьют кофе для того, чтобы проснуться утром, пьют кофе после обеда и ужина, перед сном. Когда вы давно не видели друг друга, вы говорите: "Выпьем по чашечке кофе".

А существуют люди с другим подходом к напитку. Они пьют кофе по пути на работу, пьют кофе, когда работают, пока смотрят фильм. И в итоге у них уходит много времени на один стаканчик кофе. А ведь существуют различные виды кофе!

Если вы зайдете в Starbucks, вы увидите, может быть, сотню возможных вариантов кофе, которые вы можете получить. Это может быть черный, это может быть маккиато, это может быть латте, это может быть фраппучино, это может быть много других вещей, названия которых вы ни разу и не слышали.

Есть несколько очень простых в приготовлении чашек кофе, а есть более сложные, для приготовления которых требуется больше времени. Допустим, вы стоите в очереди за кофе в Starbucks. Если перед вами 3 человека, и все они заказывают черный кофе, вам, вероятно, придется подождать около 3 минут, прежде чем получить свой заказ.

Тем не менее, если они закажут «дополнительный карамельный макиато со взбитыми сливками, посыпкой и корицей с соевым молоком»… ну, это может удвоить время ожидания или, по крайней мере, вам придется подождать пару лишних минут.

Итак, вопрос: «Сколько времени мне нужно ждать, прежде чем я получу свой кофе?»

Конечно, мы понятия не имеем, что собираются заказывать другие люди, так что это вероятностная задача (или стохастический процесс).

Выполнимый подход состоит в том, чтобы построить цепь Маркова. В частности, нам понадобится Time-Dependent Markov Chain.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥42
💨 7 полезных библиотек машинного обучения Python

Есть такая поговорка «Не нужно изобретать велосипед». Библиотеки - лучший тому пример. Это поможет вам простым способом написать сложную и трудоемкую функцию простым способом. В любом хорошем проекте используется одни из лучших доступных библиотек.

Машинное обучение - одна из самых востребованных и популярных тем в современном мире. Python - наиболее часто используемый язык программирования для машинного обучения. Здесь собраны 7 полезных библиотек Python, которые помогут вам в разработке.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14🔥31
⭐️ 23 сайта с дата сетами: для усиления портфолио аналитика

Эта статья для тех, кто хочет укрепить свое портфолио как аналитика или просто попрактиковаться в свободное время.

Особенно будет полезно начинающим аналитикам, которые хотят получить опыт в аналитике.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍211🔥1
🛠 Наблюдаем за процессом обучения модели в реальном времени с TensorWatch!

TensorWatch – это библиотека отладки и визуализации ML и DL моделей от Microsoft Research. Основная цель этого инструмента — уменьшение сложностей, связанных с метриками обучения, стоимостью получения информации о состоянии модели и т.д. Он работает в Jupyter Notebook для визуального отображения процесса обучения модели в реальном времени.

TensorWatch улучшает возможности отладки на этапах обучения и дообучения модели, включая несколько функций из библиотек с открытым исходным кодом, таких как визуализация модулируемых графов, исследование данных с помощью уменьшения размерности, статистика модели и несколько explainer’ов для сверточных нейронных сетей.

➡️ Читать дальше
🖥 TensorWatch
▶️ Ноутбуки с примерами

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍133🔥1
✔️ 24 Важные функции Pandas, которые необходимо знать для каждого анализа данных

В этой статье мы рассмотрим 24 наиболее мощных функции Pandas, которые необходимы для любого анализа. Использование этих функций поможет вам понять, что возможно с Pandas, и сэкономить время при следующем анализе данных.

➡️ Читать дальше
📌 Шпаргалка по pandas

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20👍61
🔥 Бесплатный курс Машинное обучение с подкреплением от МФТИ

Курс посвящен одному из центральных в искусственном интеллекте направлений: обучению агента взаимодействовать со средой, максимизируя свою целевую функцию. Вы кзнаете как классические подходы на основе функции полезности и градиента стратегии, так и современные темы по повышению эффективности исследования среды, взаимодействия с планированием, использованием памяти и иерархических подходов.

Курс состоит из:
- Теоретических и практических материалов для начинающих и продвинутых разработчиков.
- Полезных лекций и статей .
- Лучших лекций Дэвида Сильвера, книги Саттона и Барто из OpenAI, и статей DeepMind за 2019-2022 гг.

Материалы:
- Слайды в формате PDF и видеолекции по каждой теме, мастер-классы Colab и видеолекции на русском языке.

👍 Сохраняйте себе, чтобы не потерять

➡️ Курс

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍174🔥2