Анализ данных (Data analysis)
46.3K subscribers
2.33K photos
275 videos
1 file
2.07K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
🏓 PYTHON CHARTS - энциклопедия визуализации данных.

Проект поможет вам научиться или прокачать навыки визуализации данных с помощью графиков, созданных в matplotlib, seaborn, plotly и других инструментах. Вы также найдете готовые инструкции по созданию конкретных примеров графиков и диаграмм.

✅️ Python charts

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍28🔥52
✔️ readysetdata: набор скриптов для очистки определенных наборов данных.

git clone https://github.com/saulpw/readysetdata.git
cd readysetdata

🖥 GitHub

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥32
✔️ Список 50 бесплатных курсов по Data Science и аналитике данных

Сохраняйте себе и делитесь, чтобы не потерять.

➡️ Список

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍185👎3🔥3
🖥 Pandas и Python: Советы и рекомендации по науке о данных и анализу данных

Здесь мы приведем все приемы и советы Pandas и Python, которые вы можете использовать в дальнейшем в своих проектах.

Содержание разделено на два основных раздела:

- Трюки и советы Pandas относятся только к Pandas.
- Трюки и советы на Python, связанные с Python.
Также предоставляются видео с канала YouTube. Каждое видео охватывает примерно два или три трюка одновременно.


➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥4🥰1
⭐️ Как предсказывать загрязнение воздуха с помощью нейросетей

Кратко о данных. Специальное оборудование производило замеры содержания в воздухе различных газов и взвешенных частиц, температуры воздуха, скорости ветра, атмосферного давления, даты и времени. Измерения производились каждые 20 минут в течении полутора лет. Следовательно, датасет содержит около 34 тыс. строк.

После осмотра файлов выяснилось, что в данных присутствуют сбойные измерения, от этих строк необходимо избавиться.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍102🔥1
📌 12 бесплатных материалов по статистике – разберется каждый

Многие из ошибок, совершаемые аналитиками, да и не только аналитиками, но и продактами, предпринимателями, маркетологами вызваны непониманием концепций статистики, что приводит к запуску неправильного теста или неправильной интерпретации результатов.

Поэтому тут подборка материалов, которые помогут разобраться (бесплатно все, кроме книг – их возможно придется приобрести).

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍65
🖥 GitHub для аналитика данных: репозитории по Data Science, визуализации данных и глубокому обучению

Гитхаб — это не просто площадка для хостинга и совместной разработки IT-проектов, но и огромная база знаний, составленная сотнями экспертов. К счастью, сервис предоставляет не просто инструменты для работы с открытым исходным кодом, но и качественные материалы для обучения. Мы выбрали некоторые популярные репозитории и отсортировали их по количеству звезд в порядке убывания.

Эта подборка поможет разобраться, на какие именно репозитории стоит обратить внимание, если вас интересует работа с данными и сфера глубокого обучения.

➡️ Читать

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍221🔥1😢1
Материалы курса по обучению с подкреплением.

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍124🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
⭐️ По прогнозам Research Guru, к 2028 году рынок мобильной разработки достигнет $25 млрд. С 2022 по 2028 год годовой темп роста составит 39,9%. Представляем подборку каналов по мобильной разработке для быстрого старта в професии.

📱 APP DEV - быстрый вход в мобильную разработку. Практика, советы от профи, полезные инструменты.

🖥 Android разработка - бесплатный авторский канал, который научит созданию приложений.

🖥 React - создание технологичных приложений на React.

🖥 Java/Kotlin - здесь собраны отборные гайды и материалы по java разработке.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍71
📓 Автоматическая обработка текстов на естественном языке и анализ данных

В учебном пособии рассматриваются базовые вопросы компьютерной лингвистики: от теории лингвистического и математического моделирования
до вариантов технологических решений. Дается интерпретация основных
лингвистических объектов и единиц анализа. Приведены сведения, необходимые для создания отдельных подсистем, отвечающих за анализ текстов
на естественном языке. Рассматриваются вопросы анализа тональности и
тематического моделирования текстов, извлечения информации из текстов.

➡️ Книга

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥32
Forwarded from Альфа-Банк
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 НИКАКИХ СОБАЧЕК

На финтех-форуме мы показывали животных. А как строим финтех — расскажем на Alfa Digital Open.

Где? Онлайн, 13 декабря
. Каждый год мы рассказываем про наши новые digital-сервисы, технологии и людей, которые делают Альфу 🧑🏻‍💻👩🏻‍💻

Что обсудим:

— Как перезапустили мобильный банк Альфа-Онлайн за месяц, а не за год.
— Как научили нейросети распознавать мошенников в 3 раза лучше людей.
— Сколько раз мы ошибались, пока делали приложение для сотрудников 📱

Это бесплатно? Да. Мы делимся знаниями бесплатно.

Где записаться? Прямо сейчас на сайте 👈

@alfabank
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
✔️ Репозитории и датасеты практически для всех типов проектов в области Data Science. Более 100 датасетов.

Полный список хранилищ данных для каждого типа проблем

Блог содержит несколько полезных наборов данных и репозиториев, классифицированных по различным классам проблем и отраслей промышленности.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥32
🚀 AWESOME DATA SCIENCE

Репозиторий данных с открытым исходным кодом для изучения, применения и решения реальных проблем в data science.

Это кратчайший путь к началу изучения науки о данных. Опытным специалистам, репозиторий поможет найти необходимые топики, которые удобно систематизированы.

🖥 GitHub

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍121🔥1
10 быстрых трюков Pandas для активизации вашего аналитического проекта

Pandas – это популярная библиотека анализа данных на Python. Это, безусловно, обеспечивает вам гибкость и инструменты, необходимые для обработки данных.

Однако для эффективной работы вы должны знать простые в использовании приемы, позволяющие сэкономить время. Поэтому мы рассмотрим 10 быстрых, но очень полезных трюков в pandas, которые вы можете освоить менее чем за 10 минут.

Даже если вы уже хорошо разбираетесь в методах и функциях pandas, вы все равно найдете некоторые из этих приемов действенными. Если вы абсолютный новичок, то эта статья – подходящее место для начала вашего обучения.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12👍32🥱1🍌1
✔️ Блокнот-шпаргалка для быстрого Data preprocessing

Часто люди, заходящие в область Data Science, имеют не совсем реалистичные представления о том, что их ждет. Многие думают, что сейчас они будут круто писать нейросети, создавать голосового помощника из Железного Человека или обыгрывать всех на финансовых рынках.

Но работа Data Scientist завязана на данных, и один из важнейших и время затратных моментов — это обработка данных перед тем, как их подавать в нейросеть или анализировать определенным способом.

В этой статье наша команда опишет то, как можно легко и быстро обработать данные с пошаговой инструкцией и кодом. Мы старались сделать так, чтобы код был довольно гибким и его можно было применять для разных датасетов.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥31
💡 Data analyst

В репозитории представлены проекты курса Аналитик данных.


Интересные проекты с кодом, с которыми стоит ознакомиться.

Основные инструменты и навыки используемые в работах:
-Языки: Python, SQL
-Анализ данных: библиотеки Pandas, NumPy, SciPy, Statsmodels
-Визуализация: Matplotlib, Plotly, Seaborn
-Построение дашбордов: Tableau
-Метрики юнит-экономики, когортный анализ
-А/В-тестирование
-Работа с гипотезами
-Машинное обучение: библиотеки Scikit-learn, XGBoost

➡️ Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍283🥰1
🔧 Подготовка данных для расширенного машинного обучения

Предварительная обработка и очистка данных должны проводиться до того, как набор данных будет использоваться для обучения модели. Необработанные данные зачастую искажены и ненадежны, и в них могут быть пропущены значения. Использование таких данных при моделировании может приводить к неверным результатам. Эти задачи являются частью процесса обработки и анализа данных группы и обычно подразумевают первоначальное изучение набора данных, используемого для определения и планирования необходимой предварительной обработки. Более подробные инструкции по процессу TDSP см. в процедуре, описанной в статье Процесс обработки и анализа данных группы.

Задачи предварительной обработки и очистки данных, например задача изучения данных, могут быть выполнены в самых разнообразных средах, таких как SQL, Hive или Студия машинного обучения Azure (классическая версия), и с помощью различных средств и языков, таких как R или Python, в зависимости от того, где хранятся данные и как они отформатированы. Поскольку по свой природе процесс TDSP является итеративным, эти задачи могут выполняться на различных этапах рабочего процесса.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥21😱1
🚀 Библиотека eli5 в приложении к задачам регрессии и классификации

Библиотека scikit-learn для многих профессионалов в области машинного обучения является своего рода «lingua franca» (международный язык, на котором говорят и которому учатся по всему миру), без которой не обойтись. Но, в тоже время, она имеет ряд таких недостатков, как отсутствие объяснения выбранных весов в моделях машинного обучения и сделанных этими моделями прогнозов. Компенсировать это обстоятельство пытается библиотека eli5.

eli5 означает «объясни, как будто мне 5». Использование этого термина обычно предполагает объяснение сложной или непонятной темы простыми словами, таким образом, чтобы это мог понять даже пятилетний ребенок. Однако это сокращение редко используется буквально, eli5 означает ответ на вопрос через понятные читателю термины.

➡️ Читать дальше
🖥 Github
📋 Документация

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍82🔥2
✔️ Огромный список шпаргалок Data science на все случаи жизни.

Тщательно подобранный список потрясающих шпаргалок по науке о данных, машинному обучению и статистике чтобы решать любые задачи.

➡️ Шпаргалки

ставьте ❤️ и отправляйте друзьям

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
17👍7🔥4
⭐️ Бесплатный курс Визуализации данных от Kaggle

https://www.kaggle.com/learn/data-visualization


@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍196🥰2