Анализ данных (Data analysis)
46.3K subscribers
2.34K photos
277 videos
1 file
2.07K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
🚀 AWESOME DATA SCIENCE

Репозиторий данных с открытым исходным кодом для изучения, применения и решения реальных проблем в data science.

Это кратчайший путь к началу изучения науки о данных. Опытным специалистам, репозиторий поможет найти необходимые топики, которые удобно систематизированы.

🖥 GitHub

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍121🔥1
10 быстрых трюков Pandas для активизации вашего аналитического проекта

Pandas – это популярная библиотека анализа данных на Python. Это, безусловно, обеспечивает вам гибкость и инструменты, необходимые для обработки данных.

Однако для эффективной работы вы должны знать простые в использовании приемы, позволяющие сэкономить время. Поэтому мы рассмотрим 10 быстрых, но очень полезных трюков в pandas, которые вы можете освоить менее чем за 10 минут.

Даже если вы уже хорошо разбираетесь в методах и функциях pandas, вы все равно найдете некоторые из этих приемов действенными. Если вы абсолютный новичок, то эта статья – подходящее место для начала вашего обучения.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12👍32🥱1🍌1
✔️ Блокнот-шпаргалка для быстрого Data preprocessing

Часто люди, заходящие в область Data Science, имеют не совсем реалистичные представления о том, что их ждет. Многие думают, что сейчас они будут круто писать нейросети, создавать голосового помощника из Железного Человека или обыгрывать всех на финансовых рынках.

Но работа Data Scientist завязана на данных, и один из важнейших и время затратных моментов — это обработка данных перед тем, как их подавать в нейросеть или анализировать определенным способом.

В этой статье наша команда опишет то, как можно легко и быстро обработать данные с пошаговой инструкцией и кодом. Мы старались сделать так, чтобы код был довольно гибким и его можно было применять для разных датасетов.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥31
💡 Data analyst

В репозитории представлены проекты курса Аналитик данных.


Интересные проекты с кодом, с которыми стоит ознакомиться.

Основные инструменты и навыки используемые в работах:
-Языки: Python, SQL
-Анализ данных: библиотеки Pandas, NumPy, SciPy, Statsmodels
-Визуализация: Matplotlib, Plotly, Seaborn
-Построение дашбордов: Tableau
-Метрики юнит-экономики, когортный анализ
-А/В-тестирование
-Работа с гипотезами
-Машинное обучение: библиотеки Scikit-learn, XGBoost

➡️ Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍283🥰1
🔧 Подготовка данных для расширенного машинного обучения

Предварительная обработка и очистка данных должны проводиться до того, как набор данных будет использоваться для обучения модели. Необработанные данные зачастую искажены и ненадежны, и в них могут быть пропущены значения. Использование таких данных при моделировании может приводить к неверным результатам. Эти задачи являются частью процесса обработки и анализа данных группы и обычно подразумевают первоначальное изучение набора данных, используемого для определения и планирования необходимой предварительной обработки. Более подробные инструкции по процессу TDSP см. в процедуре, описанной в статье Процесс обработки и анализа данных группы.

Задачи предварительной обработки и очистки данных, например задача изучения данных, могут быть выполнены в самых разнообразных средах, таких как SQL, Hive или Студия машинного обучения Azure (классическая версия), и с помощью различных средств и языков, таких как R или Python, в зависимости от того, где хранятся данные и как они отформатированы. Поскольку по свой природе процесс TDSP является итеративным, эти задачи могут выполняться на различных этапах рабочего процесса.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥21😱1
🚀 Библиотека eli5 в приложении к задачам регрессии и классификации

Библиотека scikit-learn для многих профессионалов в области машинного обучения является своего рода «lingua franca» (международный язык, на котором говорят и которому учатся по всему миру), без которой не обойтись. Но, в тоже время, она имеет ряд таких недостатков, как отсутствие объяснения выбранных весов в моделях машинного обучения и сделанных этими моделями прогнозов. Компенсировать это обстоятельство пытается библиотека eli5.

eli5 означает «объясни, как будто мне 5». Использование этого термина обычно предполагает объяснение сложной или непонятной темы простыми словами, таким образом, чтобы это мог понять даже пятилетний ребенок. Однако это сокращение редко используется буквально, eli5 означает ответ на вопрос через понятные читателю термины.

➡️ Читать дальше
🖥 Github
📋 Документация

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍82🔥2
✔️ Огромный список шпаргалок Data science на все случаи жизни.

Тщательно подобранный список потрясающих шпаргалок по науке о данных, машинному обучению и статистике чтобы решать любые задачи.

➡️ Шпаргалки

ставьте ❤️ и отправляйте друзьям

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
17👍7🔥4
⭐️ Бесплатный курс Визуализации данных от Kaggle

https://www.kaggle.com/learn/data-visualization


@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍196🥰2
📊 Курс про основы Julia для применения в Data Science проектах

Язык Julia создан математиками для математиков, он действительно прост, красив и элегантен, но при этом очень быстр. За последние годы, язык созданный в 2009 году сильно окреп, оброс серьезной экосистемой и стал действительно привлекать внимание специалистов в области анализ данных. Именно поэтому мы решились сделать курс про основы Julia для применения в Data Science проектах.

🖥 Github
✔️ Плейлист на YouTube
➡️ Инструкция

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍182🔥2
🖥 ChatGPT: Конец программированию (как мы его знаем). Искусственный интеллект, который пишет код.

Когда я впервые воспользовался ChatGPT, это взорвало мой мозг.

Я не мог поверить, что этот чат-бот на базе искусственного интеллекта может писать код на многих языках, отлаживать код, переводить код с одного языка программирования на другой, писать скрипты с нуля и т.д.

Хотя я сомневаюсь, что ChatGPT когда-либо сможет заменить программиста, я думаю, что этот , когда программируем, а также началом новых возможностей в ит-области.

Вот как ChatGPT изменит область программирования.

➡️ Читать
🖥 ChatGPT объясняет ошибки в коде


@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14🔥7🌭21
🎲 Бесплатный курс по основам статистики

Курс знакомит слушателей с основными понятиями и методами математической статистики. В течение трех недель мы рассмотрим наиболее широко используемые статистические методы и принципы, стоящие за ними. Полученных знаний будет достаточно для решения широкого круга задач, возникающих в рамках исследовательской работы.

➡️ Курс

ставьте ❤️, если подобный контент вам полезен

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
53👍15🔥3
🌐 Бесплатный курс Анализ данных

Продолжаем публиковать полезные бесплатные курсы.

Цель курса - приобретение слушателями необходимых знаний методов статистического анализа данных и практических навыков их применения.

В процессе изучения курса слушатели получат базовые теоретические знания статистической методологии анализа статистических данных в части оценки колеблемости, динамики и структуры, а также построения прогнозных оценок.

В курсе рассматриваются прикладные аспекты анализа на основе абсолютных, относительных и средних величин, показателей вариации, взаимосвязи и структурных сдвигов. Рассмотрены вопросы анализа динамики социально-экономические явлений и построения прогнозных оценок на основе простейших методов прогнозирования.

Курс будет полезен тем, кто хочет понять статистику, познать суть методов статистического анализа данных и возможности из прикладного применения для решения конкретных практических задач.

➡️ Курс

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥43😐1
This media is not supported in your browser
VIEW IN TELEGRAM
🙂 Ускоряем анализ данных. В 4 раза быстрее операции Pandas с минимальным изменением кода

Одним из основных ограничений Pandas является то, что он может быть медленным при работе с большими наборами данных, особенно при выполнении сложных операций. Это может расстроить специалистов по обработке данных и аналитиков, которым в своей работе необходимо обрабатывать и анализировать большие наборы данных.

Есть несколько способов решить эту проблему. Одним из способов является использование параллельной обработки.

➡️ Читать дальше
🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍114🔥2🤣1
🖥 Использование SQL для анализа данных

SQL или язык структурированных запросов — это язык программирования, используемый для связи с базами данных. Это позволяет пользователям извлекать, манипулировать и управлять данными, хранящимися в системах управления реляционными базами данных (RDBMS). SQL — это мощный инструмент для анализа данных, поскольку он позволяет пользователям быстро и легко получать доступ к большим объемам данных, хранящихся в базе данных, и манипулировать ими. В этой статье мы рассмотрим основы использования SQL для анализа данных.

SQL или язык структурированных запросов — это язык программирования, используемый для управления данными, хранящимися в реляционных базах данных, и манипулирования ими. Это мощный инструмент для анализа данных, поскольку он позволяет пользователям легко извлекать и обрабатывать большие объемы данных организованным и эффективным образом.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍102👎2🔥1
⭐️ Data Science: Machine Learning (Harvard university)

Отличный бесплатный курс от Harvard. Создайте систему рекомендаций фильмов и изучите научные основы одного из самых популярных и эффективных методов обработки данных.

По мере создания системы рекомендаций фильмов вы узнаете, как обучать алгоритмы с использованием обучающих данных, чтобы алгоритм мог предсказывать результат для будущих наборов данных. Вы также узнаете о переобучении и способах его избежать.


➡️ Курс

ставьте ❤️, если подобный контент вам полезен

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
56❤‍🔥4👍3🔥2
⭐️ Data Science: Wrangling

Еще один бесплатный курс от Harvard. С этим курсом вы научитесь датамайнингу, обработке и преобразованию данных в форматы, необходимые для анализа.

➡️ Курс

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍105🔥1
🖥 Настройка интерпретатора Python внутри CHATGPT. Ai Пишет код на Python.

Вам больше не нужен интерпритатор.

Этот рассказ вдохновлён другой историей, “Настройка Виртуальной Машины внутри ChatGPT”. Я был впечатлен и решил попробовать нечто подобное – в этот раз вместо командной строки Linux давайте попросим ChatPGT стать нашим интерпретатором Python.Можно воспринимать эту статью как инструкцию по работе с CHATGpt.

Вот исходная команда для инициализации ChatPGT:

Я хочу, чтобы ты выступил в роли интерпретатора Python. Я буду вводить команды, а ты будешь отвечать, что должен показать вывод Python. Я хочу, чтобы ты отвечал только с выводом на терминал внутри одного уникального блока кода, и ничего больше. Не пиши объяснений, выводи только то, что выводит Python. Не вводи команды пока я не дам соответствующих инструкций. Когда мне нужно сказать тебе что-то по-английски, я буду делать это, помещая текст внутри фигурных скобок, как это сделано здесь: {пример текста}. Моя первая команда – a=1.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63🔥1
💨 Выбираем оптимальный вариант хранения даннных с Parquet.

Порой случается так, что различные данные невозможно загрузить, обработать и сохранить для передачи или дальнейшей обработки из-за их большого объема. Тем не менее эту проблему можно решить путем грамотного выбора формата их хранения.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥41
Создаем программу искусственного интеллекта, которая воспринимает человеческую речь с Python и OpenAI

Создать программу искусственного интеллекта, которая воспринимает человеческую речь и отвечает на вопросы, не так сложно, как кажется. Такое чудо можно сотворить за один день с помощью нескольких пакетов Python и API.

Читать дальше
🖥 Код

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥41👎1
🖥 20 основных команд Linux для Data Scientist специалистов.

Базовые команды Linux для улучшения рабочего процесса обработки данных. Это даст вам возможность автоматизировать задачи, создавать конвейеры, получать доступ к файловым системам и эффективно использовать команды для работы с данными.

Читать

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍122👎2🔥1