Большая подборка для продуктовых аналитиков (начинающих и продолжающий), а также менеджеров продукта и предпринимателей.
Обязательно сохраняйте и пересылайте друзьям!
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17❤4🔥3
📌 Шпаргалки по matplotlib и bokeh
Одни из самых популярных библиотек для визуализации данных на Python.
➡️ PDF в хорошем качестве: https://matplotlib.org/cheatsheets/
#cheatsheet #python
@data_analysis_ml
Одни из самых популярных библиотек для визуализации данных на Python.
#cheatsheet #python
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24🔥4❤3
This media is not supported in your browser
VIEW IN TELEGRAM
Прочитав много уроков по визуализации данных Pandas, я до сих пор не могу понять их механику. Создание даже простого сюжета всегда требует от меня изучения документации.
И даже после запуска кода и получения правильного сюжета, это не делает меня уверенным, чтобы попробовать его самостоятельно. Возможно, я ищу связь с Excel. Связь между сюжетом и данными просто кажется интуитивно понятной с помощью графического интерфейса.
Имея это в виду, могу ли я каким-то образом донести это до Pandas?
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19❤1🔥1
В данной задаче мне потребовалось получить информацию как с сайта так и с PDF файлов проектных деклараций, загруженных на этом сайте. Оба шага сопровождались поиском эффективного решения.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17❤2🔥2🏆2
This media is not supported in your browser
VIEW IN TELEGRAM
Можно с легкостью сказать, что нас окружает большое количество людей для которых кофе - это религия. Они пьют кофе, чтобы пообщаться, пьют кофе для того, чтобы проснуться утром, пьют кофе после обеда и ужина, перед сном. Когда вы давно не видели друг друга, вы говорите: "Выпьем по чашечке кофе".
А существуют люди с другим подходом к напитку. Они пьют кофе по пути на работу, пьют кофе, когда работают, пока смотрят фильм. И в итоге у них уходит много времени на один стаканчик кофе. А ведь существуют различные виды кофе!
Если вы зайдете в Starbucks, вы увидите, может быть, сотню возможных вариантов кофе, которые вы можете получить. Это может быть черный, это может быть маккиато, это может быть латте, это может быть фраппучино, это может быть много других вещей, названия которых вы ни разу и не слышали.
Есть несколько очень простых в приготовлении чашек кофе, а есть более сложные, для приготовления которых требуется больше времени. Допустим, вы стоите в очереди за кофе в Starbucks. Если перед вами 3 человека, и все они заказывают черный кофе, вам, вероятно, придется подождать около 3 минут, прежде чем получить свой заказ.
Тем не менее, если они закажут «дополнительный карамельный макиато со взбитыми сливками, посыпкой и корицей с соевым молоком»… ну, это может удвоить время ожидания или, по крайней мере, вам придется подождать пару лишних минут.
Итак, вопрос: «Сколько времени мне нужно ждать, прежде чем я получу свой кофе?»
Конечно, мы понятия не имеем, что собираются заказывать другие люди, так что это вероятностная задача (или стохастический процесс).
Выполнимый подход состоит в том, чтобы построить цепь Маркова. В частности, нам понадобится Time-Dependent Markov Chain.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥4❤2
Есть такая поговорка «Не нужно изобретать велосипед». Библиотеки - лучший тому пример. Это поможет вам простым способом написать сложную и трудоемкую функцию простым способом. В любом хорошем проекте используется одни из лучших доступных библиотек.
Машинное обучение - одна из самых востребованных и популярных тем в современном мире. Python - наиболее часто используемый язык программирования для машинного обучения. Здесь собраны 7 полезных библиотек Python, которые помогут вам в разработке.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14🔥3❤1
Эта статья для тех, кто хочет укрепить свое портфолио как аналитика или просто попрактиковаться в свободное время.
Особенно будет полезно начинающим аналитикам, которые хотят получить опыт в аналитике.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21❤1🔥1
TensorWatch – это библиотека отладки и визуализации ML и DL моделей от Microsoft Research. Основная цель этого инструмента — уменьшение сложностей, связанных с метриками обучения, стоимостью получения информации о состоянии модели и т.д. Он работает в Jupyter Notebook для визуального отображения процесса обучения модели в реальном времени.
TensorWatch улучшает возможности отладки на этапах обучения и дообучения модели, включая несколько функций из библиотек с открытым исходным кодом, таких как визуализация модулируемых графов, исследование данных с помощью уменьшения размерности, статистика модели и несколько explainer’ов для сверточных нейронных сетей.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13❤3🔥1
В этой статье мы рассмотрим 24 наиболее мощных функции Pandas, которые необходимы для любого анализа. Использование этих функций поможет вам понять, что возможно с Pandas, и сэкономить время при следующем анализе данных.
📌 Шпаргалка по pandas
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20👍6❤1
🔥 Бесплатный курс Машинное обучение с подкреплением от МФТИ
Курс посвящен одному из центральных в искусственном интеллекте направлений: обучению агента взаимодействовать со средой, максимизируя свою целевую функцию. Вы кзнаете как классические подходы на основе функции полезности и градиента стратегии, так и современные темы по повышению эффективности исследования среды, взаимодействия с планированием, использованием памяти и иерархических подходов.
Курс состоит из:
- Теоретических и практических материалов для начинающих и продвинутых разработчиков.
- Полезных лекций и статей .
- Лучших лекций Дэвида Сильвера, книги Саттона и Барто из OpenAI, и статей DeepMind за 2019-2022 гг.
Материалы:
- Слайды в формате PDF и видеолекции по каждой теме, мастер-классы Colab и видеолекции на русском языке.
👍 Сохраняйте себе, чтобы не потерять
➡️ Курс
@data_analysis_ml
Курс посвящен одному из центральных в искусственном интеллекте направлений: обучению агента взаимодействовать со средой, максимизируя свою целевую функцию. Вы кзнаете как классические подходы на основе функции полезности и градиента стратегии, так и современные темы по повышению эффективности исследования среды, взаимодействия с планированием, использованием памяти и иерархических подходов.
Курс состоит из:
- Теоретических и практических материалов для начинающих и продвинутых разработчиков.
- Полезных лекций и статей .
- Лучших лекций Дэвида Сильвера, книги Саттона и Барто из OpenAI, и статей DeepMind за 2019-2022 гг.
Материалы:
- Слайды в формате PDF и видеолекции по каждой теме, мастер-классы Colab и видеолекции на русском языке.
👍 Сохраняйте себе, чтобы не потерять
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17❤4🔥2
Еще порядка 10 лет назад для работы по исследованию данных было достаточно SQL, как инструмента для выборки данных и формирования отчетов по ним. Но время не стоит на месте, и примерно в 2012 году стала стремительно набирать популярность Python-библиотека Pandas. И вот сегодня уже сложно представить работу Data Scientist’а без данного модуля.
Не буду подробно углубляться в то, что предоставляют из себя оба инструмента ввиду их популярности среди аналитиков и исследователей данных, но небольшую справку все-таки оставлю:
Итак, SQL (язык структурированных запросов — от англ. Structed Query Language) — это декларативный язык программирования, применяемый для получения и обработки данных с помощью создания запросов внешне похожих по синтаксису на предложения, написанные на английском языке.
Pandas — это модуль для обработки и анализа данных в табличном формате и формате временных рядов на языке Python. Библиотека работает поверх математического модуля более низкого уровня NumPy. Название модуля происходит от эконометрического понятия «панельные данные» (или как его еще называют «лонгитюдные данные» — это данные, которые состоят из повторяющихся наблюдений одних и тех же выбранных единиц, при этом наблюдения производятся в последовательные периоды времени).
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥3❤2
This media is not supported in your browser
VIEW IN TELEGRAM
Каждый, кто работает с данными, рано или поздно сталкивается с необходимостью выбора того либо иного BI-инструмента для составления отчетов, визуализации выборок и других прикладных задач. Power BI, Looker, Redash, Superset и многие другие программные обеспечения призваны решать такие задачи, с присущими им ярко выраженными как преимуществами так и недостатками, обоснованными различиями в функционале и стоимостью эксплуатации.
Так и мне в рамках выполнения практической задачи была поставлена цель: найти простую платформу для визуализации данных, которая не требует сложных технических знаний для специалистов, не обладающих IT компетенциями.
Из всего многообразия аналитических решений в области BI-платформ я выбрал open source решение – Metabase, основываясь на личном опыте применения данного продукта при выполнении различных задач, в ходе реализации которых мне удалось выделить несколько отличительных преимуществ:
- Низкий барьер входа
- Интуитивно понятный и хорошо продуманный пользовательский интерфейс, который не ограничивает мощность функционала;
- Информативность диаграмм и дашбордов;
- Простая система запросов, позволяющая обращаться к базе данных посредством SQL либо через пользовательский интерфейс.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥2🥰2
Как размечать данные для машинного обучения
Искусственный интеллект (ИИ, AI) двигает человечество в будущее, и чтобы иметь конкурентное преимущество, вам нужно быть к нему готовым.
Машинное обучение (МЛ, ML) — подмножество ИИ, позволяющее программным приложениям распознавать паттерны и делать точные прогнозы. Благодаря ML у нас есть беспилотные автомобили, фильтрация спама в электронной почте, распознавание дорожного движения и многое другое.
Для обучения высококачественных моделей ML необходимо предоставить их алгоритму точно размеченные данные.
В этом посте мы расскажем всё, что вам нужно знать о разметке данных, чтобы принимать осознанные решения для своего бизнеса. Пост отвечает на следующие вопросы:
• Что такое разметка данных?
• Как она работает?
• Какие оптимальные практики разметки данных существуют?
• Как компании размечают свои данные?
• Нужна ли мне платформа инструментария для разметки данных?
➡️ Читать дальше
@data_analysis_ml
Искусственный интеллект (ИИ, AI) двигает человечество в будущее, и чтобы иметь конкурентное преимущество, вам нужно быть к нему готовым.
Машинное обучение (МЛ, ML) — подмножество ИИ, позволяющее программным приложениям распознавать паттерны и делать точные прогнозы. Благодаря ML у нас есть беспилотные автомобили, фильтрация спама в электронной почте, распознавание дорожного движения и многое другое.
Для обучения высококачественных моделей ML необходимо предоставить их алгоритму точно размеченные данные.
В этом посте мы расскажем всё, что вам нужно знать о разметке данных, чтобы принимать осознанные решения для своего бизнеса. Пост отвечает на следующие вопросы:
• Что такое разметка данных?
• Как она работает?
• Какие оптимальные практики разметки данных существуют?
• Как компании размечают свои данные?
• Нужна ли мне платформа инструментария для разметки данных?
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍3🔥3
Также как небольшие улучшения повышают качество запросов, так и мелкие некорректные навыки могут снизить качество и понятность кода в долгосрочной перспективе.
Следовательно, пора избавиться от непродуктивных навыков SQL, а взамен сформировать новые и эффективные. Этим мы сейчас и займемся.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16👎3🔥3❤1
Если не знаешь с чего начать изучение Data Science, не знаешь в какую сторону двигаться или как улучшить свои навыки и нет желания отдавать большие деньги за курсы, которые непонятно что дадут — эта подборка для тебя.
Курсы упорядочены по степени необходимости, начиная с базовых знаний, без которых будет тяжело даваться дальнейшее изучение (линейная алгебра, статистика, базовое знание python и т.д.), переходя к более сложным.
Оставил только самые ценные, на мой взгляд, курсы.
Структура курсов:
- Линейная алгебра и дискретная математика.
- Статистика и теория вероятностей.
- Python, SQL, R.
- Машинное обучение.
- Алгоритмы и структуры данных.
- Нейронные сети и Deep learning.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23🔥6❤3
Дисперсионный анализ (ANOVA) - это набор статистических моделей и связанных с ними процедур оценки, используемых для анализа разницы между средними значениями. ANOVA была разработана статистиком Рональдом Фишером в его статье 1918 года, озаглавленной «Корреляция между родственниками в предположении менделевского наследования», а первое применение ANOVA было опубликовано в 1921 году. ANOVA основан на законе общей дисперсии, где наблюдаемая дисперсия по конкретной переменной разбивается на компоненты, относящиеся к различным источникам вариации. ANOVA обеспечивает статистический тест на то, равны ли два или более средних по совокупности, и, следовательно, обобщает t-критерий за пределы двух средних.
Тест гипотезы ANOVA использует нулевую и альтернативную гипотезы:
- В нулевой гипотезе групповые средние значения равны.
- В альтернативной гипотезе по крайней мере одно среднее значение группы отличается от других групп.
В данном примере мы проведем два теста ANOVA как на R, так и на Python. Тест гипотезы, который будет использоваться для ответа на вопросы, - это основанный на дисперсии F-тест, используемый для проверки равенства групповых средних. Сначала приведем код на R, а затем переведем его на Python.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14🔥3❤1
Книга представляет собой подробное пошаговое руководство по восстановлению поврежденных данных на жестких дисках, съемных носителях и твердотельных накопителях. Подробно рассмотрена структура популярных файловых систем: NTFS, ext3/ext4, UDF/UFS/FFS и др. Описаны автоматические методы восстановления данных для операционных систем Windows и Linux. Приведены способы ручного восстановления, используемые в случае, когда автоматическое восстановление невозможно. Даны рекомендации по ремонту жестких дисков.
Во втором издании уделено внимание работе с новыми приложениями для Windows 10 и Linux, c файловой системой ext4, твердотельными накопителями и флеш-памятью, рассмотрено использование облачных технологий. Книга сопровождается большим количеством полезных советов и исчерпывающим справочным материалом. На сайте издательства находятся цветные иллюстрации к книге и дополнительные материалы.
📘 Книга
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥2❤1
Шпаргалки помогут:
- подготовиться к экзамену
- подготовиться к собеседованию
- в повседневной работе – быстро вспомнить нужную информацию
Сохраняйте себе, чтобы не потерять
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22🔥10❤2🏆1
Всем дата-сайентистам хорошо известно: данные никогда не будут такими, какими вы хотите их видеть. Вы можете получить сколько-нибудь упорядоченный спредшит или более-менее точные табличные данные, но в любом случае вам придется проводить очистку, прежде чем перейти к анализу.
Поэтому очень важно научиться переходить от одного формата данных к другому. Иногда это исключительно вопрос читабельности и простоты интерпретации. В других случаях программный пакет или алгоритм, который вы пытаетесь использовать, просто не заработает, пока данные не будут отформатированы определенным образом. Как бы там ни было, этим навыком нужно владеть всем дата-сайентистам.
Предлагаю рассмотреть два распространенных формата данных: длинный и широкий. Обе версии — часто используемые парадигмы в науке о данных, поэтому стоит ознакомиться с ними. Разберем несколько примеров, чтобы понять, как именно выглядит каждый формат данных, а затем посмотрим, как конвертировать один формат в другой с помощью Python (и, в частности, Pandas).
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥3❤1
Качественная визуализация данных не менее важна для анализа данных, чем методы математической обработки. На сегодняшний день существуют десятки (если не сотни) библиотек для визуализации наборов данных на Python, но иногда в них встречаются уникальные возможности и хотелось бы иметь возможность объединить различные инструменты в единой панели. В статье мы рассмотрим основы библиотеки panel для реализации реактивной модели интерактивных визуализаций и попробуем объединить визуализации из разных библиотек в одном dashboard.
pip install panel
🔧 Demo
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16❤2🔥1