Нередко я сталкиваюсь с большими объемами данных, которые требуют дополнительной обработки с помощью известной всем библиотеки Pandas. Однако, загружая или сохраняя огромные датасеты, неприятно столкнуться с ошибкой Memory error. В таких ситуациях применение таких методов, как .drop_duplicates() (удаление дубликатов) или .dropna() (удаление пустых строк) слабо влияет на сокращение занимаемого объема памяти.
Существует несколько способов эффективного решения проблем с памятью.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥2🥰1
В реальных наборах данных пропущенные значения создают проблему для дальнейшей обработки. Большую ценность имеет подстановка или заполнение отсутствующих значений. К сожалению, стандартные «ленивые» методы, такие как простое использование медианы столбца или среднего значения, не всегда работают должным образом.
В 2021-ом году ко мне пришла идея создания алгоритма на основе методов машинного обучения с прогнозированием по каждому столбцу с пропусками. Данную идею я воплотил сначала схематично на бумаге.
pip install nona
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥7❤2😐1
Вы готовитесь к собеседованию по SQL для анализ данных? Тогда вы пришли в нужное место!
Это руководство поможет вам усовершенствовать свои навыки работы с SQL, вернуть уверенность в себе и быть готовым к работе!
Здесь вы найдёте подборку реальных вопросов для собеседований, задаваемых в таких компаниях, как Google, Oracle, Amazon, Microsoft и т.д. К каждому вопросу прилагается идеально написанный ответ, что экономит ваше время на подготовку к собеседованию.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22🔥4🥰2🤨2👎1🤣1
🚀 50 бесплатных датасетов для создания неотразимого портфолио (2023)
Если вы хотите улучшить своё портфолио, показав, что умеете хорошо визуализировать данные, или если у вас есть несколько свободных часов и вы хотите приобрести новые навыки машинного обучения, в этой статье есть всё, что вам нужно!
▪ Читать
▪Зеркало
@data_analysis_ml
Если вы хотите улучшить своё портфолио, показав, что умеете хорошо визуализировать данные, или если у вас есть несколько свободных часов и вы хотите приобрести новые навыки машинного обучения, в этой статье есть всё, что вам нужно!
▪ Читать
▪Зеркало
@data_analysis_ml
👍19🔥7❤4
🔥 6 новых библиотек Machine Learning (ML), которые стоит изучить, чтобы улучшить свои навыки в 2023
На дворе только начался 2023 год, а это значит, что пришло время открыть для себя новые тенденции в области Data Science и машинного обучения. Хотя старые материалы по-прежнему актуальны, знаний Pandas, NumPy, Matplotlib и Scikit-learn уже недостаточно.
Данная статья посвящена шести восходящим звёздам экосистемы MLOps; инструментам, ориентированным на создание наиболее эффективных моделей и последующее внедрение их в продакшен. Давайте начнём!
▪ Читать
▪Зеркало
@data_analysis_ml
На дворе только начался 2023 год, а это значит, что пришло время открыть для себя новые тенденции в области Data Science и машинного обучения. Хотя старые материалы по-прежнему актуальны, знаний Pandas, NumPy, Matplotlib и Scikit-learn уже недостаточно.
Данная статья посвящена шести восходящим звёздам экосистемы MLOps; инструментам, ориентированным на создание наиболее эффективных моделей и последующее внедрение их в продакшен. Давайте начнём!
▪ Читать
▪Зеркало
@data_analysis_ml
👍8🔥6❤1
💲 Прогнозирование временных рядов криптовалют с Python
В обанкротившейся криптофирме FTX отсутствует, по меньшей мере, 1 миллиард долларов клиентских средств, а их токен FTX потерял большую часть своей стоимости в ноябре 2022 года. Как бы вы уберегли свой портфель от огромных потерь в случае краха?
Это руководство поможет вам понять метод очистки данных временных рядов и то, как крупные финансовые компании создают популярные индексы, такие как S &P 500 или Nasdaq. Самое главное, как создать индекс вашего портфеля, содержащий различные криптовалюты, чтобы отслеживать ваши показатели и использовать машинное обучение для прогнозирования движения индекса в ближайшем будущем.
Цель этого руководства – помочь новичку, который немного разбирается во временных рядах, но испытывает трудности с обработкой реальных наборов данных. Вы сможете быстро восполнить пробел с помощью этого руководства. Я надеюсь, что каждый сможет найти что-то полезное в нём.
➡️ Читать дальше
@data_analysis_ml
В обанкротившейся криптофирме FTX отсутствует, по меньшей мере, 1 миллиард долларов клиентских средств, а их токен FTX потерял большую часть своей стоимости в ноябре 2022 года. Как бы вы уберегли свой портфель от огромных потерь в случае краха?
Это руководство поможет вам понять метод очистки данных временных рядов и то, как крупные финансовые компании создают популярные индексы, такие как S &P 500 или Nasdaq. Самое главное, как создать индекс вашего портфеля, содержащий различные криптовалюты, чтобы отслеживать ваши показатели и использовать машинное обучение для прогнозирования движения индекса в ближайшем будущем.
Цель этого руководства – помочь новичку, который немного разбирается во временных рядах, но испытывает трудности с обработкой реальных наборов данных. Вы сможете быстро восполнить пробел с помощью этого руководства. Я надеюсь, что каждый сможет найти что-то полезное в нём.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14👎5🔥4😁4❤1🤔1🤣1
🚀 Tableau подборка бесплатных и полезных материалов.
- Основы работы в Tableau по основам работы в программе Tableau Public. В этом курсе вы узнаете, как подключаться к источникам данных, создавать дашборды и отдельные визуализации. Созданные дашборды вы сможете загрузить в интернет, чтобы показать своим друзьям и коллегам.
- Tableau Blueprint 2022
Бесплатная книга.
- Visual Vocabulary
Интерактивное шпаргалка по всем видам графиков.
- Специализация Data Visualization with Tableau от Coursera
Пройдя курс, и вы сможете создавать мощные отчеты и информационные панели, которые помогут людям принимать решения и действовать на основе данных.
- Дата йога 8 ступеней
Бесплатная 8-ми недельная программа углубления навыков работы с Tableau и изучения продвинутых аспектов визуализации данных.
- Between Tableau and Power BI
- Библиотека материалов бесплатня библиотека полезных книг по визуализации данных
- QLIK SENSE МАРАФОН: ВИЗУАЛИЗАЦИЯ ДАННЫХ
- Новые крутые визуализацию каждый день
- Tableau Training от simplilearn
- Бесплатные видео Tableau
- Learning Tableau Third Edition
Сохраняйте себе, чтобы не потерять и делитесь с коллегами.
@data_analysis_ml
- Основы работы в Tableau по основам работы в программе Tableau Public. В этом курсе вы узнаете, как подключаться к источникам данных, создавать дашборды и отдельные визуализации. Созданные дашборды вы сможете загрузить в интернет, чтобы показать своим друзьям и коллегам.
- Tableau Blueprint 2022
Бесплатная книга.
- Visual Vocabulary
Интерактивное шпаргалка по всем видам графиков.
- Специализация Data Visualization with Tableau от Coursera
Пройдя курс, и вы сможете создавать мощные отчеты и информационные панели, которые помогут людям принимать решения и действовать на основе данных.
- Дата йога 8 ступеней
Бесплатная 8-ми недельная программа углубления навыков работы с Tableau и изучения продвинутых аспектов визуализации данных.
- Between Tableau and Power BI
- Библиотека материалов бесплатня библиотека полезных книг по визуализации данных
- QLIK SENSE МАРАФОН: ВИЗУАЛИЗАЦИЯ ДАННЫХ
- Новые крутые визуализацию каждый день
- Tableau Training от simplilearn
- Бесплатные видео Tableau
- Learning Tableau Third Edition
Сохраняйте себе, чтобы не потерять и делитесь с коллегами.
@data_analysis_ml
👍19❤6🔥3🥰1😢1
🐼 Pandas vs Polars: сравнение синтаксиса и скорости 🐻
Pandas - это незаменимая библиотека Python для Data Science. Её самым большим недостатком является то, что она может быть медленной при операциях с большими наборами данных. Polars - это альтернатива Pandas, предназначенная для более быстрой обработки данных.
Polars - это альтернатива Pandas, предназначенная для более быстрой обработки данных.
Эта статья кратко познакомит вас с библиотекой Polars и сравнит её с Pandas в отношении синтаксиса и скорости.
▪ Читать дальше
▪ Зеркало
▪ Код
@data_analysis_ml
Pandas - это незаменимая библиотека Python для Data Science. Её самым большим недостатком является то, что она может быть медленной при операциях с большими наборами данных. Polars - это альтернатива Pandas, предназначенная для более быстрой обработки данных.
Polars - это альтернатива Pandas, предназначенная для более быстрой обработки данных.
Эта статья кратко познакомит вас с библиотекой Polars и сравнит её с Pandas в отношении синтаксиса и скорости.
▪ Читать дальше
▪ Зеркало
▪ Код
@data_analysis_ml
🔥11👍4❤1
🔥Продолжение подборки полезных, бесплатных курсов для вкатывания в Data Science.
▪Основы работы с данными
Курс поможет разобраться с ключевыми аспектами работы с данными, систематизировать знания в этой актуальной и востребованной предметной области в сегодняшнем цифровом мире.
▪Big Data и Data Science: начни погружение с нуля (Русская школа программирования)
Курс состоит из четырех модулей, которые помогут поэтапно освоить основные понятия науки о данных и научиться применять их на практике
▪Principles, Statistical and Computational Tools for Reproducible Data Science (Harvard university)
Курс от Гарварда. Изучите навыки и инструменты, которые используются в науке о данных. Хорошая практика и доступная подача.
▪Анализ данных просто и доступно.
Курс знакомит студентов с основами анализа данных.
Вы познакомитесь с исследованиями и примерами из практики в которых использовался анализ данных. Научитесь решать самостоятельно задачи анализа данных.
▪Бесплатный курс по Python программированию с нуля.
Работает прямо в браузере.
Курс автоматизации и анализа данных на Python.
1 часть
@data_analysis_ml
▪Основы работы с данными
Курс поможет разобраться с ключевыми аспектами работы с данными, систематизировать знания в этой актуальной и востребованной предметной области в сегодняшнем цифровом мире.
▪Big Data и Data Science: начни погружение с нуля (Русская школа программирования)
Курс состоит из четырех модулей, которые помогут поэтапно освоить основные понятия науки о данных и научиться применять их на практике
▪Principles, Statistical and Computational Tools for Reproducible Data Science (Harvard university)
Курс от Гарварда. Изучите навыки и инструменты, которые используются в науке о данных. Хорошая практика и доступная подача.
▪Анализ данных просто и доступно.
Курс знакомит студентов с основами анализа данных.
Вы познакомитесь с исследованиями и примерами из практики в которых использовался анализ данных. Научитесь решать самостоятельно задачи анализа данных.
▪Бесплатный курс по Python программированию с нуля.
Работает прямо в браузере.
Курс автоматизации и анализа данных на Python.
1 часть
@data_analysis_ml
👍18🔥6❤1
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9🔥4👍3
Хочу поделиться методами освоения Data science с нуля человеком из другой ИТ специальности. Цель: дать понять, подходит ли Вам эта специальность в принципе, и рассказать про эффективные подходы к самообучению, которые мне помогли (отдельно планирую потом детальные статьи по отдельным темам).
Отличные материалы уже существуют по большинству конкретных тем, я сам по ним учился.
Думаю, многим будут полезны "мета" материалы о том, как выбирать курсы и статьи, по которым учиться. Например, я пересмотрел десятки статей и книг, пробовал много разных он-лайн курсов, но полезной оказалась лишь малая часть всего доступного.
Надеюсь, что смогу серьезно сэкономить вам время и помочь достигнуть большего, показав более эффективный путь самообучения.
▪Читать дальше
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20🤣8🔥5❤2👎2😁2
🧙♂️ 9 волшебных команд IPython, которые упростят вам процесс программирования
IPython является ядром Jupyter Notebook и лучшим другом специалистов по обработке данных.
Конечно, мы можем просто использовать IPython как обычную утилиту Python, не прибегая к каким-либо специальным трюкам.
Однако будет большим вашим преимуществом, если вы изучите “магические” трюки IPython ,а затем внедрите их в свою практику написания кода.
В этой статье будут описаны 9 простых в использовании “волшебных” команд IPython с интуитивно понятными примерами.
▪ Читать
▪Зеркало
@data_analysis_ml
IPython является ядром Jupyter Notebook и лучшим другом специалистов по обработке данных.
Конечно, мы можем просто использовать IPython как обычную утилиту Python, не прибегая к каким-либо специальным трюкам.
Однако будет большим вашим преимуществом, если вы изучите “магические” трюки IPython ,а затем внедрите их в свою практику написания кода.
В этой статье будут описаны 9 простых в использовании “волшебных” команд IPython с интуитивно понятными примерами.
▪ Читать
▪Зеркало
@data_analysis_ml
👍9🔥4❤2
В этой статье я предоставляю пошаговое руководство по некоторым очень полезным утилитам Python для анализа и управления данными.
В примерах этой статьи используются данные из датафрейма S&P 500, которые я сохранил в файле pickle.
▪Читать дальше
▪ Зеркало
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10👎2🔥2❤1
Отличный репозитрий-книга, который содержит более 300 советов и инструментов с кодом для дата-сайентистов. От самых простых до продвинутых.
В каждой главе вы найдет колаб с кодом, графиками и пояснениями.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13👍3❤2
В этой статье мы рассмотрим пять подходов к решению распространённых задач кодинга Senior-способами, а не Junior.
Каждая задача является производной от головоломки AoC, причём многие из них многократно повторяются на протяжении AoC и других задач кодинга и задач, с которыми вы можете столкнуться, например, на собеседованиях при приёме на работу.
▪Читать
▪Зеркало
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥3❤1
🪐 Повышаем продуктивность работы в Jupyter notebook с помощью Nbextensions
Jupyter notebook — удобная среда для функционального программирования. В работе часто приходится писать код, который подходит под конкретную задачу (анализ данных, обработка информации, парсинг сайтов, process mining и т.д). Такие задачи проще выполнять с функциональным подходом, и среда Jupyter notebook идеально подходит для этого.
Однако использование notebook’ов можно сделать ещё более удобным и продуктивным с помощью Jupyter Notebook Extensions. Это расширения для notebook, которые позволяют добавить множество «фич» для удобства работы. Сегодня я хочу поделиться собственным топом таких расширений.
➡️ Читать
🖥 Github
@data_analysis_ml
Jupyter notebook — удобная среда для функционального программирования. В работе часто приходится писать код, который подходит под конкретную задачу (анализ данных, обработка информации, парсинг сайтов, process mining и т.д). Такие задачи проще выполнять с функциональным подходом, и среда Jupyter notebook идеально подходит для этого.
Однако использование notebook’ов можно сделать ещё более удобным и продуктивным с помощью Jupyter Notebook Extensions. Это расширения для notebook, которые позволяют добавить множество «фич» для удобства работы. Сегодня я хочу поделиться собственным топом таких расширений.
pip install jupyter_contrib_nbextensions
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍8❤1👎1
Решаем задачу - можно ли составить хотя бы приблизительное представление о человеке, обладая информацией о сайтах, которые он посещает. Для этого мы сгенерировали полусинтетические данные, чтобы понять, насколько смелыми можно быть в этих ваших интернетах.
▪Читать
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥2❤1
▪Статья
▪Шпаргалка в Pdf
Полезные команды
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19❤2🔥2😱2
Данная статья обладает необходимой комплексностью повествования, описывающего специфику использования перечисленных инструментов в контексте сдачи экзамена по машинному обучению.
▪Читать
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥3❤1
ChatGPT от OpenAI это… да ладно, вы и сами знаете, что такое ChatGPT. Вы уже достаточно прочитали об этом, и представления больше не нужны.
А если вы всё-таки не знаете, что такое ChatGPT, сначала взгляните на эту статью, а затем вернитесь, чтобы продолжить.
О ChatGPT можно разговаривать очень долго, но давайте посмотрим, насколько данная технология может быть полезной на самом деле.
Сейчас вы узнаете, что может сделать ChatGPT, когда дело доходит до написания кода из спецификаций, которые мы предоставляем. Как обычно, начнём по нарастающей – с простого!
▪Читать дальше
▪Зеркало
▪Как заработать с помощью ChatGPT
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥5❤1
🏠 Строим свое будущее: как выбрать квартиру, опираясь на методы регрессионного анализа?
Для анализа ситуации на рынке недвижимости будем использовать готовый датасет, который состоит из списков уникальных объектов популярных порталов по продаже недвижимости.
Набор данных содержит информацию о месторасположении дома, материале, из которого он построен (кирпичный, панельный, деревянный и т.д.), количестве этажей, площади квартиры и его стоимости.
▪Читать
@data_analysis_ml
Для анализа ситуации на рынке недвижимости будем использовать готовый датасет, который состоит из списков уникальных объектов популярных порталов по продаже недвижимости.
Набор данных содержит информацию о месторасположении дома, материале, из которого он построен (кирпичный, панельный, деревянный и т.д.), количестве этажей, площади квартиры и его стоимости.
▪Читать
@data_analysis_ml
👍8❤1🔥1