Отличный репозитрий-книга, который содержит более 300 советов и инструментов с кодом для дата-сайентистов. От самых простых до продвинутых.
В каждой главе вы найдет колаб с кодом, графиками и пояснениями.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13👍3❤2
В этой статье мы рассмотрим пять подходов к решению распространённых задач кодинга Senior-способами, а не Junior.
Каждая задача является производной от головоломки AoC, причём многие из них многократно повторяются на протяжении AoC и других задач кодинга и задач, с которыми вы можете столкнуться, например, на собеседованиях при приёме на работу.
▪Читать
▪Зеркало
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥3❤1
🪐 Повышаем продуктивность работы в Jupyter notebook с помощью Nbextensions
Jupyter notebook — удобная среда для функционального программирования. В работе часто приходится писать код, который подходит под конкретную задачу (анализ данных, обработка информации, парсинг сайтов, process mining и т.д). Такие задачи проще выполнять с функциональным подходом, и среда Jupyter notebook идеально подходит для этого.
Однако использование notebook’ов можно сделать ещё более удобным и продуктивным с помощью Jupyter Notebook Extensions. Это расширения для notebook, которые позволяют добавить множество «фич» для удобства работы. Сегодня я хочу поделиться собственным топом таких расширений.
➡️ Читать
🖥 Github
@data_analysis_ml
Jupyter notebook — удобная среда для функционального программирования. В работе часто приходится писать код, который подходит под конкретную задачу (анализ данных, обработка информации, парсинг сайтов, process mining и т.д). Такие задачи проще выполнять с функциональным подходом, и среда Jupyter notebook идеально подходит для этого.
Однако использование notebook’ов можно сделать ещё более удобным и продуктивным с помощью Jupyter Notebook Extensions. Это расширения для notebook, которые позволяют добавить множество «фич» для удобства работы. Сегодня я хочу поделиться собственным топом таких расширений.
pip install jupyter_contrib_nbextensions
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍8❤1👎1
Решаем задачу - можно ли составить хотя бы приблизительное представление о человеке, обладая информацией о сайтах, которые он посещает. Для этого мы сгенерировали полусинтетические данные, чтобы понять, насколько смелыми можно быть в этих ваших интернетах.
▪Читать
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥2❤1
▪Статья
▪Шпаргалка в Pdf
Полезные команды
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19❤2🔥2😱2
Данная статья обладает необходимой комплексностью повествования, описывающего специфику использования перечисленных инструментов в контексте сдачи экзамена по машинному обучению.
▪Читать
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥3❤1
ChatGPT от OpenAI это… да ладно, вы и сами знаете, что такое ChatGPT. Вы уже достаточно прочитали об этом, и представления больше не нужны.
А если вы всё-таки не знаете, что такое ChatGPT, сначала взгляните на эту статью, а затем вернитесь, чтобы продолжить.
О ChatGPT можно разговаривать очень долго, но давайте посмотрим, насколько данная технология может быть полезной на самом деле.
Сейчас вы узнаете, что может сделать ChatGPT, когда дело доходит до написания кода из спецификаций, которые мы предоставляем. Как обычно, начнём по нарастающей – с простого!
▪Читать дальше
▪Зеркало
▪Как заработать с помощью ChatGPT
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥5❤1
🏠 Строим свое будущее: как выбрать квартиру, опираясь на методы регрессионного анализа?
Для анализа ситуации на рынке недвижимости будем использовать готовый датасет, который состоит из списков уникальных объектов популярных порталов по продаже недвижимости.
Набор данных содержит информацию о месторасположении дома, материале, из которого он построен (кирпичный, панельный, деревянный и т.д.), количестве этажей, площади квартиры и его стоимости.
▪Читать
@data_analysis_ml
Для анализа ситуации на рынке недвижимости будем использовать готовый датасет, который состоит из списков уникальных объектов популярных порталов по продаже недвижимости.
Набор данных содержит информацию о месторасположении дома, материале, из которого он построен (кирпичный, панельный, деревянный и т.д.), количестве этажей, площади квартиры и его стоимости.
▪Читать
@data_analysis_ml
👍8❤1🔥1
⚡️ Как работать с Big Data быстрее и эффективнее: Kubernetes для Data Science
Традиционный подход к построению работы с большими данными — развернуть Hadoop-кластер, установить дополнительные инструменты и построить на нем платформу для работы с данными. Но в таком подходе есть несколько ограничений, вроде невозможности разделения Storage- и Compute-слоев, сложностей масштабирования и изоляции сред для разных приложений. Даже несмотря на то, что Hadoop можно арендовать у облачного провайдера как сервис (aaS), такой подход все равно мало чем отличается от развертывания на собственном оборудовании.
Однако есть другой, Cloud-Native подход работы с большими данными. Он позволяет решить эти проблемы, а также получить дополнительные возможности от облачных технологий. Для этого используют Kubernetes, интегрируя его с различными инструментами.
Из статьи вы узнаете, как Kubernetes помогает в работе с Big Data, какие используются инструменты и какие преимущества можно получить по сравнению с классическим развертыванием.
▪Читать
@data_analysis_ml
Традиционный подход к построению работы с большими данными — развернуть Hadoop-кластер, установить дополнительные инструменты и построить на нем платформу для работы с данными. Но в таком подходе есть несколько ограничений, вроде невозможности разделения Storage- и Compute-слоев, сложностей масштабирования и изоляции сред для разных приложений. Даже несмотря на то, что Hadoop можно арендовать у облачного провайдера как сервис (aaS), такой подход все равно мало чем отличается от развертывания на собственном оборудовании.
Однако есть другой, Cloud-Native подход работы с большими данными. Он позволяет решить эти проблемы, а также получить дополнительные возможности от облачных технологий. Для этого используют Kubernetes, интегрируя его с различными инструментами.
Из статьи вы узнаете, как Kubernetes помогает в работе с Big Data, какие используются инструменты и какие преимущества можно получить по сравнению с классическим развертыванием.
▪Читать
@data_analysis_ml
👍9🔥3❤1
На самом деле существует несколько способов разогнать код на Python. Самыми популярными из них являются:
▪использование Cython;
▪использование PyPy;
▪расширение Python с использованием C/C++.
Читать
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥3❤1
🔍 4 Библиотеки Python для Feature Engineering, которые вам стоит использовать в 2023 году
"Feature Engineering" (отбор признаков)- это процесс использования предметной области данных для создания признаков.
Feature Engineering является фундаментом для приложений машинного обучения, a также процессом трудным и затратным. Необходимости ручного конструирования признаков можно избежать при автоматизации прикладного обучения признакам.
В этой статье я покажу вам 4 популярные библиотеки Python для автоматизированного отбора признаков с которыми каждый Data Science-разработчик должен быть знаком.
▪Читать
▪Зеркало
@data_analysis_ml
"Feature Engineering" (отбор признаков)- это процесс использования предметной области данных для создания признаков.
Feature Engineering является фундаментом для приложений машинного обучения, a также процессом трудным и затратным. Необходимости ручного конструирования признаков можно избежать при автоматизации прикладного обучения признакам.
В этой статье я покажу вам 4 популярные библиотеки Python для автоматизированного отбора признаков с которыми каждый Data Science-разработчик должен быть знаком.
▪Читать
▪Зеркало
@data_analysis_ml
👍6❤3👎1🔥1
Рассказывать убедительную историю с помощью данных на Python становится намного проще, когда диаграммы, поддерживающие эту самую историю, ясны, не требуют пояснений и визуально приятны для аудитории.
Во многих случаях содержание и форма одинаково важны.
Отличные данные, плохо представленные, не привлекут того внимания, которого они заслуживают, в то время как плохие данные, представленные визуально приятным способом, легко будут дискредитированы.
▪Читать дальше
▪Зеркало
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13❤2🔥1
🔥 7 расширенных операций со списками Python, которые могут эффективно оптимизировать ваш код
В этой статье мы покажем вам семь расширенных операций со списками, которые сделают ваш код аккуратнее, чище и качественнее.
▪Читать
▪Зеркало
@data_analysis_ml
В этой статье мы покажем вам семь расширенных операций со списками, которые сделают ваш код аккуратнее, чище и качественнее.
▪Читать
▪Зеркало
@data_analysis_ml
👍7🔥2❤1
Хакатон с призом в 650 000 рублей
Big Data МТС готовит турнир по Machine Learning для датасаентистов, ML-инженеров и аналитиков.
Задача – определить пол и возраст владельца синтетических cookie. Участником может стать любой, от джуна до сеньора.
Призовой фонд MTC ML Cup – 650 000 рублей: 350 000 рублей за первое место, 200 000 рублей – за второе, 100 000 рублей – обладателю бронзы.
Начало – 30 января, регистрация открыта до 15 марта: простая анкета для участников и все подробности.
Big Data МТС готовит турнир по Machine Learning для датасаентистов, ML-инженеров и аналитиков.
Задача – определить пол и возраст владельца синтетических cookie. Участником может стать любой, от джуна до сеньора.
Призовой фонд MTC ML Cup – 650 000 рублей: 350 000 рублей за первое место, 200 000 рублей – за второе, 100 000 рублей – обладателю бронзы.
Начало – 30 января, регистрация открыта до 15 марта: простая анкета для участников и все подробности.
🔥5👍1👌1
📂 3 способа сбора данных для DS-проекта.
Любой проект по науке о данных нуждается в данных. Чтобы извлечь их с сайта и создать необходимый набор, используются инструменты веб-скрейпинга.
Однако на одном сайте не всегда находятся все нужные данные либо там могут быть несоответствия, из-за которых можно извлечь только часть данных.
Так случилось со мной, когда я искал данные о футбольных матчах, проведенных на Чемпионатах мира с 1930 по 2022 год. Некоторые данные были извлечены, но не все. С помощью этого руководства мы извлечем остальные данные с нуля с помощью Selenium, чтобы в дальнейшем использовать их в проекте.
▪Читать
@data_analysis_ml
Любой проект по науке о данных нуждается в данных. Чтобы извлечь их с сайта и создать необходимый набор, используются инструменты веб-скрейпинга.
Однако на одном сайте не всегда находятся все нужные данные либо там могут быть несоответствия, из-за которых можно извлечь только часть данных.
Так случилось со мной, когда я искал данные о футбольных матчах, проведенных на Чемпионатах мира с 1930 по 2022 год. Некоторые данные были извлечены, но не все. С помощью этого руководства мы извлечем остальные данные с нуля с помощью Selenium, чтобы в дальнейшем использовать их в проекте.
▪Читать
@data_analysis_ml
👍20❤4🔥3
5️⃣ генераторов синтетических данных на Python и как их использовать, когда вам не хватает данных
В этой статье будут рассмотрены пять библиотек Python для генерации данных и то, как их использовать.
Список Библиотек:
▪ Faker
▪ Scikit learn datasets
▪ Pyod
▪ CTGAN
▪ Mimesis
📌 Читать
📍Зеркало
@data_analysis_ml
В этой статье будут рассмотрены пять библиотек Python для генерации данных и то, как их использовать.
Список Библиотек:
▪ Faker
▪ Scikit learn datasets
▪ Pyod
▪ CTGAN
▪ Mimesis
📌 Читать
📍Зеркало
@data_analysis_ml
👍9❤3🔥3⚡1
🔟 продвинутых SQL вопросов с собеседований, на которые вы должны знать ответ.
Продолжаем серию статей по вопросам с SQL собеседований для аналитика данных.
▪ Читать
▪ Зеркало
@data_analysis_ml
Продолжаем серию статей по вопросам с SQL собеседований для аналитика данных.
▪ Читать
▪ Зеркало
@data_analysis_ml
👍23❤2🔥2👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Любой специалист по инженерии данных может установить несколько расширений и таким способом сделать редактор удобнее для работы с данными.
Рассмотрим некоторые из расширений VS Code, которые помогут дата-инженерам оптимизировать работу и увеличить объем выполненной работы.
CodeGPT - Это расширение: пишет код по текстовому запросу, сравнивает лучшие ответы Stackoverflow с ответом ИИ, находит проблемы в коде, отвечает на любые вопросу по коду, рефакторинг, документация и даже пишет модульные тесты.
Pylance - Приложение предоставляет мощный инстумент - автодополнения кода IntelliSense (дописывает функции при вводе начальных букв ).Расширения с продвинутой функцией
определения типов, предложениями функций, автоимпортами и многим другим.
Jupyter - расширение Jupyter пригодится при выполнении повседневных задач инженерии данных в ноутбуках Jupyter. Расширение позволяет редактировать блоки ноутбуков и запускать их на сервере Jupyter-ноутбуков, аналогично работе с ноутбуками Jupyter.
Excel Viewer - Расширение, которое позволит просматривать и редактировать файлы CSV и Excel прямо в VS Code без необходимости открывать другое приложение и обладает еще рядом удобного функционала.
IntelliCode - Расширение IntelliCode для Visual Studio предоставляет функции разработки с помощью ИИ для разработчиков Python, TypeScript/JavaScript , основанными на понимании контекста вашего кода в сочетании с машинным обучением. В приложении есть примеры с кодом для более чем 100 000 различных API.
▪Подробнее
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥7🥰2🤔1
🔥 Вы готовы начать этот год с мощнейшего Web3-события?
Спешим объявить об онлайн-хакатоне VK NFT x Definition для разработчиков. Участникам первого Web3-хакатона от ВКонтакте нужно будет создать мини-приложения, основанные на технологии NFT. В декабре соцсеть уже запустила сервис VK NFT, в котором можно управлять токенами. Теперь разработчики будут придумывать новые решения c NFT, а авторы лучших продуктов разделят призовой фонд — 1 500 000 рублей 🦾
Участникам надо будет решить одну из трёх задач:
1. Сделать сервис по созданию и авторизации NFT-билетов.
2. Создать механизм управления доступом к контенту через NFT.
3. Разработать любой другой интересный продукт на основе технологии NFT.
Приглашаются frontend, backend/web3-разработчики и UX/UI-дизайнеры
🗓 Дата проведения:
18–19 февраля 2023 года, онлайн.
Регистрация открыта до 16 февраля 2023 года.
👉 Узнать подробности и подать заявку на участие можно на сайте хакатона: https://cnrlink.com/definitionhack23
Спешим объявить об онлайн-хакатоне VK NFT x Definition для разработчиков. Участникам первого Web3-хакатона от ВКонтакте нужно будет создать мини-приложения, основанные на технологии NFT. В декабре соцсеть уже запустила сервис VK NFT, в котором можно управлять токенами. Теперь разработчики будут придумывать новые решения c NFT, а авторы лучших продуктов разделят призовой фонд — 1 500 000 рублей 🦾
Участникам надо будет решить одну из трёх задач:
1. Сделать сервис по созданию и авторизации NFT-билетов.
2. Создать механизм управления доступом к контенту через NFT.
3. Разработать любой другой интересный продукт на основе технологии NFT.
Приглашаются frontend, backend/web3-разработчики и UX/UI-дизайнеры
🗓 Дата проведения:
18–19 февраля 2023 года, онлайн.
Регистрация открыта до 16 февраля 2023 года.
👉 Узнать подробности и подать заявку на участие можно на сайте хакатона: https://cnrlink.com/definitionhack23
👍6
Эта шпаргалка по регулярным выражениям покажет вам наиболее часто используемые регулярные выражения, которые любой python разработчик или системный администратор может использовать в качестве краткого справочника.
▪ Читать
▪Зеркало
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤1🔥1