🔍 4 Библиотеки Python для Feature Engineering, которые вам стоит использовать в 2023 году
"Feature Engineering" (отбор признаков)- это процесс использования предметной области данных для создания признаков.
Feature Engineering является фундаментом для приложений машинного обучения, a также процессом трудным и затратным. Необходимости ручного конструирования признаков можно избежать при автоматизации прикладного обучения признакам.
В этой статье я покажу вам 4 популярные библиотеки Python для автоматизированного отбора признаков с которыми каждый Data Science-разработчик должен быть знаком.
▪Читать
▪Зеркало
@data_analysis_ml
"Feature Engineering" (отбор признаков)- это процесс использования предметной области данных для создания признаков.
Feature Engineering является фундаментом для приложений машинного обучения, a также процессом трудным и затратным. Необходимости ручного конструирования признаков можно избежать при автоматизации прикладного обучения признакам.
В этой статье я покажу вам 4 популярные библиотеки Python для автоматизированного отбора признаков с которыми каждый Data Science-разработчик должен быть знаком.
▪Читать
▪Зеркало
@data_analysis_ml
👍6❤3👎1🔥1
Рассказывать убедительную историю с помощью данных на Python становится намного проще, когда диаграммы, поддерживающие эту самую историю, ясны, не требуют пояснений и визуально приятны для аудитории.
Во многих случаях содержание и форма одинаково важны.
Отличные данные, плохо представленные, не привлекут того внимания, которого они заслуживают, в то время как плохие данные, представленные визуально приятным способом, легко будут дискредитированы.
▪Читать дальше
▪Зеркало
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13❤2🔥1
🔥 7 расширенных операций со списками Python, которые могут эффективно оптимизировать ваш код
В этой статье мы покажем вам семь расширенных операций со списками, которые сделают ваш код аккуратнее, чище и качественнее.
▪Читать
▪Зеркало
@data_analysis_ml
В этой статье мы покажем вам семь расширенных операций со списками, которые сделают ваш код аккуратнее, чище и качественнее.
▪Читать
▪Зеркало
@data_analysis_ml
👍7🔥2❤1
Хакатон с призом в 650 000 рублей
Big Data МТС готовит турнир по Machine Learning для датасаентистов, ML-инженеров и аналитиков.
Задача – определить пол и возраст владельца синтетических cookie. Участником может стать любой, от джуна до сеньора.
Призовой фонд MTC ML Cup – 650 000 рублей: 350 000 рублей за первое место, 200 000 рублей – за второе, 100 000 рублей – обладателю бронзы.
Начало – 30 января, регистрация открыта до 15 марта: простая анкета для участников и все подробности.
Big Data МТС готовит турнир по Machine Learning для датасаентистов, ML-инженеров и аналитиков.
Задача – определить пол и возраст владельца синтетических cookie. Участником может стать любой, от джуна до сеньора.
Призовой фонд MTC ML Cup – 650 000 рублей: 350 000 рублей за первое место, 200 000 рублей – за второе, 100 000 рублей – обладателю бронзы.
Начало – 30 января, регистрация открыта до 15 марта: простая анкета для участников и все подробности.
🔥5👍1👌1
📂 3 способа сбора данных для DS-проекта.
Любой проект по науке о данных нуждается в данных. Чтобы извлечь их с сайта и создать необходимый набор, используются инструменты веб-скрейпинга.
Однако на одном сайте не всегда находятся все нужные данные либо там могут быть несоответствия, из-за которых можно извлечь только часть данных.
Так случилось со мной, когда я искал данные о футбольных матчах, проведенных на Чемпионатах мира с 1930 по 2022 год. Некоторые данные были извлечены, но не все. С помощью этого руководства мы извлечем остальные данные с нуля с помощью Selenium, чтобы в дальнейшем использовать их в проекте.
▪Читать
@data_analysis_ml
Любой проект по науке о данных нуждается в данных. Чтобы извлечь их с сайта и создать необходимый набор, используются инструменты веб-скрейпинга.
Однако на одном сайте не всегда находятся все нужные данные либо там могут быть несоответствия, из-за которых можно извлечь только часть данных.
Так случилось со мной, когда я искал данные о футбольных матчах, проведенных на Чемпионатах мира с 1930 по 2022 год. Некоторые данные были извлечены, но не все. С помощью этого руководства мы извлечем остальные данные с нуля с помощью Selenium, чтобы в дальнейшем использовать их в проекте.
▪Читать
@data_analysis_ml
👍20❤4🔥3
5️⃣ генераторов синтетических данных на Python и как их использовать, когда вам не хватает данных
В этой статье будут рассмотрены пять библиотек Python для генерации данных и то, как их использовать.
Список Библиотек:
▪ Faker
▪ Scikit learn datasets
▪ Pyod
▪ CTGAN
▪ Mimesis
📌 Читать
📍Зеркало
@data_analysis_ml
В этой статье будут рассмотрены пять библиотек Python для генерации данных и то, как их использовать.
Список Библиотек:
▪ Faker
▪ Scikit learn datasets
▪ Pyod
▪ CTGAN
▪ Mimesis
📌 Читать
📍Зеркало
@data_analysis_ml
👍9❤3🔥3⚡1
🔟 продвинутых SQL вопросов с собеседований, на которые вы должны знать ответ.
Продолжаем серию статей по вопросам с SQL собеседований для аналитика данных.
▪ Читать
▪ Зеркало
@data_analysis_ml
Продолжаем серию статей по вопросам с SQL собеседований для аналитика данных.
▪ Читать
▪ Зеркало
@data_analysis_ml
👍23❤2🔥2👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Любой специалист по инженерии данных может установить несколько расширений и таким способом сделать редактор удобнее для работы с данными.
Рассмотрим некоторые из расширений VS Code, которые помогут дата-инженерам оптимизировать работу и увеличить объем выполненной работы.
CodeGPT - Это расширение: пишет код по текстовому запросу, сравнивает лучшие ответы Stackoverflow с ответом ИИ, находит проблемы в коде, отвечает на любые вопросу по коду, рефакторинг, документация и даже пишет модульные тесты.
Pylance - Приложение предоставляет мощный инстумент - автодополнения кода IntelliSense (дописывает функции при вводе начальных букв ).Расширения с продвинутой функцией
определения типов, предложениями функций, автоимпортами и многим другим.
Jupyter - расширение Jupyter пригодится при выполнении повседневных задач инженерии данных в ноутбуках Jupyter. Расширение позволяет редактировать блоки ноутбуков и запускать их на сервере Jupyter-ноутбуков, аналогично работе с ноутбуками Jupyter.
Excel Viewer - Расширение, которое позволит просматривать и редактировать файлы CSV и Excel прямо в VS Code без необходимости открывать другое приложение и обладает еще рядом удобного функционала.
IntelliCode - Расширение IntelliCode для Visual Studio предоставляет функции разработки с помощью ИИ для разработчиков Python, TypeScript/JavaScript , основанными на понимании контекста вашего кода в сочетании с машинным обучением. В приложении есть примеры с кодом для более чем 100 000 различных API.
▪Подробнее
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥7🥰2🤔1
🔥 Вы готовы начать этот год с мощнейшего Web3-события?
Спешим объявить об онлайн-хакатоне VK NFT x Definition для разработчиков. Участникам первого Web3-хакатона от ВКонтакте нужно будет создать мини-приложения, основанные на технологии NFT. В декабре соцсеть уже запустила сервис VK NFT, в котором можно управлять токенами. Теперь разработчики будут придумывать новые решения c NFT, а авторы лучших продуктов разделят призовой фонд — 1 500 000 рублей 🦾
Участникам надо будет решить одну из трёх задач:
1. Сделать сервис по созданию и авторизации NFT-билетов.
2. Создать механизм управления доступом к контенту через NFT.
3. Разработать любой другой интересный продукт на основе технологии NFT.
Приглашаются frontend, backend/web3-разработчики и UX/UI-дизайнеры
🗓 Дата проведения:
18–19 февраля 2023 года, онлайн.
Регистрация открыта до 16 февраля 2023 года.
👉 Узнать подробности и подать заявку на участие можно на сайте хакатона: https://cnrlink.com/definitionhack23
Спешим объявить об онлайн-хакатоне VK NFT x Definition для разработчиков. Участникам первого Web3-хакатона от ВКонтакте нужно будет создать мини-приложения, основанные на технологии NFT. В декабре соцсеть уже запустила сервис VK NFT, в котором можно управлять токенами. Теперь разработчики будут придумывать новые решения c NFT, а авторы лучших продуктов разделят призовой фонд — 1 500 000 рублей 🦾
Участникам надо будет решить одну из трёх задач:
1. Сделать сервис по созданию и авторизации NFT-билетов.
2. Создать механизм управления доступом к контенту через NFT.
3. Разработать любой другой интересный продукт на основе технологии NFT.
Приглашаются frontend, backend/web3-разработчики и UX/UI-дизайнеры
🗓 Дата проведения:
18–19 февраля 2023 года, онлайн.
Регистрация открыта до 16 февраля 2023 года.
👉 Узнать подробности и подать заявку на участие можно на сайте хакатона: https://cnrlink.com/definitionhack23
👍6
Эта шпаргалка по регулярным выражениям покажет вам наиболее часто используемые регулярные выражения, которые любой python разработчик или системный администратор может использовать в качестве краткого справочника.
▪ Читать
▪Зеркало
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤1🔥1
Анализ данных (Data analysis)
🚀 50 бесплатных датасетов для создания неотразимого портфолио (2023) Если вы хотите улучшить своё портфолио, показав, что умеете хорошо визуализировать данные, или если у вас есть несколько свободных часов и вы хотите приобрести новые навыки машинного обучения…
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥4❤3
🔬 Введение в Оптимизацию с ограничениями на SciPy.
В этом посте мы делимся примером оптимизации с использованием SciPy, популярной библиотеки Python для научных вычислений.
▪Читать
▪Зеркало
▪Scipy
@data_analysis_ml
В этом посте мы делимся примером оптимизации с использованием SciPy, популярной библиотеки Python для научных вычислений.
▪Читать
▪Зеркало
▪Scipy
@data_analysis_ml
🔥6👍3❤2
Теория вероятностей в машинном обучении. Часть 1: модель регрессии
Продолжаем тему теории вероятностей в машинном обучении.
В данной статье мы подробно рассмотрим вероятностную постановку задачи машинного обучения: что такое распределение данных, дискриминативная модель, i.i.d.-гипотеза и метод максимизации правдоподобия, что такое регрессия Пуассона и регрессия с оценкой уверенности, и как нормальное распределение связано с минимизацией среднеквадратичного отклонения.
▪Читать
▪Часть 2
▪Книга Байесовские модели
▪Курс от Сендфорда
@data_analysis_ml
Продолжаем тему теории вероятностей в машинном обучении.
В данной статье мы подробно рассмотрим вероятностную постановку задачи машинного обучения: что такое распределение данных, дискриминативная модель, i.i.d.-гипотеза и метод максимизации правдоподобия, что такое регрессия Пуассона и регрессия с оценкой уверенности, и как нормальное распределение связано с минимизацией среднеквадратичного отклонения.
▪Читать
▪Часть 2
▪Книга Байесовские модели
▪Курс от Сендфорда
@data_analysis_ml
👍12❤3🔥3
Перед нами встала задача проведения эксперимента для исследования различных форматов хранения.
Перед началом проведения эксперимента нами были выделены наиболее, на наш взгляд, важные аспекты, которые помогут определить лучший формат хранения:
- Скорость чтения файла
- Скорость записи файла
- Занимаемый объем сохраненного файла
▪Читать
▪Подробнее о parquet
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥2❤1
🔥 Подборка каналов для Дата сайентиста
⭐️ Нейронные сети
@vistehno - chatgpt ведет блог, решает любые задачи и отвечает на любые ваши вопросы.
@aigen - сети для генерации картинок. видео, музыки и многого другого.
@neural – погружение в нейросети.
🖥 Machine learning
@ai_ml – погружение в нейросети, ai, Chatgpt, midjourney, машинное обучение.
@machinelearning_ru – машинное обучении на русском от новичка до профессионала.
@machinelearning_interview – подготовка к собеседованию.
@datascienceiot – бесплатные книги Machine learning
@ArtificialIntelligencedl – канал о искусственном интеллекте
@machinee_learning – чат о машинном обучении
@datascienceml_jobs - работа ds, ml
@Machinelearning_Jobs - чат работы мл
🖥 SQL базы данных
@sqlhub - Повышение эффективности кода с грамотным использованием бд.
@chat_sql - чат изучения бд.
🖥 Python
@pythonl - главный канал самого популярного языка программирования.
@pro_python_code – учим python с ментором.
@python_job_interview – подготовка к Python собеседованию.
@python_testit - проверочные тесты на python
@pythonlbooks - современные книги Python
@python_djangojobs - работа для Python программистов
@python_django_work - чат обсуждения вакансий
🖥 Javascript / front
@react_tg - - 40,14% разработчиков сайтов использовали React в 2022 году - это самая популярная библиотека для создания сайтов.
@javascript -канал для JS и FrontEnd разработчиков. Лучшие практики и примеры кода. Туториалы и фишки JS
@Js Tests - каверзные тесты JS
@hashdev - погружение в web разработку.
@javascriptjobjs - отборные вакансии и работа FrontEnd.
@jsspeak - чат поиска FrontEnd работы.
🖥 Java
@javatg - выучить Java с senior разработчиком по профессиональной методике.
@javachats - чат для ответов на вопросы по Java
@java_library - библиотека книг Java
@android_its - Android разработка
@java_quizes - тесты Java
@Java_workit - работа Java
@progersit - шпаргалки ит
👣 Golang
@Golang_google - восхитительный язык от Google, мощный и перспективный.
@golang_interview - вопросы и ответы с собеседований по Go. Для всех уровней разработчиков.
@golangtests - интересные тесты и задачи GO
@golangl - чат изучающих Go
@GolangJobsit - отборные вакансии и работа GO
@golang_jobsgo - чат для ищущих работу.
@golang_books - полезные книги Golang
@golang_speak - обсуждение языка Go
🖥 Linux
@linux -топ фишки, гайды, уроки по работе с Linux.
@linux chat - чат linux для обучения и помощи.
@linux_read - бесплатные книги linux
👷♂️ IT работа
@hr_itwork -кураторский список актуальных ит-ваканнсии
🤡It memes
@memes_prog - ит-мемы
⚙️ Rust
@rust_code - Rust избавлен от болевых точек, которые есть во многих современных яп
@rust_chats - чат rust
#️⃣ c# c++
C# - объединяет лучшие идеи современных языков программирования
@csharp_cplus чат
С++ - Универсальность. Возможно, этот главный плюс C++.
📓 Книги
@programming_books_it - большая библиотека. программиста
@datascienceiot -ds книги
@pythonlbooks - python библиотека.
@golang_books - книги Golang
@frontendbooksit - front книги
@progersit - ит-шпаргалки
@linux_read - Linux books
@java_library - Java books
🖥 Github
@github_code - лучшие проекты с github
@bigdatai - инструменты по работе с данными
🖥 Devops
Devops - специалист общего профиля, которому нужны обширные знания в области разработки.
📢 English for coders
@english_forprogrammers - Английский для программистов
@vistehno - chatgpt ведет блог, решает любые задачи и отвечает на любые ваши вопросы.
@aigen - сети для генерации картинок. видео, музыки и многого другого.
@neural – погружение в нейросети.
@ai_ml – погружение в нейросети, ai, Chatgpt, midjourney, машинное обучение.
@machinelearning_ru – машинное обучении на русском от новичка до профессионала.
@machinelearning_interview – подготовка к собеседованию.
@datascienceiot – бесплатные книги Machine learning
@ArtificialIntelligencedl – канал о искусственном интеллекте
@machinee_learning – чат о машинном обучении
@datascienceml_jobs - работа ds, ml
@Machinelearning_Jobs - чат работы мл
@sqlhub - Повышение эффективности кода с грамотным использованием бд.
@chat_sql - чат изучения бд.
@pythonl - главный канал самого популярного языка программирования.
@pro_python_code – учим python с ментором.
@python_job_interview – подготовка к Python собеседованию.
@python_testit - проверочные тесты на python
@pythonlbooks - современные книги Python
@python_djangojobs - работа для Python программистов
@python_django_work - чат обсуждения вакансий
@react_tg - - 40,14% разработчиков сайтов использовали React в 2022 году - это самая популярная библиотека для создания сайтов.
@javascript -канал для JS и FrontEnd разработчиков. Лучшие практики и примеры кода. Туториалы и фишки JS
@Js Tests - каверзные тесты JS
@hashdev - погружение в web разработку.
@javascriptjobjs - отборные вакансии и работа FrontEnd.
@jsspeak - чат поиска FrontEnd работы.
@javatg - выучить Java с senior разработчиком по профессиональной методике.
@javachats - чат для ответов на вопросы по Java
@java_library - библиотека книг Java
@android_its - Android разработка
@java_quizes - тесты Java
@Java_workit - работа Java
@progersit - шпаргалки ит
@Golang_google - восхитительный язык от Google, мощный и перспективный.
@golang_interview - вопросы и ответы с собеседований по Go. Для всех уровней разработчиков.
@golangtests - интересные тесты и задачи GO
@golangl - чат изучающих Go
@GolangJobsit - отборные вакансии и работа GO
@golang_jobsgo - чат для ищущих работу.
@golang_books - полезные книги Golang
@golang_speak - обсуждение языка Go
@linux -топ фишки, гайды, уроки по работе с Linux.
@linux chat - чат linux для обучения и помощи.
@linux_read - бесплатные книги linux
👷♂️ IT работа
@hr_itwork -кураторский список актуальных ит-ваканнсии
🤡It memes
@memes_prog - ит-мемы
⚙️ Rust
@rust_code - Rust избавлен от болевых точек, которые есть во многих современных яп
@rust_chats - чат rust
#️⃣ c# c++
C# - объединяет лучшие идеи современных языков программирования
@csharp_cplus чат
С++ - Универсальность. Возможно, этот главный плюс C++.
📓 Книги
@programming_books_it - большая библиотека. программиста
@datascienceiot -ds книги
@pythonlbooks - python библиотека.
@golang_books - книги Golang
@frontendbooksit - front книги
@progersit - ит-шпаргалки
@linux_read - Linux books
@java_library - Java books
@github_code - лучшие проекты с github
@bigdatai - инструменты по работе с данными
Devops - специалист общего профиля, которому нужны обширные знания в области разработки.
@english_forprogrammers - Английский для программистов
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥6❤3
🔟 Советов по улучшению работы с ChatGPT
Список советов, которые помогут вам улучшить работу с ChatGPT. Список кратко:
1. ChatGPT имеет ограничение на вывод текста, но это можно легко обойти, воспользовавшись командой “continue”.
2. Иногда длинные, запутанные запросы могут иметь противоположный эффект, поэтому всегда полезно делать их конкретными и короткими.
3. Добавление ключевого слова “list” в вашу подсказку может изменить способ вывода ChatGPT. Список может оказаться более точным, чем обычный запрос.
4. ChatGPT может помочь вам в написании чёткой и сжатой документации для вашего кода, включая README.md файлы для проектов.
5. Вставляя фрагменты кода и запрашивая советы, ChatGPT может помочь с завершением кода.
6. Не отправляйте в Chatgpt запросы, содержащие личную информацию о вас, ваших коллегах или компании.
7. Вот несколько примеров запросов, которые помогут вам в ваших попытках упрощения кода и рефакторинга:
8. Всегда перепроверяйте код от chatgpt или найдите эксперта , который сможет проверить сгенерированный код.
9. Chatgpt напишет за вас тесты высокого уровня.
10. Chatgpt отлично спарвляется с :
- Созданием запросо SQL
- CRUD код
- Отправка электронных писем
- Экспорт данных в CSV Excel
- Создание форм ввода данных
▪Подробнее
▪ Видео
@data_analysis_ml
Список советов, которые помогут вам улучшить работу с ChatGPT. Список кратко:
1. ChatGPT имеет ограничение на вывод текста, но это можно легко обойти, воспользовавшись командой “continue”.
2. Иногда длинные, запутанные запросы могут иметь противоположный эффект, поэтому всегда полезно делать их конкретными и короткими.
3. Добавление ключевого слова “list” в вашу подсказку может изменить способ вывода ChatGPT. Список может оказаться более точным, чем обычный запрос.
4. ChatGPT может помочь вам в написании чёткой и сжатой документации для вашего кода, включая README.md файлы для проектов.
5. Вставляя фрагменты кода и запрашивая советы, ChatGPT может помочь с завершением кода.
6. Не отправляйте в Chatgpt запросы, содержащие личную информацию о вас, ваших коллегах или компании.
7. Вот несколько примеров запросов, которые помогут вам в ваших попытках упрощения кода и рефакторинга:
Code alternative example
input <yourcode>
Simplify below code
input <yourcode>
Refactor this code
input <yourcode>
8. Всегда перепроверяйте код от chatgpt или найдите эксперта , который сможет проверить сгенерированный код.
9. Chatgpt напишет за вас тесты высокого уровня.
10. Chatgpt отлично спарвляется с :
- Созданием запросо SQL
- CRUD код
- Отправка электронных писем
- Экспорт данных в CSV Excel
- Создание форм ввода данных
▪Подробнее
▪ Видео
@data_analysis_ml
👍19🔥3❤1🤨1
В этой статье я делюсь шестью малоизвестными, но полезными библиотеками python для работой с данными и не только, которые помогут вам в работе.
▪Читать
▪Зеркло
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🥰2❤1👎1
Используем библиотека hashlib, чтобы почистить память и удалить ненужные данные.
▪Читать
▪ Код
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤3🔥2
🔟 полезных инструментов визуализации данных
Инструменты визуализации данных идеально подходят для создания графики о конкретных событиях, проектах, а также для создания аналитических и информационных сводок.
Такие инструменты могут радикально отличаться друг от друга. Мы составили этот список, чтобы помочь вам выбрать лучший и самый подходящий именно для вас вариант.
▪Читать
@data_analysis_ml
Инструменты визуализации данных идеально подходят для создания графики о конкретных событиях, проектах, а также для создания аналитических и информационных сводок.
Такие инструменты могут радикально отличаться друг от друга. Мы составили этот список, чтобы помочь вам выбрать лучший и самый подходящий именно для вас вариант.
▪Читать
@data_analysis_ml
👍8🔥4❤2
Простые, интуитивно понятные объяснения некоторых вопросов Google по решению проблем
Помимо задач по программированию, работодатель обязательно проверяет знание математики, и особенно решение задач в области статистики и теории вероятности. Ниже мы приводим разбор вопросов из интервью Google.
▪Читать
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20🔥3❤1🤨1