📚 7 примеров современных алгоритмов машинного обучения с кодом и полезными статьями для изучения.
1. Трансформеры
Что почитать:
- Трансформеры
- The Animated Transformer
- Transformer в картинках
- Знакомство с трансформерами
- Обучение алгоритма генерации текста на основе трансформеров
2 Графовые нейронные сети (GNN)
Что почитать:
- Графовые нейронные сети
- Graph Neural Networks: просто на математическом
- Ищем скрытые смыслы. Графовые нейронные сети
3. XGBoost:
Что почитать:
- XGBoost в R: пошаговый пример
- Введение в XGBoost для прикладного машинного обучения
- Как работает нативная поддержка категорий в XGBoost
4. Вариационные автоэнкодеры (VAE)
Что почитать:
- Вариационные автоэнкодеры (VAE) для чайников
- Применение простых Автоэнкодерных архитектур в задачах поиска аномалий при максимально несбалансированных данных
5. AutoML
Что почитать:
- Автоматическое машинное обучение
- Что такое автоматизированное машинное обучение (AutoML)
6. Генеративно-состязательная сеть (GAN)
Что почитать:
- Генеративная состязательная сеть (GAN) для чайников
- Создание изображений с использованием генеративно-состязательных нейронных сетей (GAN) на примере ЭКГ
- Генеративно-состязательная сеть
7. Трансферное обучение
Что почитать:
- Трансферное обучение: почему deep learning стал доступнее
- Трансферное обучение с Т5
@data_analysis_ml
1. Трансформеры
Что почитать:
- Трансформеры
- The Animated Transformer
- Transformer в картинках
- Знакомство с трансформерами
- Обучение алгоритма генерации текста на основе трансформеров
2 Графовые нейронные сети (GNN)
Что почитать:
- Графовые нейронные сети
- Graph Neural Networks: просто на математическом
- Ищем скрытые смыслы. Графовые нейронные сети
3. XGBoost:
Что почитать:
- XGBoost в R: пошаговый пример
- Введение в XGBoost для прикладного машинного обучения
- Как работает нативная поддержка категорий в XGBoost
4. Вариационные автоэнкодеры (VAE)
Что почитать:
- Вариационные автоэнкодеры (VAE) для чайников
- Применение простых Автоэнкодерных архитектур в задачах поиска аномалий при максимально несбалансированных данных
5. AutoML
Что почитать:
- Автоматическое машинное обучение
- Что такое автоматизированное машинное обучение (AutoML)
6. Генеративно-состязательная сеть (GAN)
Что почитать:
- Генеративная состязательная сеть (GAN) для чайников
- Создание изображений с использованием генеративно-состязательных нейронных сетей (GAN) на примере ЭКГ
- Генеративно-состязательная сеть
7. Трансферное обучение
Что почитать:
- Трансферное обучение: почему deep learning стал доступнее
- Трансферное обучение с Т5
@data_analysis_ml
❤24👍6🔥2🥰1
Сегодня многие веб-сайты используют JavaScript для динамической загрузки контента. Это может затруднить парсинг данных традиционными методами.
Тем не менее, существует ряд инструментов, которые могут помочь вам спарсить данные с сайтов, использующих JavaScript.
1. Парсинг динамических сайтов.
Вот пример того, как использовать Selenium для парсинга веб-сайта, перегруженного JavaScript:
from selenium import webdriver
from bs4 import BeautifulSoup
driver = webdriver.Firefox()
driver.get('https://www.example.com')
# Wait for the JavaScript to load
time.sleep(5)
# Get the page source
soup = BeautifulSoup(driver.page_source, 'html.parser')
# Extract the data
table = soup.find('table', attrs={'id':'dynamic-table'})
data = []
for row in table.find_all('tr'):
data.append([cell.text for cell in row.find_all('td')])
# Close the browser
driver.quit()
Этот код сначала откроет веб-сайт в браузере Firefox. Затем он будет ждать загрузки JavaScript. После загрузки JavaScript, мы получим исходный текст страницы и разберм его с помощью BeautifulSoup.
Наконец, мы извлечем данные из таблицы и закроем браузер.
2. Работа с CAPTCHA и IP-блокировками
Существует ряд инструментов, которые могут помочь вам решить CAPTCHA. Одним из популярных инструментов является Anti-Captcha: https://anti-captcha.com/.
import requests
url = 'https://anti-captcha.com/api/create'
data = {
'type': 'image',
'phrase': captcha_text
}
response = requests.post(url, data=data)
captcha_id = response.json()['captchaId']
url = 'https://anti-captcha.com/api/solve'
data = {
'captchaId': captcha_id
}
response = requests.post(url, data=data)
solution = response.json()['solution']
Этот код сначала отправляет текст CAPTCHA в Anti-Captcha. Затем Anti-Captcha вернет captchaId, который вы можете использовать для запроса решения.
Получив решение, вы можете использовать его для обхода CAPTCHA.
3. Пример того, как использовать прокси-сервис для изменения вашего IP-адреса:
import requests
import random
def get_proxy():
"""Gets a proxy from the proxy scrape service."""
response = requests.get('https://www.proxyscrape.com/')
data = response.json()
proxy = random.choice(data['results'])['ip'] + ':' + data['results'][0]['port']
return proxy
def scrape_website(proxy):
"""Scrape the website using the proxy."""
response = requests.get(url, proxies={'http': proxy, 'https': proxy})
soup = BeautifulSoup(response.text, 'html.parser')
data = []
for row in soup.find_all('tr'):
data.append([cell.text for cell in row.find_all('td')])
return data
if __name__ == '__main__':
proxy = get_proxy()
data = scrape_website(proxy)
print(data)
# Rotate the proxy
proxy = get_proxy()
data = scrape_website(proxy)
print(data)
Этот код сначала получит прокси от сервиса proxy scrape. Затем он будет использовать прокси для сканирования веб-сайта. Наконец, он выведет данные, которые были получены при парсинге.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16❤5🔥4
Создание инфографики с помощью Matplotlib
Создание захватывающих и привлекательных визуализаций данных имеет важное значение для работы с данными и для того, чтобы быть специалистом по Data Science. Это позволяет нам предоставлять читателям информацию в сжатой форме, которая помогает понимать данные без необходимости просмотра необработанных значений. Кроме того, мы можем использовать диаграммы и графики, чтобы рассказать увлекательную и интересную историю, отвечающую на один или несколько вопросов о данных.
В мире Python существует множество библиотек, которые позволяют специалистам по данным создавать визуализации, и одна из первых, с которой многие сталкиваются, начиная свое путешествие по Data Science — это matplotlib.
В этой статье мы рассмотрим создание инфографики с помощью matplotlib.
📌 Читать статью
@data_analysis_ml
Создание захватывающих и привлекательных визуализаций данных имеет важное значение для работы с данными и для того, чтобы быть специалистом по Data Science. Это позволяет нам предоставлять читателям информацию в сжатой форме, которая помогает понимать данные без необходимости просмотра необработанных значений. Кроме того, мы можем использовать диаграммы и графики, чтобы рассказать увлекательную и интересную историю, отвечающую на один или несколько вопросов о данных.
В мире Python существует множество библиотек, которые позволяют специалистам по данным создавать визуализации, и одна из первых, с которой многие сталкиваются, начиная свое путешествие по Data Science — это matplotlib.
В этой статье мы рассмотрим создание инфографики с помощью matplotlib.
📌 Читать статью
@data_analysis_ml
👍13🔥5❤4
🌍 20 библиотек Python для работы с пространственными данными.
Python стал доминирующим языком в области работы с геоданными, благодаря своей универсальности, обширной экосистеме библиотек и удобному синтаксису.
Эта подборка геопространственных библиотек Python содержит богатый инструментарий, для обработки и анализа данных ГИС.
1. ArcGIS API for Python (Esri) : Разработанная компанией Esri, эта библиотека предоставляет возможности GeoAI для пользователей ArcGIS.
2. Earth Engine API : API Earth Engine позволяет получить доступ к обширной коллекции геопространственных данных Google Earth Engine и выполнять задачи анализа с помощью Python.
3. TorchGeo (PyTorch): TorchGeo предоставляет инструменты и утилиты для работы с геопространственными данными в PyTorch.
4. fastai.vision (fast.ai): Хотя fastai.vision не предназначена специально для GeoAI, она является популярной библиотекой для задач глубокого обучения и компьютерного зрения, которая может быть использована для анализа геопространственных изображений.
5. arcpy (Esri) - это библиотека Python, предоставляемая Esri для работы с геопространственными данными на платформе ArcGIS. Она позволяет автоматизировать задачи геообработки и выполнять пространственный анализ.
6. PyQt (Riverbank Computing) - это набор утилиты Python для Qt. Его можно использовать для создания графических интерфейсов (GUI) для геопространственных приложений.
7. GeoPandas: расширяет функциональность Pandas, популярной библиотеки анализа данных, для работы с геопространственными данными. Она предоставляет высокоуровневый интерфейс для работы с векторными данными, такими как точки, линии и полигоны.
8. Rasterio - это библиотека для чтения и записи геопространственных растровых наборов данных. Она обеспечивает эффективный доступ к растровым данным и позволяет выполнять различные операции с геоданными.
9. GDAL (Open-Source Geospatial Foundation) - это мощная библиотека для чтения, записи и манипулирования геопространственными растровыми и векторными форматами данных.
10. Fiona - это Python API для чтения и записи геопространственных данных в различных форматах, включая Shapefiles и GeoJSON. Он хорошо интегрируется с другими библиотеками, такими как GeoPandas.
11. Shapely - это библиотека для геометрических операций в Python. Она позволяет создавать, манипулировать и анализировать геометрические объекты.
12. GeoPy - это библиотека которая позволяет преобразовывать адреса в географические координаты и наоборот. Библиотека для геокодирования и вычисления расстояний. Geopy также предоставляет функции для вычисления расстояний между точками на основе различных метрик расстояния.
13. PySAL: предоставляет широкий спектр методов пространственного анализа, включая пространственную автокорреляцию, кластеризацию и пространственную регрессию.
14. Pyproj - это интерфейс Python к библиотеке PROJ, которая предоставляет возможности преобразования координат. Она позволяет преобразовывать координаты между различными системами отсчета координат (CRS).
15. Rasterstats предоставляет инструменты для зонального статистического анализа наборов данных.
16. Geos - это библиотека C++, которая обеспечивает низкоуровневые геометрические операции, а библиотека Python Geos предлагает интерфейс Python к Geos. Она часто используется в сочетании с Shapely.
17. RSGISLib - имеет функции для обработки тепловых изображений, включая радиометрическую коррекцию, оценку температуры поверхности земли.
18. WhiteboxTools - это библиотека для геопространственного анализа и обработки данных. Она предлагает полный набор инструментов для таких задач, как анализ рельефа, гидрологическое моделирование и обработка данных LiDAR.
19. GeoDjango - GeoDjango интегрируется с Django.
20. Xarray: Предназначен для работы с многомерными геопространственными наборами данных, предоставляет инструменты для манипулирования данными, анализа и визуализации.
@data_analysis_ml
Python стал доминирующим языком в области работы с геоданными, благодаря своей универсальности, обширной экосистеме библиотек и удобному синтаксису.
Эта подборка геопространственных библиотек Python содержит богатый инструментарий, для обработки и анализа данных ГИС.
1. ArcGIS API for Python (Esri) : Разработанная компанией Esri, эта библиотека предоставляет возможности GeoAI для пользователей ArcGIS.
2. Earth Engine API : API Earth Engine позволяет получить доступ к обширной коллекции геопространственных данных Google Earth Engine и выполнять задачи анализа с помощью Python.
3. TorchGeo (PyTorch): TorchGeo предоставляет инструменты и утилиты для работы с геопространственными данными в PyTorch.
4. fastai.vision (fast.ai): Хотя fastai.vision не предназначена специально для GeoAI, она является популярной библиотекой для задач глубокого обучения и компьютерного зрения, которая может быть использована для анализа геопространственных изображений.
5. arcpy (Esri) - это библиотека Python, предоставляемая Esri для работы с геопространственными данными на платформе ArcGIS. Она позволяет автоматизировать задачи геообработки и выполнять пространственный анализ.
6. PyQt (Riverbank Computing) - это набор утилиты Python для Qt. Его можно использовать для создания графических интерфейсов (GUI) для геопространственных приложений.
7. GeoPandas: расширяет функциональность Pandas, популярной библиотеки анализа данных, для работы с геопространственными данными. Она предоставляет высокоуровневый интерфейс для работы с векторными данными, такими как точки, линии и полигоны.
8. Rasterio - это библиотека для чтения и записи геопространственных растровых наборов данных. Она обеспечивает эффективный доступ к растровым данным и позволяет выполнять различные операции с геоданными.
9. GDAL (Open-Source Geospatial Foundation) - это мощная библиотека для чтения, записи и манипулирования геопространственными растровыми и векторными форматами данных.
10. Fiona - это Python API для чтения и записи геопространственных данных в различных форматах, включая Shapefiles и GeoJSON. Он хорошо интегрируется с другими библиотеками, такими как GeoPandas.
11. Shapely - это библиотека для геометрических операций в Python. Она позволяет создавать, манипулировать и анализировать геометрические объекты.
12. GeoPy - это библиотека которая позволяет преобразовывать адреса в географические координаты и наоборот. Библиотека для геокодирования и вычисления расстояний. Geopy также предоставляет функции для вычисления расстояний между точками на основе различных метрик расстояния.
13. PySAL: предоставляет широкий спектр методов пространственного анализа, включая пространственную автокорреляцию, кластеризацию и пространственную регрессию.
14. Pyproj - это интерфейс Python к библиотеке PROJ, которая предоставляет возможности преобразования координат. Она позволяет преобразовывать координаты между различными системами отсчета координат (CRS).
15. Rasterstats предоставляет инструменты для зонального статистического анализа наборов данных.
16. Geos - это библиотека C++, которая обеспечивает низкоуровневые геометрические операции, а библиотека Python Geos предлагает интерфейс Python к Geos. Она часто используется в сочетании с Shapely.
17. RSGISLib - имеет функции для обработки тепловых изображений, включая радиометрическую коррекцию, оценку температуры поверхности земли.
18. WhiteboxTools - это библиотека для геопространственного анализа и обработки данных. Она предлагает полный набор инструментов для таких задач, как анализ рельефа, гидрологическое моделирование и обработка данных LiDAR.
19. GeoDjango - GeoDjango интегрируется с Django.
20. Xarray: Предназначен для работы с многомерными геопространственными наборами данных, предоставляет инструменты для манипулирования данными, анализа и визуализации.
@data_analysis_ml
👍14🔥4❤3🤩1
🤗 Бесплатный курс по обработке естественного языка (NLP) от The Hugging Face
В этом курсе вы сможете узнать об обработке естественного языка с помощью библиотек из экосистемы Hugging Face.
▪Transformers
▪Datasets
▪Tokenizers
▪Accelerate
Здесь можно посмотреть видео о курсе.
🚀 Курс: https://huggingface.co/learn/nlp-course/chapter1/1
@data_analysis_ml
В этом курсе вы сможете узнать об обработке естественного языка с помощью библиотек из экосистемы Hugging Face.
▪Transformers
▪Datasets
▪Tokenizers
▪Accelerate
Здесь можно посмотреть видео о курсе.
🚀 Курс: https://huggingface.co/learn/nlp-course/chapter1/1
@data_analysis_ml
❤10🔥3👍2
SQL — это основа для каждого специалиста по работе с данными. Неважно, являетесь ли вы аналитиком данных, специалистом по данным или инженером по обработке данных, вам необходимо иметь четкое представление о том, как писать чистые и эффективные SQL-запросы.
Это связано с тем, что за любым тщательным анализом данных или любой сложной моделью машинного обучения стоят базовые данные, и эти данные должны откуда-то поступать.
Cегодня мы рассмотрим две новые техники SQL, которые вы можете добавить в свой набор инструментов, чтобы вывести ваши запросы на новый уровень. Эти методы называются Обобщённое табличное выражение (CTE) и Оконные функции.
▪ Читать
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥2❤1🥰1🥱1
🔥 Подборка обучающих каналов для программистов.
🖥 Machine learning
ai_ml – крупнейши канал по ии, нейросетям и науке о данных.
@bigdatai - Big Data
@machinelearning_ru – гайды по машинному обучению
@machinelearning_interview – подготовка к собеседованию мл.
@datascienceiot – бесплатные книги ds
@ArtificialIntelligencedl – ИИ
@machinee_learning – чат о машинном обучении
@datascienceml_jobs - вакансии ds, ml
@Machinelearning_Jobs - чат с вакансиями
🖥 Python
@pythonl - крупнейший канал для Python программистов.
@pro_python_code – учим python с ментором.
@python_job_interview – подготовка к Python собеседованию.
@python_testit - проверочные тесты на python
@pythonlbooks - современные книги Python
@python_djangojobs - работа для Python программистов
@python_django_work - чат обсуждения вакансий
#️⃣ c#
C# - канал для изучения C# на практике.
@csharp_cplus - C# чат
@csharp_1001_notes - инструменты C#
🖥 C++
@cpluspluc - C++ кодинг
🖥 SQL базы данных
@sqlhub - Повышение эффективности кода с грамотным использованием бд.
@chat_sql - чат изучения бд.
👣 Golang
@Golang_google - восхитительный язык от Google, мощный и перспективный.
@golang_interview - вопросы и ответы с собеседований по Go. Для всех уровней разработчиков.
@golangtests - интересные тесты и задачи GO
@golangl - чат изучающих Go
@GolangJobsit - отборные вакансии и работа GO
@golang_jobsgo - чат для ищущих работу.
@golang_books - полезные книги Golang
@golang_speak - обсуждение языка Go
@golangnewss - новости go
🖥 Linux
linux - kali linux ос для хакинга
linux chat - чат linux для обучения и помощи.
@linux_read - бесплатные книги linux
🖥 Javascript / front
@react_tg - - 40,14% разработчиков сайтов использовали React в 2022 году - это самая популярная библиотека для создания сайтов.
@javascript -канал для JS и FrontEnd разработчиков. Лучшие практики и примеры кода. Туториалы и фишки JS
@Js Tests - каверзные тесты JS
@hashdev - погружение в web разработку.
@javascriptjobjs - отборные вакансии и работа FrontEnd.
@jsspeak - чат поиска FrontEnd работы.
🖥 Java
@javatg - выучить Java с senior разработчиком на практике
@javachats - чат для ответов на вопросы по Java
@java_library - библиотека книг Java
@android_its - Android разработка
@java_quizes - тесты Java
@Java_workit - работа Java
@progersit - шпаргалки ит
👷♂️ IT работа
https://t.iss.one/addlist/_zyy_jQ_QUsyM2Vi -ит каналы по яп с вакансиями
🤡It memes
@memes_prog - ит-мемы
⚙️ Rust
@rust_code - Rust избавлен от болевых точек, которые есть во многих современных яп
@rust_chats - чат rust
📓 Книги
https://t.iss.one/addlist/HwywK4fErd8wYzQy - актуальные книги по всем яп
⭐️ Нейронные сети
@vistehno - chatgpt ведет блог, решает любые задачи и отвечает на любые ваши вопросы.
@aigen - сети для генерации картинок. видео, музыки и многого другого.
@neural – погружение в нейросети.
📢 English for coders
@english_forprogrammers - Английский для программистов
🖥 PHP
@phpshka - PHP академия для программистов.
🖥 Devops
Devops - канал для DevOps специалистов.
🔥 Папки для программитов
https://t.iss.one/addlist/_FjtIq8qMhU0NTYy - машинное обучение, нейросети, глубокое обучение
https://t.iss.one/addlist/eEPya-HF6mkxMGIy - папка для Python разработчиков
https://t.iss.one/addlist/MUtJEeJSxeY2YTFi - папка для Golang разработчиков
ai_ml – крупнейши канал по ии, нейросетям и науке о данных.
@bigdatai - Big Data
@machinelearning_ru – гайды по машинному обучению
@machinelearning_interview – подготовка к собеседованию мл.
@datascienceiot – бесплатные книги ds
@ArtificialIntelligencedl – ИИ
@machinee_learning – чат о машинном обучении
@datascienceml_jobs - вакансии ds, ml
@Machinelearning_Jobs - чат с вакансиями
@pythonl - крупнейший канал для Python программистов.
@pro_python_code – учим python с ментором.
@python_job_interview – подготовка к Python собеседованию.
@python_testit - проверочные тесты на python
@pythonlbooks - современные книги Python
@python_djangojobs - работа для Python программистов
@python_django_work - чат обсуждения вакансий
#️⃣ c#
C# - канал для изучения C# на практике.
@csharp_cplus - C# чат
@csharp_1001_notes - инструменты C#
@cpluspluc - C++ кодинг
@sqlhub - Повышение эффективности кода с грамотным использованием бд.
@chat_sql - чат изучения бд.
@Golang_google - восхитительный язык от Google, мощный и перспективный.
@golang_interview - вопросы и ответы с собеседований по Go. Для всех уровней разработчиков.
@golangtests - интересные тесты и задачи GO
@golangl - чат изучающих Go
@GolangJobsit - отборные вакансии и работа GO
@golang_jobsgo - чат для ищущих работу.
@golang_books - полезные книги Golang
@golang_speak - обсуждение языка Go
@golangnewss - новости go
linux - kali linux ос для хакинга
linux chat - чат linux для обучения и помощи.
@linux_read - бесплатные книги linux
@react_tg - - 40,14% разработчиков сайтов использовали React в 2022 году - это самая популярная библиотека для создания сайтов.
@javascript -канал для JS и FrontEnd разработчиков. Лучшие практики и примеры кода. Туториалы и фишки JS
@Js Tests - каверзные тесты JS
@hashdev - погружение в web разработку.
@javascriptjobjs - отборные вакансии и работа FrontEnd.
@jsspeak - чат поиска FrontEnd работы.
@javatg - выучить Java с senior разработчиком на практике
@javachats - чат для ответов на вопросы по Java
@java_library - библиотека книг Java
@android_its - Android разработка
@java_quizes - тесты Java
@Java_workit - работа Java
@progersit - шпаргалки ит
👷♂️ IT работа
https://t.iss.one/addlist/_zyy_jQ_QUsyM2Vi -ит каналы по яп с вакансиями
🤡It memes
@memes_prog - ит-мемы
⚙️ Rust
@rust_code - Rust избавлен от болевых точек, которые есть во многих современных яп
@rust_chats - чат rust
📓 Книги
https://t.iss.one/addlist/HwywK4fErd8wYzQy - актуальные книги по всем яп
@vistehno - chatgpt ведет блог, решает любые задачи и отвечает на любые ваши вопросы.
@aigen - сети для генерации картинок. видео, музыки и многого другого.
@neural – погружение в нейросети.
@english_forprogrammers - Английский для программистов
@phpshka - PHP академия для программистов.
Devops - канал для DevOps специалистов.
🔥 Папки для программитов
https://t.iss.one/addlist/_FjtIq8qMhU0NTYy - машинное обучение, нейросети, глубокое обучение
https://t.iss.one/addlist/eEPya-HF6mkxMGIy - папка для Python разработчиков
https://t.iss.one/addlist/MUtJEeJSxeY2YTFi - папка для Golang разработчиков
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥3❤2🤨1
Когда дело доходит до анализа данных, Pandas является наиболее используемой библиотекой Python для обработки и подготовки данных для дальнейшего анализа и машинного обучения.
• Реальность такова, что Pandas — действительно гибкая библиотека, и её можно использовать даже для преобразования форматов файлов.
# Create a Pandas series
series = pd.Series([6, 12, 18, 24])
# Print Pandas series
print(series)
>>>
0 6
1 12
2 18
3 24
dtype: int64
import pandas as pd
# Create a Pandas column as a Pandas data frame
df = pd.DataFrame({'A': [1, 2, 3, 4]})
# Print Pandas data frame
print(df)
>>>
A
0 1
1 2
2 3
3 4
import numpy as np
import pandas as pd
# Create a NumPy array
values = np.array([5, 10, 15, 20])
# Transform array into Pandas data frame
df = pd.DataFrame(values)
# Print data frame
print(df)
>>>
0
0 5
1 10
2 15
3 20
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍4❤2
Python — один из наиболее часто используемых языков программирования в мире, предоставляющий разработчикам широкий набор библиотек.
В любом случае, когда дело доходит до работе данными и научных вычислений, мы обычно думаем о таких библиотеках, как Numpy или Pandas.
В этой статье мы представляем 3 малоизвестные Python-библиотеки, которые могут вас заинтересовать при работе с данным.
1. Xarray
Xarray — это библиотека Python, которая расширяет функциональные возможности NumPy, давая нам возможность работать с помеченными массивами и наборами данных.
2. Dask
Dask — это гибкая библиотека параллельных вычислений, которая обеспечивает распределённые вычисления и параллелизм для крупномасштабной обработки данных.
3. SymPy
Если вам нужно выполнять сложные математические расчёты и вычисления и вы хотите использовать Python, рекомендуем попробовать библиотеку Sympy.
▪️Читать подробнее
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13👍5🔥2
🧳Подборка полезных датасетов для дата саентистов.
1. Airbnb
Этот датасет могут скинуть для интервью — собеседования с задачей провести исследовательский анализ данных и разработать модель машинного обучения.
2. NHANES Dataset
Полезный набор данных для учащихся. Наименования столбцов этого датасета сначала могут показаться не очень понятными.
3. Heart Disease Dataset
Он содержит классы: age, sex, chest pain type (4 вида), resting blood pressure, serum cholestoral in mg/dl, fasting blood sugar > 120 mg/dl, resting electrocardiographic results (values 0,1,2), maximum heart rate achieved, exercise induced angina, oldpeak = ST depression induced by exercise relative to rest, the slope of the peak exercise ST segment, number of major vessels (0–3) colored by flourosopy и т.д.
4. Cars Dataset
Это датасет можно использовать для практики некоторых регрессионных моделей и исследовательского анализа данных. К тому же он разумного размера.
5. People Wiki Dataset
Этот датасет включает в себя профили известных людей прямиком из Википедии.
6. Amazon Product Review Dataset
Этот набор данных содержит миллионы отзывов на продукты Amazon.
7. Olympic Dataset
Этот набор данных содержит информацию о результатах Олимпийских игр. Каждая строка содержит данные по стране. Дает почувствовать все грани боли от фильтрации данных. Автор статьи изучил библиотеки Python (Numpy и Pandas), используя этот набор данных.
8. Titanic Dataset
Подойдет для исследовательского анализа данных , моделей машинного обучения (особенно моделей классификации), статистического анализа и практической отработки визуализации данных .
9. Iris Dataset
Еще один широко котируемый набор данных в курсах по Data Science.
Особенно хорош для изучения классификационных моделей.
10. Facebook Stock Data
Может быть очень полезным при анализе и визуализации временных рядов или проблемах, связанных с временными рядами.
11. BBC Text Dataset
Еще один замечательный набор данных для Natural Language Processing.
Этот набор данных содержит информацию о различных типах новостей из архивов BBC. Это большой набор текстовых данных.
12. Cats vs Dogs
Очень часто используется для отработки классификации изображений. Внутри ты найдешь изображения кошек и собак. Датасет хорош для проблем computer vision.
13. Malignant vs Benign
Полезный набор данных для проблем компьютерного зрения. Датасет содержит изображения двух типов рака кожи. Подходит для задач классификации изображений.
14. Natural Images Dataset
Этот набор данных содержит изображения самолетов, автомобилей, кошек, собак, цветов, фруктов, мотоциклов и людей.
@data_analysis_ml
1. Airbnb
Этот датасет могут скинуть для интервью — собеседования с задачей провести исследовательский анализ данных и разработать модель машинного обучения.
2. NHANES Dataset
Полезный набор данных для учащихся. Наименования столбцов этого датасета сначала могут показаться не очень понятными.
3. Heart Disease Dataset
Он содержит классы: age, sex, chest pain type (4 вида), resting blood pressure, serum cholestoral in mg/dl, fasting blood sugar > 120 mg/dl, resting electrocardiographic results (values 0,1,2), maximum heart rate achieved, exercise induced angina, oldpeak = ST depression induced by exercise relative to rest, the slope of the peak exercise ST segment, number of major vessels (0–3) colored by flourosopy и т.д.
4. Cars Dataset
Это датасет можно использовать для практики некоторых регрессионных моделей и исследовательского анализа данных. К тому же он разумного размера.
5. People Wiki Dataset
Этот датасет включает в себя профили известных людей прямиком из Википедии.
6. Amazon Product Review Dataset
Этот набор данных содержит миллионы отзывов на продукты Amazon.
7. Olympic Dataset
Этот набор данных содержит информацию о результатах Олимпийских игр. Каждая строка содержит данные по стране. Дает почувствовать все грани боли от фильтрации данных. Автор статьи изучил библиотеки Python (Numpy и Pandas), используя этот набор данных.
8. Titanic Dataset
Подойдет для исследовательского анализа данных , моделей машинного обучения (особенно моделей классификации), статистического анализа и практической отработки визуализации данных .
9. Iris Dataset
Еще один широко котируемый набор данных в курсах по Data Science.
Особенно хорош для изучения классификационных моделей.
10. Facebook Stock Data
Может быть очень полезным при анализе и визуализации временных рядов или проблемах, связанных с временными рядами.
11. BBC Text Dataset
Еще один замечательный набор данных для Natural Language Processing.
Этот набор данных содержит информацию о различных типах новостей из архивов BBC. Это большой набор текстовых данных.
12. Cats vs Dogs
Очень часто используется для отработки классификации изображений. Внутри ты найдешь изображения кошек и собак. Датасет хорош для проблем computer vision.
13. Malignant vs Benign
Полезный набор данных для проблем компьютерного зрения. Датасет содержит изображения двух типов рака кожи. Подходит для задач классификации изображений.
14. Natural Images Dataset
Этот набор данных содержит изображения самолетов, автомобилей, кошек, собак, цветов, фруктов, мотоциклов и людей.
@data_analysis_ml
👍23🔥4❤3
🐼Анализ данных на основе промптов с помощью PandasAI
Pandas AI — это библиотека Python со встроенным генеративным искусственным интеллектом или языковой моделью. Она превращает ваши фреймы данных в собеседников. Больше никаких бесконечных часов разглядывания строк и столбцов.
PandasAI может генерировать визуализации на основе промптов, хотя PandasAI не является заменой Pandas, это дополняющая библиотека, которая предоставляет супервозможности ИИ для работы с данными.
🔵 Попробуем PandasAI на наборе данных Spotify Kaggle:
🔵 Теперь мы готовы использовать наш кадр данных панды, управляемый OpenAI.
▪ Результат
Пробовали данную библиотеку?
@data_analysis_ml
Pandas AI — это библиотека Python со встроенным генеративным искусственным интеллектом или языковой моделью. Она превращает ваши фреймы данных в собеседников. Больше никаких бесконечных часов разглядывания строк и столбцов.
PandasAI может генерировать визуализации на основе промптов, хотя PandasAI не является заменой Pandas, это дополняющая библиотека, которая предоставляет супервозможности ИИ для работы с данными.
# Import Dependencies
import pandas as pd
import opendatasets as od
import pandasai as pai
from pandasai.llm.openai import OpenAI
# Get Spotify Data from kaggle
od.download("https://www.kaggle.com/datasets/amitanshjoshi/spotify-1million-tracks")
spotify_data = '<location>/spotify_data.csv'
# Read Spotify Dataset
df = pd.read_csv(spotify_data)
# Initiate OpenAI LLM model for spotify dataset.
llm = OpenAI("<OpenAI API Key>")
pandas_ai = pai.PandasAI(llm)
# Let us get top 10 artist in year 2012 via a prompt
pandas_ai(df, prompt='Which are top 10 artists in 2012?')p
▪ Результат
Пробовали данную библиотеку?
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12❤7🤔6🔥2😁1
Пакет balance python - это удобный инструмент для работы со смещенными выборками данных.
Обеспечивает полный рабочий процесс: анализа смещений в данных, получения весов для балансировки данных, оценки качества весов и получения взвешенных оценок.
python -m pip install git+https://github.com/bbalasub1/[email protected]
Мы начинаем с загрузки данных и их корректировки:
from balance import load_data, Sample
# load simulated example data
target_df, sample_df = load_data()
# Import sample and target data into a Sample object
sample = Sample.from_frame(sample_df, outcome_columns=["happiness"])
target = Sample.from_frame(target_df)
# Set the target to be the target of sample
sample_with_target = sample.set_target(target)
# Check basic diagnostics of sample vs target before adjusting:
# sample_with_target.covars().plot()
# Using ipw to fit survey weights
adjusted = sample_with_target.adjust()
print(adjusted.summary())
# Covar ASMD reduction: 62.3%, design effect: 2.249
# Covar ASMD (7 variables):0.335 -> 0.126
# Model performance: Model proportion deviance explained: 0.174
adjusted.covars().plot(library = "seaborn", dist_type = "kde")
▪Github
▪Примеры с кодом
▪Статья
▪Проект
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤2🔥2
Модель нейросети Kandinsky 2.2 стала частью самого крупного и авторитетного в сфере ИИ фреймворка Diffusers на ресурсе Huggingface.
Diffusers - это агрегатор открытых генеративных моделей, работающих на принципе диффузии. Сегодня этот фреймворк используют многие популярные ИИ-сервисы, инструменты и библиотеки: DreamFusion, Segment Anything, ML Stable Diffusion (by Apple), Invoke AI ( всего более 3000 решений).
Также Kandinsky 2.2 вошел в список популярных моделей в основном репозитории Diffusers на GitHub.
@data_analysis_ml
Diffusers - это агрегатор открытых генеративных моделей, работающих на принципе диффузии. Сегодня этот фреймворк используют многие популярные ИИ-сервисы, инструменты и библиотеки: DreamFusion, Segment Anything, ML Stable Diffusion (by Apple), Invoke AI ( всего более 3000 решений).
Также Kandinsky 2.2 вошел в список популярных моделей в основном репозитории Diffusers на GitHub.
@data_analysis_ml
🔥12❤4👍4
🗂 10 библиотек Python для автоматического разведочного анализа данных
• Разведочный анализ данных (EDA) является важнейшим шагом в разработке модели Data science и исследовании наборов данных. EDA включает в себя изучение, анализ и обобщение фундаментальных характеристик наборов данных для получения представления о внутренней информации, содержащейся в них.
• Известные библиотеки Python для автоматизированного EDA:
1. D-Tale
D-Tale – это библиотека Python, которая предоставляет интерактивный и удобный интерфейс для визуализации и анализа данных.
2. Pandas-profiling
Pandas-Profiling – позволяет автоматизировать первичный анализ данных и, тем самым, значительно его упростить и ускорить.
3. Sweetviz
Sweetviz – это библиотека Python с открытым исходным кодом, которая генерирует отчеты с удобной визуализацией для выполнения EDA с помощью всего двух строк кода. Библиотека позволяет быстро создать подробный отчет по всем характеристикам набора данных без особых усилий. В возможности Sweetviz также входит целевой анализ, сравнение двух датасетов, сравнение двух частей датасета, выделенных по определенному признаку, выявление корреляций и ассоциаций, также sweetviz создает позволяет создавать и сохранять отчет как HTML файл.
4. Autoviz
AutoViz – это библиотека Python, предоставляющая возможности автоматической визуализации данных, позволяющая визуализировать наборы данных любого размера всего одной строкой кода.
5. dataprep
DataPrep – это библиотека Python с открытым исходным кодом, которая предоставляет функциональные возможности для анализа, подготовки и обработки данных. Она построена поверх Pandas и Dask DataFrame, что делает её легко интегрируемым интсрументом с другими библиотеками Python.
6. KLib
KLib – это библиотека Python, которая предоставляет возможности автоматического разведочного анализа данных (EDA) и профилирования данных. Она предлагает различные функции и визуализации для быстрого изучения и анализа наборов данных. KLib помогает упростить процесс EDA и сделать его более удобным.
7. dabl
Dabl Dabl - поможет визуализировать данные за одну строчу кода. Обычно ML-специалисты используют matplotlib для визуализации, строя нужны графики один за другим. В Dabl вызов одного метода построит целый набор диаграмм.
8. speedML
SpeedML – это библиотека Python, целью которой является ускорение процесса разработки конвейера машинного обучения.
9. Sketch
Sketch— это новая библиотека, которая использует возможности ИИ, чтобы помочь вам понять ваши dataframes pandas, используя вопросы на естественном языке непосредственно в Jupyter.
10. Bamboolib
Bamboolib - это библиотека Python, которая предоставляет компонент пользовательского интерфейса для анализа данных без кода в Jupyter. Одним из вариантов её использования является написание кода для функций, создание которых занимает много времени. Bamboolib предназначена для упрощения обычных задач обработки данных, исследования и визуализации и может использоваться как начинающими, так и опытными аналитиками данны
▪ Подробнее
@data_analysis_ml
• Разведочный анализ данных (EDA) является важнейшим шагом в разработке модели Data science и исследовании наборов данных. EDA включает в себя изучение, анализ и обобщение фундаментальных характеристик наборов данных для получения представления о внутренней информации, содержащейся в них.
• Известные библиотеки Python для автоматизированного EDA:
1. D-Tale
D-Tale – это библиотека Python, которая предоставляет интерактивный и удобный интерфейс для визуализации и анализа данных.
2. Pandas-profiling
Pandas-Profiling – позволяет автоматизировать первичный анализ данных и, тем самым, значительно его упростить и ускорить.
3. Sweetviz
Sweetviz – это библиотека Python с открытым исходным кодом, которая генерирует отчеты с удобной визуализацией для выполнения EDA с помощью всего двух строк кода. Библиотека позволяет быстро создать подробный отчет по всем характеристикам набора данных без особых усилий. В возможности Sweetviz также входит целевой анализ, сравнение двух датасетов, сравнение двух частей датасета, выделенных по определенному признаку, выявление корреляций и ассоциаций, также sweetviz создает позволяет создавать и сохранять отчет как HTML файл.
4. Autoviz
AutoViz – это библиотека Python, предоставляющая возможности автоматической визуализации данных, позволяющая визуализировать наборы данных любого размера всего одной строкой кода.
5. dataprep
DataPrep – это библиотека Python с открытым исходным кодом, которая предоставляет функциональные возможности для анализа, подготовки и обработки данных. Она построена поверх Pandas и Dask DataFrame, что делает её легко интегрируемым интсрументом с другими библиотеками Python.
6. KLib
KLib – это библиотека Python, которая предоставляет возможности автоматического разведочного анализа данных (EDA) и профилирования данных. Она предлагает различные функции и визуализации для быстрого изучения и анализа наборов данных. KLib помогает упростить процесс EDA и сделать его более удобным.
7. dabl
Dabl Dabl - поможет визуализировать данные за одну строчу кода. Обычно ML-специалисты используют matplotlib для визуализации, строя нужны графики один за другим. В Dabl вызов одного метода построит целый набор диаграмм.
8. speedML
SpeedML – это библиотека Python, целью которой является ускорение процесса разработки конвейера машинного обучения.
9. Sketch
Sketch— это новая библиотека, которая использует возможности ИИ, чтобы помочь вам понять ваши dataframes pandas, используя вопросы на естественном языке непосредственно в Jupyter.
10. Bamboolib
Bamboolib - это библиотека Python, которая предоставляет компонент пользовательского интерфейса для анализа данных без кода в Jupyter. Одним из вариантов её использования является написание кода для функций, создание которых занимает много времени. Bamboolib предназначена для упрощения обычных задач обработки данных, исследования и визуализации и может использоваться как начинающими, так и опытными аналитиками данны
▪ Подробнее
@data_analysis_ml
👍15❤6🔥6🤨1