Анализ данных (Data analysis)
46.3K subscribers
2.33K photos
275 videos
1 file
2.07K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
🔥 Kubernetes и Docker для дата-сайентистов

Изучение и применение новейших инструментов и технологий в области науки о данных является неотъемлемым условием для развития специалистов. Появление Docker и Kubernetes привело к существенным изменениям в процессе разработки и развертывания программных продуктов. Однако, какова роль этих инструментов и почему они важны для дата-сайентистов?

Мы представляем полный обзор Docker и Kubernetes, включая их преимущества и функционал. Как отличаются эти две технологии и какова их польза для дата-сайентистов? В конце статьи вы получите ясное понимание роли контейнеризации и оркестрации в более эффективной работе дата-сайентиста.

📌 Читать

@data_analysis_ml
👍93🔥3🤨1
🔥 Большой список сайтов с практическимим задачами для программистов.

Codeforces — платформа для алгоритмических соревнований. Проводит контесты и раунды с 5 задачами на 2 часа. Есть система рейтинга и два дивизиона. Задачи можно решать и проверять после соревнования. Также есть доступ к тренировкам с задачами с прошлых соревнований.

HackerRank - сайт будет больше интересен продвинутым программистам, которые уже многое умеют. На этом сайте собрано множество задач на самые разные разделы Computer Science: традиционная алгоритмика, ИИ, машинное обучение и т.д. Если вы решите много задач, то вами могут заинтересоваться работодатели, регуляторно мониторящие эту платформу.

Codewars — популярный cборник задач на разные темы, от алгоритмов до шаблонов проектирования.

LeetCode — известный сайт с задачами для подготовки к собеседованиям. Можно пообщаться и посмотреть решения других программистов.

Timus Online Judge — русскоязычная (хотя английский язык также поддерживается) платформа, на которой более тысячи задач удачно отсортированы по темам и по сложности.

TopCoder - популярная американская платформа. Она проводит алгоритмические контесты, а также соревнования по промышленному программированию и марафоны, где задачи требуют исследования и нет единого верного алгоритма. Участникам даются недели на решение таких задач.

informatics.mccme.ru - платформа с теоретическим материалом и задачами, удобно разделенными по категориям. Большая база задач с олимпиад школьников также доступна.

SPOJ - большой англоязычный сайт с 20000+ задачами на разные темы: DP, графы, структуры данных и др. Иногда проводят неинтересные контесты, если не из страны их проведения.

CodeChef — менее крупный аналог Codeforces и TopCoder, тоже с огромным архивом задач и регулярными контестами.

Project Euler - сборник 500 задач, проверяющих знание математических алгоритмов. Часто используется на собеседованиях, чтобы оценить алгоритмическую подготовку кандидата.

Kaggle - соревнования по анализу данных.

Golang tests - канал с тестами по Go

CodinGame - сайт для программистов и геймеров, предлагающий большую коллекцию видеоигр, оформленных в виде задач на программирование.

Al Zimmermann’s Programming Contests — платформа, на которой регулярно проводятся контесты с задачами на исследование и оптимизацию. Интересен тем, что писать программу необязательно — даются только тестовые данные. Ответы можно расчитывать вручную, или просто гадать их на кофейной гуще.

Programming Praxis — сайт, где можно найти много интересных задач.

CheckIO — сайт с задачами для программистов всех уровней, который вы проходите в виде игры.

Ruby Quiz — сайт с задачами для программистов на Ruby, но решения можно писать и на других языках.

Prolog Problems — Подборка задач для программистов, использующих Prolog.

Сборник задач от СppStudio - задачи на С++, но их можно и на других языках.

Operation Go — практика написания кода на Go в форме браузерной игры.

Empire of Code — сайт для программистов, где необходимо писать код, реализующий стратегию и тактику виртуальных бойцов.

@data_analysis_ml
👍136🔥1👏1
🔊 AudioPaLM - нейросеть Google, которая умеет разговаривать, слушать и переводить.

AudioPaLM новая языковая модель, от Google, объединяющая две предыдущие модели: PaLM-2 и AudioLM. Эта мультимодальная архитектура позволяет модели распознавать речь, сохранять особенности интонации и акцента, осуществлять перевод на другие языки на основе коротких голосовых подсказок и делать транскрипцию.

При переводе некоторых языков, таких как итальянский и немецкий, модель имеет заметный акцент, а при переводе других, например французского, говорит с идеальным американским акцентом.

Матрица эмбеддингов предварительно обученной модели используется для моделирования набора аудио-токенов.

На вход в модель подается смешанная последовательность текстовых и аудио-токенов, и модель декодирует эти токены в текст или аудио. Аудио-токены в дальнейшем преобразуются обратно в исходное аудио с использованием слоев модели AudioLM.

🖥 Demo: https://google-research.github.io/seanet/audiopalm/examples/#asr-section

📕 Статья: https://arxiv.org/abs/2306.12925

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍32
📚 7 примеров современных алгоритмов машинного обучения с кодом и полезными статьями для изучения.

1. Трансформеры

Что почитать:
- Трансформеры
- The Animated Transformer
- Transformer в картинках
- Знакомство с трансформерами
- Обучение алгоритма генерации текста на основе трансформеров

2 Графовые нейронные сети (GNN)

Что почитать:
- Графовые нейронные сети
- Graph Neural Networks: просто на математическом
- Ищем скрытые смыслы. Графовые нейронные сети

3. XGBoost:

Что почитать:
- XGBoost в R: пошаговый пример
- Введение в XGBoost для прикладного машинного обучения
- Как работает нативная поддержка категорий в XGBoost

4. Вариационные автоэнкодеры (VAE)

Что почитать:
- Вариационные автоэнкодеры (VAE) для чайников

- Применение простых Автоэнкодерных архитектур в задачах поиска аномалий при максимально несбалансированных данных

5. AutoML

Что почитать:
- Автоматическое машинное обучение
- Что такое автоматизированное машинное обучение (AutoML)

6. Генеративно-состязательная сеть (GAN)

Что почитать:
- Генеративная состязательная сеть (GAN) для чайников
- Создание изображений с использованием генеративно-состязательных нейронных сетей (GAN) на примере ЭКГ
- Генеративно-состязательная сеть

7. Трансферное обучение

Что почитать:
- Трансферное обучение: почему deep learning стал доступнее
- Трансферное обучение с Т5

@data_analysis_ml
24👍6🔥2🥰1
🖥 Продвинутый парсинг данных на Python.

Сегодня многие веб-сайты используют JavaScript для динамической загрузки контента. Это может затруднить парсинг данных традиционными методами.

Тем не менее, существует ряд инструментов, которые могут помочь вам спарсить данные с сайтов, использующих JavaScript.

1. Парсинг динамических сайтов.

Вот пример того, как использовать Selenium для парсинга веб-сайта, перегруженного JavaScript:

from selenium import webdriver
from bs4 import BeautifulSoup

driver = webdriver.Firefox()
driver.get('https://www.example.com')

# Wait for the JavaScript to load
time.sleep(5)

# Get the page source
soup = BeautifulSoup(driver.page_source, 'html.parser')

# Extract the data
table = soup.find('table', attrs={'id':'dynamic-table'})
data = []
for row in table.find_all('tr'):
data.append([cell.text for cell in row.find_all('td')])

# Close the browser
driver.quit()


Этот код сначала откроет веб-сайт в браузере Firefox. Затем он будет ждать загрузки JavaScript. После загрузки JavaScript, мы получим исходный текст страницы и разберм его с помощью BeautifulSoup.

Наконец, мы извлечем данные из таблицы и закроем браузер.

2. Работа с CAPTCHA и IP-блокировками

Существует ряд инструментов, которые могут помочь вам решить CAPTCHA. Одним из популярных инструментов является Anti-Captcha: https://anti-captcha.com/.

import requests

url = 'https://anti-captcha.com/api/create'
data = {
'type': 'image',
'phrase': captcha_text
}

response = requests.post(url, data=data)

captcha_id = response.json()['captchaId']

url = 'https://anti-captcha.com/api/solve'
data = {
'captchaId': captcha_id
}

response = requests.post(url, data=data)

solution = response.json()['solution']


Этот код сначала отправляет текст CAPTCHA в Anti-Captcha. Затем Anti-Captcha вернет captchaId, который вы можете использовать для запроса решения.

Получив решение, вы можете использовать его для обхода CAPTCHA.

3. Пример того, как использовать прокси-сервис для изменения вашего IP-адреса:

import requests
import random

def get_proxy():
"""Gets a proxy from the proxy scrape service."""
response = requests.get('https://www.proxyscrape.com/')
data = response.json()
proxy = random.choice(data['results'])['ip'] + ':' + data['results'][0]['port']
return proxy

def scrape_website(proxy):
"""Scrape the website using the proxy."""
response = requests.get(url, proxies={'http': proxy, 'https': proxy})
soup = BeautifulSoup(response.text, 'html.parser')
data = []
for row in soup.find_all('tr'):
data.append([cell.text for cell in row.find_all('td')])
return data

if __name__ == '__main__':
proxy = get_proxy()
data = scrape_website(proxy)
print(data)

# Rotate the proxy
proxy = get_proxy()
data = scrape_website(proxy)
print(data)

Этот код сначала получит прокси от сервиса proxy scrape. Затем он будет использовать прокси для сканирования веб-сайта. Наконец, он выведет данные, которые были получены при парсинге.


@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍165🔥4
Создание инфографики с помощью Matplotlib

Создание захватывающих и привлекательных визуализаций данных имеет важное значение для работы с данными и для того, чтобы быть специалистом по Data Science. Это позволяет нам предоставлять читателям информацию в сжатой форме, которая помогает понимать данные без необходимости просмотра необработанных значений. Кроме того, мы можем использовать диаграммы и графики, чтобы рассказать увлекательную и интересную историю, отвечающую на один или несколько вопросов о данных.

В мире Python существует множество библиотек, которые позволяют специалистам по данным создавать визуализации, и одна из первых, с которой многие сталкиваются, начиная свое путешествие по Data Science — это matplotlib.

В этой статье мы рассмотрим создание инфографики с помощью matplotlib.

📌 Читать статью

@data_analysis_ml
👍13🔥54
🌍 20 библиотек Python для работы с пространственными данными.

Python стал доминирующим языком в области работы с геоданными, благодаря своей универсальности, обширной экосистеме библиотек и удобному синтаксису.

Эта подборка геопространственных библиотек Python содержит богатый инструментарий, для обработки и анализа данных ГИС.

1. ArcGIS API for Python (Esri) : Разработанная компанией Esri, эта библиотека предоставляет возможности GeoAI для пользователей ArcGIS.

2. Earth Engine API : API Earth Engine позволяет получить доступ к обширной коллекции геопространственных данных Google Earth Engine и выполнять задачи анализа с помощью Python.

3. TorchGeo (PyTorch): TorchGeo предоставляет инструменты и утилиты для работы с геопространственными данными в PyTorch.

4. fastai.vision (fast.ai): Хотя fastai.vision не предназначена специально для GeoAI, она является популярной библиотекой для задач глубокого обучения и компьютерного зрения, которая может быть использована для анализа геопространственных изображений.

5. arcpy (Esri) - это библиотека Python, предоставляемая Esri для работы с геопространственными данными на платформе ArcGIS. Она позволяет автоматизировать задачи геообработки и выполнять пространственный анализ.

6. PyQt (Riverbank Computing) - это набор утилиты Python для Qt. Его можно использовать для создания графических интерфейсов (GUI) для геопространственных приложений.

7. GeoPandas: расширяет функциональность Pandas, популярной библиотеки анализа данных, для работы с геопространственными данными. Она предоставляет высокоуровневый интерфейс для работы с векторными данными, такими как точки, линии и полигоны.

8. Rasterio - это библиотека для чтения и записи геопространственных растровых наборов данных. Она обеспечивает эффективный доступ к растровым данным и позволяет выполнять различные операции с геоданными.

9. GDAL (Open-Source Geospatial Foundation) - это мощная библиотека для чтения, записи и манипулирования геопространственными растровыми и векторными форматами данных.

10. Fiona - это Python API для чтения и записи геопространственных данных в различных форматах, включая Shapefiles и GeoJSON. Он хорошо интегрируется с другими библиотеками, такими как GeoPandas.

11. Shapely - это библиотека для геометрических операций в Python. Она позволяет создавать, манипулировать и анализировать геометрические объекты.

12. GeoPy - это библиотека которая позволяет преобразовывать адреса в географические координаты и наоборот. Библиотека для геокодирования и вычисления расстояний. Geopy также предоставляет функции для вычисления расстояний между точками на основе различных метрик расстояния.

13. PySAL: предоставляет широкий спектр методов пространственного анализа, включая пространственную автокорреляцию, кластеризацию и пространственную регрессию.

14. Pyproj - это интерфейс Python к библиотеке PROJ, которая предоставляет возможности преобразования координат. Она позволяет преобразовывать координаты между различными системами отсчета координат (CRS).

15. Rasterstats предоставляет инструменты для зонального статистического анализа наборов данных.

16. Geos - это библиотека C++, которая обеспечивает низкоуровневые геометрические операции, а библиотека Python Geos предлагает интерфейс Python к Geos. Она часто используется в сочетании с Shapely.

17. RSGISLib - имеет функции для обработки тепловых изображений, включая радиометрическую коррекцию, оценку температуры поверхности земли.

18. WhiteboxTools - это библиотека для геопространственного анализа и обработки данных. Она предлагает полный набор инструментов для таких задач, как анализ рельефа, гидрологическое моделирование и обработка данных LiDAR.

19.
GeoDjango - GeoDjango интегрируется с Django.

20. Xarray: Предназначен для работы с многомерными геопространственными наборами данных, предоставляет инструменты для манипулирования данными, анализа и визуализации.

@data_analysis_ml
👍14🔥43🤩1
🤗 Бесплатный курс по обработке естественного языка (NLP) от The Hugging Face

В этом курсе вы сможете узнать об обработке естественного языка с помощью библиотек из экосистемы Hugging Face.

Transformers
Datasets
Tokenizers
Accelerate

Здесь можно посмотреть видео о курсе.

🚀 Курс: https://huggingface.co/learn/nlp-course/chapter1/1

@data_analysis_ml
10🔥3👍2
🖥 Два продвинутых SQL-метода, которые могут значительно улучшить ваши запросы

SQL — это основа для каждого специалиста по работе с данными. Неважно, являетесь ли вы аналитиком данных, специалистом по данным или инженером по обработке данных, вам необходимо иметь четкое представление о том, как писать чистые и эффективные SQL-запросы.

Это связано с тем, что за любым тщательным анализом данных или любой сложной моделью машинного обучения стоят базовые данные, и эти данные должны откуда-то поступать.

Cегодня мы рассмотрим две новые техники SQL, которые вы можете добавить в свой набор инструментов, чтобы вывести ваши запросы на новый уровень. Эти методы называются Обобщённое табличное выражение (CTE) и Оконные функции.

Читать

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥21🥰1🥱1
🔥 Подборка обучающих каналов для программистов.

🖥 Machine learning
ai_ml – крупнейши канал по ии, нейросетям и науке о данных.
@bigdatai - Big Data

@machinelearning_ru – гайды по машинному обучению
@machinelearning_interview – подготовка к собеседованию мл.
@datascienceiot – бесплатные книги ds
@ArtificialIntelligencedl – ИИ

@machinee_learning – чат о машинном обучении
@datascienceml_jobs - вакансии ds, ml
@Machinelearning_Jobs - чат с вакансиями

🖥 Python
@pythonl - крупнейший канал для Python программистов.
@pro_python_code – учим python с ментором.
@python_job_interview – подготовка к Python собеседованию.
@python_testit - проверочные тесты на python
@pythonlbooks - современные книги Python
@python_djangojobs - работа для Python программистов
@python_django_work - чат обсуждения вакансий

#️⃣ c#
C# - канал для изучения C# на практике.
@csharp_cplus - C# чат
@csharp_1001_notes - инструменты C#

🖥 C++
@cpluspluc - C++ кодинг


🖥 SQL базы данных

@sqlhub - Повышение эффективности кода с грамотным использованием бд.
@chat_sql - чат изучения бд.

👣 Golang
@Golang_google - восхитительный язык от Google, мощный и перспективный.
@golang_interview - вопросы и ответы с собеседований по Go. Для всех уровней разработчиков.
@golangtests - интересные тесты и задачи GO
@golangl - чат изучающих Go
@GolangJobsit - отборные вакансии и работа GO
@golang_jobsgo - чат для ищущих работу.
@golang_books - полезные книги Golang
@golang_speak - обсуждение языка Go
@golangnewss - новости go

🖥 Linux
linux - kali linux ос для хакинга
linux chat - чат linux для обучения и помощи.
@linux_read - бесплатные книги linux

🖥 Javascript / front

@react_tg - - 40,14% разработчиков сайтов использовали React в 2022 году - это самая популярная библиотека для создания сайтов.
@javascript -канал для JS и FrontEnd разработчиков. Лучшие практики и примеры кода. Туториалы и фишки JS
@Js Tests - каверзные тесты JS
@hashdev - погружение в web разработку.
@javascriptjobjs - отборные вакансии и работа FrontEnd.
@jsspeak - чат поиска FrontEnd работы.

🖥 Java
@javatg - выучить Java с senior разработчиком на практике
@javachats - чат для ответов на вопросы по Java
@java_library - библиотека книг Java
@android_its - Android разработка
@java_quizes - тесты Java
@Java_workit - работа Java
@progersit - шпаргалки ит

👷‍♂️ IT работа

https://t.iss.one/addlist/_zyy_jQ_QUsyM2Vi -ит каналы по яп с вакансиями

🤡It memes
@memes_prog - ит-мемы

⚙️ Rust
@rust_code - Rust избавлен от болевых точек, которые есть во многих современных яп
@rust_chats - чат rust

📓 Книги

https://t.iss.one/addlist/HwywK4fErd8wYzQy - актуальные книги по всем яп

⭐️ Нейронные сети
@vistehno - chatgpt ведет блог, решает любые задачи и отвечает на любые ваши вопросы.
@aigen - сети для генерации картинок. видео, музыки и многого другого.
@neural – погружение в нейросети.

📢 English for coders

@english_forprogrammers - Английский для программистов

🖥PHP
@phpshka - PHP академия для программистов.

🖥 Devops
Devops - канал для DevOps специалистов.

🔥 Папки для программитов

https://t.iss.one/addlist/_FjtIq8qMhU0NTYy - машинное обучение, нейросети, глубокое обучение

https://t.iss.one/addlist/eEPya-HF6mkxMGIy - папка для Python разработчиков

https://t.iss.one/addlist/MUtJEeJSxeY2YTFi - папка для Golang разработчиков
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥32🤨1
⚡️ 7 основных способов для управления столбцами в Pandas

Когда дело доходит до анализа данных, Pandas является наиболее используемой библиотекой Python для обработки и подготовки данных для дальнейшего анализа и машинного обучения.

Реальность такова, что Pandas — действительно гибкая библиотека, и её можно использовать даже для преобразования форматов файлов.

1️⃣ Создание столбеца Pandas как Pandas Series
# Create a Pandas series
series = pd.Series([6, 12, 18, 24])

# Print Pandas series
print(series)

>>>

0 6
1 12
2 18
3 24
dtype: int64


2️⃣ Создание столбца Pandas как фрейма данных Pandas
import pandas as pd

# Create a Pandas column as a Pandas data frame
df = pd.DataFrame({'A': [1, 2, 3, 4]})

# Print Pandas data frame
print(df)

>>>

A
0 1
1 2
2 3
3 4


3️⃣ Создание столбеца Pandas как фрейм данных Pandas, используя NumPy.

import numpy as np
import pandas as pd

# Create a NumPy array
values = np.array([5, 10, 15, 20])

# Transform array into Pandas data frame
df = pd.DataFrame(values)

# Print data frame
print(df)

>>>

0
0 5
1 10
2 15
3 20



➡️ Читать продолжение

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍42
🖥 Не только Numpy и Pandas: раскрытие потенциала малоизвестных библиотек Python

Python — один из наиболее часто используемых языков программирования в мире, предоставляющий разработчикам широкий набор библиотек.

В любом случае, когда дело доходит до работе данными и научных вычислений, мы обычно думаем о таких библиотеках, как Numpy или Pandas.

В этой статье мы представляем 3 малоизвестные Python-библиотеки, которые могут вас заинтересовать при работе с данным.

1. Xarray

Xarray — это библиотека Python, которая расширяет функциональные возможности NumPy, давая нам возможность работать с помеченными массивами и наборами данных.

2. Dask

Dask — это гибкая библиотека параллельных вычислений, которая обеспечивает распределённые вычисления и параллелизм для крупномасштабной обработки данных.

3. SymPy

Если вам нужно выполнять сложные математические расчёты и вычисления и вы хотите использовать Python, рекомендуем попробовать библиотеку Sympy.

▪️Читать подробнее

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
13👍5🔥2