Big Data AI
16.8K subscribers
820 photos
98 videos
19 files
824 links
@haarrp - админ

Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям

@data_analysis_ml - анализ данных

@ai_machinelearning_big_data

@itchannels_telegram - важное для программиста

РКН: clck.ru/3Fmqxe
Download Telegram
Шпаргалка по науке о данных

Python for Data Science— это одностраничная шпаргалка по Python для изучения основ науки о данных. Она охватывает типы данных и преобразования, переменные и вычисления, строки и методы операций, списки, алгоритмы машинного обучения и другое.

📌 Смотреть шпаргалку

@bigdatai
👍9🔥32💩1
⬇️ Каталог датасетов для бесплатного скачивания

https://labelme.ru/datasets-catalog

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥21
Forwarded from Machinelearning
🌐 SSL4EO-S12: A Large-Scale Multi-Modal, Multi-Temporal Dataset for Self-Supervised Learning in Earth Observation

Датасет наблюдение за Землей и преобученнная модель из 251 079 мест по всему миру.

🖥 Github: https://github.com/zhu-xlab/ssl4eo-s12

📝 Paper: https://arxiv.org/abs/2211.07044v1

🖥 Dataset: https://mediatum.ub.tum.de/1660427

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍3🔥1
🖥 Памятка по алгоритмам машинного обучения
Краткое справочное руководство по 5 распространенным алгоритмам

➡️ Medium

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍81🔥1
📌 Подборка шпаргалок по matplotlib от лёгкого до высокого уровня

#cheatsheet #python

@bigdatai
👍175🔥2🤩1
❤️ 100+ шпаргалок для аналитиков данных и data scientists

Шпаргалки помогут:

- подготовиться к экзамену
- подготовиться к собеседованию
- в повседневной работе – быстро вспомнить нужную информацию

Сохраняйте себе, чтобы не потерять

➡️ Читать дальше

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍93👏3🔥2
⭐️ Датасеты Музыка

Специально подобранная коллекция классической музыки с пометками.
homes.cs.washington.edu/~thickstn/musicnet.html


Набор данных « Миллион песен» свободно доступная коллекция звуковых функций и метаданных для миллиона современных популярных музыкальных треков.
millionsongdataset.com

База данных русской речи : записанная в 1996-1998 годах, база данных русской речи STC была создана для исследования индивидуальной вариативности говорящего и проверки алгоритмов распознавания говорящего.
catalogue.elra.info/en-us/repository/browse/ELRA-S0050/

Набор данных: CSS10 - это набор наборов данных одного диктора на русском языке для 10 языков, включая русский.
kaggle.com/bryanpark/russian-single-speaker-speech-dataset

M-AILABS Speech Dataset : большой набор аудиоданных на русском языке, свободно используемый в качестве обучающих данных для распознавания и синтеза речи.
caito.de/2019/01/the-m-ailabs-speech-dataset/

Набор данных Russian Open Speech To Text (STT / ASR) : набор данных, содержащий более 4000 разнообразных, междоменных речей для обучения моделей преобразования речи в текст на русском языке.
towardsdatascience.com/russian-open-speech-to-text-stt-asr-dataset-4c4e5d6a292c

Крупномасштабный набор данных вручную аннотированных аудиособытий.
research.google.com/audioset


@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍3🔥1
🖥 Mimesis – Инструмент для генерации фейковых данных в больших колличествах

Может использоваться для создания тестовых баз данных, данных в JSON или XML формате

#Python #Security #Data

pip install mimesis

🖥 Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍32
✔️ 30 самых крупных датасетов для машинного обучения в TensorFlow

TensorFlow — это одна из наиболее популярных открытых библиотек с датасетами для задач машинного обучения. Разработкой TensorFlow занимаются исследователи из Google Brain. Библиотека предоставляет доступ к датасетам с изображениями, видео, аудио и текстами.

➡️ Датасеты

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥42
🖥 Парсинг Яндекс Карт или как собрать целевую аудиторию

Перед тем как перейти к парсингу Яндекс Карт, расскажу, какую задачу я хотел решить.

Я решил узнать, кто является целевой аудиторией для сервисов мультиссылок, например Taplink. Если зайти на сайт Taplink'a[ссылка удалена модератором], то они там показывают сценарии использования сервиса и пишут о категориях клиентов, на которые они ориентируются. Это “популярные люди”, “бизнес”, “интернет-магазин” и “каждый”. На лендинге немало примеров работ для оффлайн бизнеса, поэтому появилась идея проверить, используют ли вообще эти категории бизнеса сервисы мультиссылок. И для этого пригодится информация с Яндекс Карт.

➡️ Читать дальше
🖥 Код парсера
🖥 Ноутбук для анализа сайтов организаций

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72🔥2
📌 Шпаргалка по математической статистике (пригодится в машинном обучении)

Основные определения и формулы
Статистические тесты с примерами
Теория вероятностей
Таблицы критических значений

#cheatsheet
🔥115🤨4👍2