Big Data AI
16.8K subscribers
819 photos
97 videos
19 files
822 links
@haarrp - админ

Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям

@data_analysis_ml - анализ данных

@ai_machinelearning_big_data

@itchannels_telegram - важное для программиста

РКН: clck.ru/3Fmqxe
Download Telegram
📌 Шпаргалка по pandas, библиотеке на языке Python для обработки и анализа данных

#cheatsheet #pandas

@bigdatai
🔥9👍73
⭐️ Датасеты Недвижимость

Датасеты от Росреестра


Данные о размере арендной платы за объекты недвижимости в разрезе территориальной принадлежности (в отношении договоров аренды, подлежащих государственной регистрации в соответствии с действующим законодательством) в разрезе территориальной принадлежности

Данные о кадастровой стоимости объектов недвижимости в разрезе территориальной принадлежности
Данные о ценах регистрируемых сделок (по отчуждению) с объектами недвижимости в разрезе территориальной принадлежности

Реформа ЖКХ.

Демография в России: объединенные панельные данные за 1990-2019 годы
Крупные города России: объединенные данные по основным социально-экономическим показателям за 1985-2019 гг.
Список кадастровых кварталов России на конец 2021 года

Публичная кадастровая карта России

Около 11 миллионов объявлений недвижимости в России за 2021 год

Около 540 тысяч объявлений недвижимости в России за 2018 - 2021 года.

API для доступа к объявлениям с avito.ru

Парсер объявлений недвижимости России

Данные от NextGis

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍153🔥3
🔥 Бесплатный курс Машинное обучение с подкреплением от МФТИ

Курс посвящен одному из центральных в искусственном интеллекте направлений: обучению агента взаимодействовать со средой, максимизируя свою целевую функцию. Вы кзнаете как классические подходы на основе функции полезности и градиента стратегии, так и современные темы по повышению эффективности исследования среды, взаимодействия с планированием, использованием памяти и иерархических подходов.

Курс состоит из:
- Теоретических и практических материалов для начинающих и продвинутых разработчиков.
- Полезных лекций и статей .
- Лучших лекций Дэвида Сильвера, книги Саттона и Барто из OpenAI, и статей DeepMind за 2019-2022 гг.

Материалы:
- Слайды в формате PDF и видеолекции по каждой теме, мастер-классы Colab и видеолекции на русском языке.

👍 Сохраняйте себе, чтобы не потерять

➡️ Курс

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥32
⭐️ Датасеты фотографии людей

Generated Photos — первый крупный открытый датасет, состоящий из изображений лиц, сгенерированных нейросетью
generated.photos

Данные с сайта министерства обороны о ветеранах. Содержат примерно миллион записей.
https://foto.pamyat-naroda.ru/

People-Art - это набор изображений людей из фотографий и произведений искусства
github.com/BathVisArtData/PeopleArt

github.com/BathVisArtData/PhotoArt50

Набор из 13 тысяч размеченных изображений лиц людей
https://vis-www.cs.umass.edu/lfw/

Human3.6M Трехмерные человеческие позы и соответствующие изображения
https://drive.google.com/drive/folders/1kgVH-GugrLoc9XyvP6nRoaFpw3TmM5xK

https://www.stubbornhuang.com/511/

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍3🔥2
📌 Шпаргалки по matplotlib и bokeh

Одни из самых популярных библиотек для визуализации данных на Python.

#cheatsheet #python
👍94🔥4
Шпаргалка по науке о данных

Python for Data Science— это одностраничная шпаргалка по Python для изучения основ науки о данных. Она охватывает типы данных и преобразования, переменные и вычисления, строки и методы операций, списки, алгоритмы машинного обучения и другое.

📌 Смотреть шпаргалку

@bigdatai
👍9🔥32💩1
⬇️ Каталог датасетов для бесплатного скачивания

https://labelme.ru/datasets-catalog

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥21
Forwarded from Machinelearning
🌐 SSL4EO-S12: A Large-Scale Multi-Modal, Multi-Temporal Dataset for Self-Supervised Learning in Earth Observation

Датасет наблюдение за Землей и преобученнная модель из 251 079 мест по всему миру.

🖥 Github: https://github.com/zhu-xlab/ssl4eo-s12

📝 Paper: https://arxiv.org/abs/2211.07044v1

🖥 Dataset: https://mediatum.ub.tum.de/1660427

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍3🔥1
🖥 Памятка по алгоритмам машинного обучения
Краткое справочное руководство по 5 распространенным алгоритмам

➡️ Medium

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍81🔥1
📌 Подборка шпаргалок по matplotlib от лёгкого до высокого уровня

#cheatsheet #python

@bigdatai
👍175🔥2🤩1
❤️ 100+ шпаргалок для аналитиков данных и data scientists

Шпаргалки помогут:

- подготовиться к экзамену
- подготовиться к собеседованию
- в повседневной работе – быстро вспомнить нужную информацию

Сохраняйте себе, чтобы не потерять

➡️ Читать дальше

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍93👏3🔥2
⭐️ Датасеты Музыка

Специально подобранная коллекция классической музыки с пометками.
homes.cs.washington.edu/~thickstn/musicnet.html


Набор данных « Миллион песен» свободно доступная коллекция звуковых функций и метаданных для миллиона современных популярных музыкальных треков.
millionsongdataset.com

База данных русской речи : записанная в 1996-1998 годах, база данных русской речи STC была создана для исследования индивидуальной вариативности говорящего и проверки алгоритмов распознавания говорящего.
catalogue.elra.info/en-us/repository/browse/ELRA-S0050/

Набор данных: CSS10 - это набор наборов данных одного диктора на русском языке для 10 языков, включая русский.
kaggle.com/bryanpark/russian-single-speaker-speech-dataset

M-AILABS Speech Dataset : большой набор аудиоданных на русском языке, свободно используемый в качестве обучающих данных для распознавания и синтеза речи.
caito.de/2019/01/the-m-ailabs-speech-dataset/

Набор данных Russian Open Speech To Text (STT / ASR) : набор данных, содержащий более 4000 разнообразных, междоменных речей для обучения моделей преобразования речи в текст на русском языке.
towardsdatascience.com/russian-open-speech-to-text-stt-asr-dataset-4c4e5d6a292c

Крупномасштабный набор данных вручную аннотированных аудиособытий.
research.google.com/audioset


@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍3🔥1
🖥 Mimesis – Инструмент для генерации фейковых данных в больших колличествах

Может использоваться для создания тестовых баз данных, данных в JSON или XML формате

#Python #Security #Data

pip install mimesis

🖥 Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍32
✔️ 30 самых крупных датасетов для машинного обучения в TensorFlow

TensorFlow — это одна из наиболее популярных открытых библиотек с датасетами для задач машинного обучения. Разработкой TensorFlow занимаются исследователи из Google Brain. Библиотека предоставляет доступ к датасетам с изображениями, видео, аудио и текстами.

➡️ Датасеты

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥42
🖥 Парсинг Яндекс Карт или как собрать целевую аудиторию

Перед тем как перейти к парсингу Яндекс Карт, расскажу, какую задачу я хотел решить.

Я решил узнать, кто является целевой аудиторией для сервисов мультиссылок, например Taplink. Если зайти на сайт Taplink'a[ссылка удалена модератором], то они там показывают сценарии использования сервиса и пишут о категориях клиентов, на которые они ориентируются. Это “популярные люди”, “бизнес”, “интернет-магазин” и “каждый”. На лендинге немало примеров работ для оффлайн бизнеса, поэтому появилась идея проверить, используют ли вообще эти категории бизнеса сервисы мультиссылок. И для этого пригодится информация с Яндекс Карт.

➡️ Читать дальше
🖥 Код парсера
🖥 Ноутбук для анализа сайтов организаций

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72🔥2