Data Place
561 subscribers
45 photos
2 files
213 links
Канал про данные, науку о данных и про обучение работе с данными.
Автор: Ирина Радченко, доцент, канд. техн. наук, любитель данных и Computer Science, в Телеграме -- @dadaistka
Download Telegram
Forwarded from Ivan Begtin (Ivan Begtin)
Для тех кто любит работать с данными, но всё что касается государственных данных надоело и вообще хочется быть поближе к технологиям и исследованиям подборка ссылок.
GHTorrent [1] - база всего что есть в открытом доступе в Github'е собранное через их открытое API. Распространяется в виде дампов в MySQL и MongoDB, по 70 гигабайт каждый дамп

DNSCensus [2] - огромная база DNS записей на 2013 год, более 2.5 миллиардов записей объёмом в 157 гигабайт.

911Datasets [3] коллекция наборов данных по теме терракта 11 сентября 2001 года в США.

Wikimedia Dumps [4] - десятки терабайт дампов Википедии и других проектов Викимедии

LibGen Torrents [5] более миллиона научных книг через торренты

Archive.org datasets [6] коллекции наборов данных загруженные в Интернет-архив

Academic Torrents [7] более 25 терабайт научных данных раздаваемых через торренты

Ссылки:
[1] https://ghtorrent.org/
[2] https://dnscensus2013.neocities.org/index.html
[3] https://911datasets.org/index.php/Main_Page
[4] https://libgen.io/libgen/repository_torrent/
[5] https://meta.wikimedia.org/wiki/Data_dump_torrents
[6] https://archive.org/search.php?query=datasets
[7] https://academictorrents.com

#opendata #datasets
Радиология Москвы: Репозиторий открытых данных для машинного обучения и «искусственного интеллекта»

https://medradiology.moscow/iskusstvennyy-intellekt

#CT #Radiology #OpenData
Forwarded from Ivan Begtin (Ivan Begtin)
Оказывается Гугл открыли поиск по датасетам (Google Dataset Search) [1] пока в бета версии, но уже работает.
Его поиск основан на тегах dataset [2] с помощью которых описываются структурированные данные.

Плюс в том что это позволяет Гуглу индексировать все данные описанные таким образом через атрибуты typeof="dcat:Dataset" или в коде <script type="application/ld+json">. В инструкциях есть примеры [4] того как это делается.

Минус в том что данные очень сконцентрированы в порталах у которых большинства есть стандартизованное API, в основном, API продукта CKAN. Например, только в Res3Data [5] более 2000 каталогов. Большая их часть не использует тэги гугла для индексирования и живут со своим правилам.

В принципе создавая поиск по датасетам важно помнить о том что есть 3 условных категории пользователей:
- общественно-политические
- коммерческие
- научные / академические

Можно их свести к общему знаменателю, но всё же с учётом их потребностей. И, на мой взгляд, важнее уметь индексировать цифровые репозитории через существующие API, чем навязывать публикацию тегом dataset. Во всяком случае краткосрочно, а долгосрочно конечно всё делается правильно.


Ссылки:
[1] https://toolbox.google.com/datasetsearch
[2] https://developers.google.com/search/docs/data-types/dataset
[3] https://search.google.com/structured-data/testing-tool
[4] https://productforums.google.com/forum/#!topic/webmasters/nPq4BW6iPIA
[5] https://www.re3data.org/

#opendata #google
Forwarded from Ivan Begtin (Ivan Begtin)
Для тех кто интересуется данными не только с точки зрения Data Science, но и в более прикладных задачах работы с данными относящимися к дата инженерии.

Несколько полезных ресурсов:
- Data Engineering Cookbook [1] - поваренная книга по инженерии данных, много о том как системы работы с данными разворачиваются и используются
- Awesome Data Engineering - неплохой список ссылок на проекты по инженерии данных на Github
- Data Engineering How-to [3] - подборка ссылок на курсы и иные ресурсы по инжинерии данных
- What is Data Engineer [4] - ответ на вопрос кто такой инженер данных (для тех кто ещё об этом не знает)
- Who Is a Data Engineer & How to Become a Data Engineer? - подробно о том кто такие инженеры данных

В России вот уже много лет ажиотажный спрос на data science, но подготовка дата инженеров ушла на 2-й и 3-й план и это особенно чувствуется когда вопросы о том где взять данные и как настроить инфраструктуру звучат всё чаще.

То чем занимаюсь я лично - это чистая дата инженерия, с очень и очень небольшой долей науки о данных. Найти данные, создать инфраструктуру их обработки и очистки - всё это должен уметь дата инженер. Если Вы знаете хорошие курсы по этой теме на русском языке, поделитесь ими, например в чате.

Ссылки:
[1] https://github.com/andkret/Cookbook
[2] https://github.com/igorbarinov/awesome-data-engineering
[3] https://github.com/adilkhash/Data-Engineering-HowTo
[4] https://towardsdatascience.com/who-is-a-data-engineer-how-to-become-a-data-engineer-1167ddc12811

#data #opendata #dataengineering #dataengineer
Forwarded from Ivan Begtin (Ivan Begtin)
Git для данных - это давняя мечта многих разработчиков и дата-инженеров. Как организовать хранение и передачу данных так чтобы было похоже на систему контроля версий и учитывало объёмы и изменения в наборах данных.

Несколько проектов существуют для решения этой задачи, например такие:
- Dolt [1] [2] - умеет многое, объединять данные, сравнивать, делать таблицы сравнения, разрешать конфликты и тд. плюс многое из возможностей git'а
- Daff [3] позволяет работать с таблицами CSV и также сравнивать их, объединять и тд. Интегрирован с git
- DVC [4] система контроля версиями для проектов по машинному обучению. Довольно популярна и умеет многое связанное с проектами именно по ML


Ссылки:
[1] https://github.com/liquidata-inc/dolt
[2] https://www.dolthub.com/
[3] https://github.com/paulfitz/daff
[4] https://dvc.org/

#opendata #data #git #datatools
Я вчера провела вебинар для Skills Lab НИУ ВШЭ на тему того, как и где искать окрытые данные, а также как размещать и аннотировать данные, чтобы на них можно было сослаться.
Презентацию можно посмотреть и скачать на Slideshare:
https://www.slideshare.net/iradche/ss-238640185
#OpenData