Forwarded from Ivan Begtin (Ivan Begtin)
Для тех кто любит работать с данными, но всё что касается государственных данных надоело и вообще хочется быть поближе к технологиям и исследованиям подборка ссылок.
GHTorrent [1] - база всего что есть в открытом доступе в Github'е собранное через их открытое API. Распространяется в виде дампов в MySQL и MongoDB, по 70 гигабайт каждый дамп
DNSCensus [2] - огромная база DNS записей на 2013 год, более 2.5 миллиардов записей объёмом в 157 гигабайт.
911Datasets [3] коллекция наборов данных по теме терракта 11 сентября 2001 года в США.
Wikimedia Dumps [4] - десятки терабайт дампов Википедии и других проектов Викимедии
LibGen Torrents [5] более миллиона научных книг через торренты
Archive.org datasets [6] коллекции наборов данных загруженные в Интернет-архив
Academic Torrents [7] более 25 терабайт научных данных раздаваемых через торренты
Ссылки:
[1] https://ghtorrent.org/
[2] https://dnscensus2013.neocities.org/index.html
[3] https://911datasets.org/index.php/Main_Page
[4] https://libgen.io/libgen/repository_torrent/
[5] https://meta.wikimedia.org/wiki/Data_dump_torrents
[6] https://archive.org/search.php?query=datasets
[7] https://academictorrents.com
#opendata #datasets
GHTorrent [1] - база всего что есть в открытом доступе в Github'е собранное через их открытое API. Распространяется в виде дампов в MySQL и MongoDB, по 70 гигабайт каждый дамп
DNSCensus [2] - огромная база DNS записей на 2013 год, более 2.5 миллиардов записей объёмом в 157 гигабайт.
911Datasets [3] коллекция наборов данных по теме терракта 11 сентября 2001 года в США.
Wikimedia Dumps [4] - десятки терабайт дампов Википедии и других проектов Викимедии
LibGen Torrents [5] более миллиона научных книг через торренты
Archive.org datasets [6] коллекции наборов данных загруженные в Интернет-архив
Academic Torrents [7] более 25 терабайт научных данных раздаваемых через торренты
Ссылки:
[1] https://ghtorrent.org/
[2] https://dnscensus2013.neocities.org/index.html
[3] https://911datasets.org/index.php/Main_Page
[4] https://libgen.io/libgen/repository_torrent/
[5] https://meta.wikimedia.org/wiki/Data_dump_torrents
[6] https://archive.org/search.php?query=datasets
[7] https://academictorrents.com
#opendata #datasets
Радиология Москвы: Репозиторий открытых данных для машинного обучения и «искусственного интеллекта»
https://medradiology.moscow/iskusstvennyy-intellekt
#CT #Radiology #OpenData
https://medradiology.moscow/iskusstvennyy-intellekt
#CT #Radiology #OpenData
Forwarded from Ivan Begtin (Ivan Begtin)
Оказывается Гугл открыли поиск по датасетам (Google Dataset Search) [1] пока в бета версии, но уже работает.
Его поиск основан на тегах dataset [2] с помощью которых описываются структурированные данные.
Плюс в том что это позволяет Гуглу индексировать все данные описанные таким образом через атрибуты typeof="dcat:Dataset" или в коде <script type="application/ld+json">. В инструкциях есть примеры [4] того как это делается.
Минус в том что данные очень сконцентрированы в порталах у которых большинства есть стандартизованное API, в основном, API продукта CKAN. Например, только в Res3Data [5] более 2000 каталогов. Большая их часть не использует тэги гугла для индексирования и живут со своим правилам.
В принципе создавая поиск по датасетам важно помнить о том что есть 3 условных категории пользователей:
- общественно-политические
- коммерческие
- научные / академические
Можно их свести к общему знаменателю, но всё же с учётом их потребностей. И, на мой взгляд, важнее уметь индексировать цифровые репозитории через существующие API, чем навязывать публикацию тегом dataset. Во всяком случае краткосрочно, а долгосрочно конечно всё делается правильно.
Ссылки:
[1] https://toolbox.google.com/datasetsearch
[2] https://developers.google.com/search/docs/data-types/dataset
[3] https://search.google.com/structured-data/testing-tool
[4] https://productforums.google.com/forum/#!topic/webmasters/nPq4BW6iPIA
[5] https://www.re3data.org/
#opendata #google
Его поиск основан на тегах dataset [2] с помощью которых описываются структурированные данные.
Плюс в том что это позволяет Гуглу индексировать все данные описанные таким образом через атрибуты typeof="dcat:Dataset" или в коде <script type="application/ld+json">. В инструкциях есть примеры [4] того как это делается.
Минус в том что данные очень сконцентрированы в порталах у которых большинства есть стандартизованное API, в основном, API продукта CKAN. Например, только в Res3Data [5] более 2000 каталогов. Большая их часть не использует тэги гугла для индексирования и живут со своим правилам.
В принципе создавая поиск по датасетам важно помнить о том что есть 3 условных категории пользователей:
- общественно-политические
- коммерческие
- научные / академические
Можно их свести к общему знаменателю, но всё же с учётом их потребностей. И, на мой взгляд, важнее уметь индексировать цифровые репозитории через существующие API, чем навязывать публикацию тегом dataset. Во всяком случае краткосрочно, а долгосрочно конечно всё делается правильно.
Ссылки:
[1] https://toolbox.google.com/datasetsearch
[2] https://developers.google.com/search/docs/data-types/dataset
[3] https://search.google.com/structured-data/testing-tool
[4] https://productforums.google.com/forum/#!topic/webmasters/nPq4BW6iPIA
[5] https://www.re3data.org/
#opendata #google
Google for Developers
Dataset Structured Data | Google Search Central | Documentation | Google for Developers
Learn how to add schema.org Dataset structured data. Implementing this can help Google recognize the dataset creator, distribution format, and other information.
Forwarded from Ivan Begtin (Ivan Begtin)
Для тех кто интересуется данными не только с точки зрения Data Science, но и в более прикладных задачах работы с данными относящимися к дата инженерии.
Несколько полезных ресурсов:
- Data Engineering Cookbook [1] - поваренная книга по инженерии данных, много о том как системы работы с данными разворачиваются и используются
- Awesome Data Engineering - неплохой список ссылок на проекты по инженерии данных на Github
- Data Engineering How-to [3] - подборка ссылок на курсы и иные ресурсы по инжинерии данных
- What is Data Engineer [4] - ответ на вопрос кто такой инженер данных (для тех кто ещё об этом не знает)
- Who Is a Data Engineer & How to Become a Data Engineer? - подробно о том кто такие инженеры данных
В России вот уже много лет ажиотажный спрос на data science, но подготовка дата инженеров ушла на 2-й и 3-й план и это особенно чувствуется когда вопросы о том где взять данные и как настроить инфраструктуру звучат всё чаще.
То чем занимаюсь я лично - это чистая дата инженерия, с очень и очень небольшой долей науки о данных. Найти данные, создать инфраструктуру их обработки и очистки - всё это должен уметь дата инженер. Если Вы знаете хорошие курсы по этой теме на русском языке, поделитесь ими, например в чате.
Ссылки:
[1] https://github.com/andkret/Cookbook
[2] https://github.com/igorbarinov/awesome-data-engineering
[3] https://github.com/adilkhash/Data-Engineering-HowTo
[4] https://towardsdatascience.com/who-is-a-data-engineer-how-to-become-a-data-engineer-1167ddc12811
#data #opendata #dataengineering #dataengineer
Несколько полезных ресурсов:
- Data Engineering Cookbook [1] - поваренная книга по инженерии данных, много о том как системы работы с данными разворачиваются и используются
- Awesome Data Engineering - неплохой список ссылок на проекты по инженерии данных на Github
- Data Engineering How-to [3] - подборка ссылок на курсы и иные ресурсы по инжинерии данных
- What is Data Engineer [4] - ответ на вопрос кто такой инженер данных (для тех кто ещё об этом не знает)
- Who Is a Data Engineer & How to Become a Data Engineer? - подробно о том кто такие инженеры данных
В России вот уже много лет ажиотажный спрос на data science, но подготовка дата инженеров ушла на 2-й и 3-й план и это особенно чувствуется когда вопросы о том где взять данные и как настроить инфраструктуру звучат всё чаще.
То чем занимаюсь я лично - это чистая дата инженерия, с очень и очень небольшой долей науки о данных. Найти данные, создать инфраструктуру их обработки и очистки - всё это должен уметь дата инженер. Если Вы знаете хорошие курсы по этой теме на русском языке, поделитесь ими, например в чате.
Ссылки:
[1] https://github.com/andkret/Cookbook
[2] https://github.com/igorbarinov/awesome-data-engineering
[3] https://github.com/adilkhash/Data-Engineering-HowTo
[4] https://towardsdatascience.com/who-is-a-data-engineer-how-to-become-a-data-engineer-1167ddc12811
#data #opendata #dataengineering #dataengineer
GitHub
GitHub - andkret/Cookbook: The Data Engineering Cookbook
The Data Engineering Cookbook. Contribute to andkret/Cookbook development by creating an account on GitHub.
Forwarded from Ivan Begtin (Ivan Begtin)
Git для данных - это давняя мечта многих разработчиков и дата-инженеров. Как организовать хранение и передачу данных так чтобы было похоже на систему контроля версий и учитывало объёмы и изменения в наборах данных.
Несколько проектов существуют для решения этой задачи, например такие:
- Dolt [1] [2] - умеет многое, объединять данные, сравнивать, делать таблицы сравнения, разрешать конфликты и тд. плюс многое из возможностей git'а
- Daff [3] позволяет работать с таблицами CSV и также сравнивать их, объединять и тд. Интегрирован с git
- DVC [4] система контроля версиями для проектов по машинному обучению. Довольно популярна и умеет многое связанное с проектами именно по ML
Ссылки:
[1] https://github.com/liquidata-inc/dolt
[2] https://www.dolthub.com/
[3] https://github.com/paulfitz/daff
[4] https://dvc.org/
#opendata #data #git #datatools
Несколько проектов существуют для решения этой задачи, например такие:
- Dolt [1] [2] - умеет многое, объединять данные, сравнивать, делать таблицы сравнения, разрешать конфликты и тд. плюс многое из возможностей git'а
- Daff [3] позволяет работать с таблицами CSV и также сравнивать их, объединять и тд. Интегрирован с git
- DVC [4] система контроля версиями для проектов по машинному обучению. Довольно популярна и умеет многое связанное с проектами именно по ML
Ссылки:
[1] https://github.com/liquidata-inc/dolt
[2] https://www.dolthub.com/
[3] https://github.com/paulfitz/daff
[4] https://dvc.org/
#opendata #data #git #datatools
GitHub
GitHub - dolthub/dolt: Dolt – Git for Data
Dolt – Git for Data. Contribute to dolthub/dolt development by creating an account on GitHub.
Я вчера провела вебинар для Skills Lab НИУ ВШЭ на тему того, как и где искать окрытые данные, а также как размещать и аннотировать данные, чтобы на них можно было сослаться.
Презентацию можно посмотреть и скачать на Slideshare:
https://www.slideshare.net/iradche/ss-238640185
#OpenData
Презентацию можно посмотреть и скачать на Slideshare:
https://www.slideshare.net/iradche/ss-238640185
#OpenData
www.slideshare.net
Как и где искать открытые данные?
Как и где искать открытые данные? - Download as a PDF or view online for free