Инфокультура
898 subscribers
249 photos
4 videos
4 files
814 links
Новости Информационной культуры. https://infoculture.ru
Download Telegram
Forwarded from Ivan Begtin (Ivan Begtin)
Мало кто знает что многие файлы с данными находятся не на порталах открытых данных, не в поисковиках вроде Google Dataset Search или DataCite, а на крупнейших хостингах кода таких как Github.

Поисковая система Github'а поддерживает запросы с указанием части названия файла, простым поиском можно найти десятки миллионов файлов в форматах .json, .csv, .xml, .sqlite.

Пример запроса filename:.csv [1] конечно, надо помнить что у Github'а нет сбора метаданных как в других поисковиках, но, при этом, объём хранимых данных количественно превосходит все остальные источники вместе взятые. Хотя и по объёму, наверное, меньше чем реестр открытых данных Amazon.

Как бы то ни было - это бесценный исследовательский материал, полезный всем кто изучает то какие данные существуют и из чего они состоят.

Также у Github'а много других, расширенных опций для поиска [2] которыми, на удивление, многие редко пользуются

Ссылки:
[1] https://github.com/search?q=filename%3A.csv&type=code
[2] https://github.com/search/advanced

#opendata #github #opensource
👍2🎉1