Ivan Begtin
7.99K subscribers
1.88K photos
3 videos
101 files
4.58K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В рубрике интересных открытых данных каталог ресурсов с общедоступными API по стандарту OAI-PHM [1]. Это 6099 репозиториев с публикациями, как правило университетов и академических институтов. OAI-PHM версии 2.0 - это довольно давний стандарт [2] для работы с любыми цифровыми репозиториями контента. Его поддерживают, как ПО для публикации научных статей, так и сервисы и ПО для публикации исследовательских данных.

Наиболее популярные продукты с поддержкой OAI-PHM - это DSpace и EPrints, активно используемые для публикации научных статей в открытом доступе. OAI-PHM поддерживает портал Zenodo [3] и многие другие. Фактически этот интерфейс есть по умолчанию у многих продуктов используемых для публикации цифровых материалов, но не все знают что он есть

Ссылки:
[1] https://www.openarchives.org/Register/BrowseSites
[2] https://www.openarchives.org/OAI/openarchivesprotocol.html
[3] https://developers.zenodo.org

#opendata #datasets #openapi #oai-phm
Те кто регулярно работает с научными данными знают о таком протоколе как OAI-PMH, это стандарт описывающий интерфейсы обмена данными для любых цифровых коллекций и метаданных. Активно применяемый в библиотечной, академической и архивной среде . Например, такие движки как DSpace или EPrints используются университетами для публикации научных работ, а эти материалы доступны по протоколу OAI-PMH. Его используют различные агрегаторы научных работ такие как BASE, OpenAIRE и Google Scholar.

Для индексации данных достаточно, казалось бы, было бы реализовать индексирование OAI-PMH и всего лишь отфильтровать результаты извлекая из них только записи относящиеся к данным, геоданным и тд. Это было бы самым простым и, с первого взгляда, очевидным решением, но, вместо него в Dateno сейчас применяется принциально другой подход в написании парсеров под несколько десятков разных API и интерфейсов под разные типы ПО . Почему это так?

1. OAI-PMH поддерживается, преимущественно, научными каталогами данных и некоторыми каталогами геоданных. Это существенная часть, но далеко не все порталы открытых данных. Если поддержать только его, то это означает создать очередной поисковик по научным данным которых уже много есть.
2. Это довольно старый протокол не позволяющий делать массовую выгрузку метаданных, с со множеством ограничений. Например, в OAI-PMH нет понятия файлов/ресурсов и если в каталоге данных больше одного файла, то через OAI-PMH они не будут видны. Поэтому каталоги типа OpenAIRE содержат ссылки на карточки датасетов, но не файлы внутри.
3. Существующие инструменты харвестинга OAI-PMH также часто архаичные, чаще пишут что-то свое. Написать под него парсер несложно, в любом случае.

Из всего этого самое критичное - отсутствие ссылок на файлы. Во внутренних метриках качества Dateno отсутствие ссылок на файлы у датасета пессимизирует его в выдаче и, в принципе, признак низкого качества самого датасета. Поэтому если сейчас добавить наборы данных из каталогов с OAI-PHM, это это глобально снизит качество поиска в Dateno и харвестинг OAI-PHM отложен пока есть более качественные каталоги данных. К большой радости, многие каталоги поддерживают OAI-PHM исключительно как legacy, для поисковиков по научным работам и, параллельно, имеют в реализации от одного до нескольких других API.

#opendata #datasets #dateno #data #datacatalogs #oai-pmh