Ivan Begtin
8K subscribers
1.91K photos
3 videos
101 files
4.61K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Где искать данные исследователям?

- Mendeley Data - поисковик агрегатор по 26.9 миллионам наборов данных для исследователей от Elsevier, также отдают весь реестр по спецификации OAI-PMH
- DataCite Search - поиск по наборам данных публикуемых с DOI DataCite, около 8 миллионов наборов данных
- Dimensions Datasets - база Dimensions.ai, более 8 миллионов наборов данных проиндексированных CrossRef и упоминаемых в научных публикациях
- Google Dataset Search - поиск по наборам данных Google, использует поиск по объектам размеченным на страницах как Schema.org Dataset, много мусорных результатов из-за SEO оптимизаторов
- Re3Data - каталог научных репозиториев для данных по всему миру
- OpenAIRE - европейская система поиска по результатам научных исследований, включая исследовательские данные
- Dataverse - более 67 инсталляций ПО Dataverse используемых как научные репозитории для данных ведущими университетами по всему миру

Главный залог существования поиска по научным данным - это доступность данных академических центров в форматах пригодных для повторного использования и документирование метаданных, в первую очередь, в формате OAI-PHM

#opendata #researchdata
В рубрике как это устроено у них B2Find EUDAT [1] поисковик по научным данным в европейских репозиториях данных. Охватывает более 1 миллиона наборов данных, позволяет фильтровать по:
- языку
- временному промежутку
- формату
- организации
- году публикации
- ключевым словам
- научной дисциплине
и, в общей сложности, более чем 20 критериям.

Работает на базе движка с открытым кодом CKAN и использует его агрегационные механизмы.

Крупнейшие индексируемые репозитории:
- Nordic Archaeology [2]
- PANGAEA [3]
- DANS-EASY [4]
Всего репозиториев 36 на сегодняшний день.

Для агрегации используются стандарты метаданных:
- Datacite
- DublinCore
- OpenAire
- ISO 10115/19139 (INSPIRE)
- DDI 2.5
и собственная схема EUDAT Core Metadata Schema.

По формату проект нацелен на повышение находимости данных (data discovery) для научных целей.

По масштабу сравнимо с DataCite - поиск по 35 миллионам проиндексированных DOI для наборов данных и 17 миллионам наборов исследовательских данных в OpenAIRE.

Пока непонятно продолжится ли этот проект или все активности перешли/перейдут в OpenAIRE, но B2Find остаётся как пример большого поисковика по научным данным.

Ссылки:
[1] https://b2find.eudat.eu/
[2] https://b2find.eudat.eu/organization/nordicar
[3] https://b2find.eudat.eu/organization/pangaea
[4] https://b2find.eudat.eu/organization/danseasy

#opendata #researchdata #openaccess #datasets #search
Одна из крупнейших и малоизвестных поисковых систем по научным публикациям это BASE [1], проект немецкого Bielefeld University в котором собрано более 338 миллионов научных публикаций из более чем 11 тысяч источников.

В том числе в поисковом индексе BASE есть более 18.5 миллионов записей с исследовательскими данными, большая их часть, конечно, из систем выдачи DOI таких как Datacite и Crossref.

У проекта есть REST API и интерфейс доступа по протоколу OAI-PMH,

Ссылки:
[1] https://www.base-search.net

#opendata #openaccess #openscience #researchdata #datasearch
В рубрике интересных продуктов на данных SemOpenAlex [1] граф знаний на 26 миллиардов RDF triples с базой из более чем 249 миллионов научных работ от 135 миллионов авторов и из 226 тысяч источников.

Проект включает открытое API и возможность скачать дамп целиком [2].

Данные и API доступны под лицензией CC0 и имеют множество возможных применений во всём что касается картирования науки и научной деятельности.

Ссылки:
[1] https://semopenalex.org
[2] https://semopenalex.org/resource/?uri=http%3A%2F%2Fdatasets.metaphacts.com%2Fsemopenalex

#opendata #datasets #researchdata #science #semanticdata
В рубрике интересных наборов данных Scans.io Stanford Internet Research Data Repository [1] коллекция больших наборов данных по инфраструктуре Интернета полученные путём сканирования всех доступных подсетей. Наборы данных там существуют, как созданные в Стенфордском университете, так и коммерческих компаний таких как Rapid7 и Censys.

Часть общедоступны, можно скачать сразу. Для доступа к данным от Rapid7 теперь уже какое-то время требуется написать им обоснование и рассказ о том для какого исследования Вам это нужно [2], а Censys уже давно большой коммерческий проект и к небольшой части своих данных они дают доступ через облако Google [3].

Применение у этих данных может быть не только в задачах инфобеза/кибербеза, но и в целях разного рода инструмента исследования инфрастурктуры. Или, например, data discovery. Многие из порталов данных мне удавалось найти через анализ базу DNS записей.

Ссылки:
[1] https://scans.io
[2] https://opendata.rapid7.com
[3] https://support.censys.io/hc/en-us/articles/360038761891-Research-Access-to-Censys-Data

#opendata #datasets #networksecurity #researchdata
В рубрике интересных наборов данных Data Citation Corpus [1] от Datacite появился в рамках проекта Make Data Count. Сами данные владельцы пока не отдают в свободный оборот, надо заполнить форму запроса на использование [2], но для исследовательских проектов это не должно быть помехой.

Также, у набора данных есть дашборд с визуализацией [3].

Проект любопытный, на нём можно построить гораздо более интересную аналитику чем то что сейчас предоставляет DataCite.

Ссылки:
[1] https://makedatacount.org/data-citation/
[2] https://docs.google.com/forms/d/e/1FAIpQLSd1l7ovTQs3EMw9mz4HFaVB2SuUQ8Z8FldoCDgvD74GV-vh0Q/viewform
[3] https://corpus.datacite.org/dashboard

#opendata #data #openaccess #researchdata
В рубрике интересных больших данных World Ocean Database [1] публикуемая Национальным управлением океанических и атмосферных исследований США.

База включает данные по множество наблюдений за океанами и морями, начиная с путешествия капитана Кука в 1772 году и до наших дней.

Из необычного, данные опубликованы не в виде стандартизированного каталога данных, а с возможностью выгрузки по годам или по географической территории по класссификации WMO. Вот, к примеру, данные по северной части Красного моря [2].

Из интересного, примеры работы с данными этой базы приведены на... трам парам... Фортране и, немного, на C [3]

Ссылки:
[1] https://www.ncei.noaa.gov/products/world-ocean-database
[2] https://www.ncei.noaa.gov/access/world-ocean-database/bin/getgeodata.pl?Depth=S&WorldOcean.x=41&WorldOcean.y=219
[3] https://www.nodc.noaa.gov/OC5/WOD/wod_programs.html

#opendata #ocean #seas #researchdata
К вопросу о том где и как искать данные и что такое каталоги данных, есть отдельная категория каталогов данных в виде репозиториев результатов научной деятельности в которых чего только нет, но обычно это статьи, диссертации, магистерские работы, книги и реже медиафайлы и курсы. Но там бывают и данные, чаще всего их доля не очень велика, если это не специализированный репозиторий именно для данных.

Университеты таким образом публикующие данные, чаще всего используют продукты вроде DSpace, Eprints, Elsevier Pure и ещё ряд других, менее популярных.

Ключевой вопрос включать ли их все в реестр каталогов Dateno? Если да, то по каким критериям? По числу датасетов? По доле датасетов от общей доли публикации? По потенциальной возможности что датасеты там могут появится в будущем?

Вот живой пример Архив открытого доступа Санкт-Петербургского государственного университета [1], один из немногих и возможно крупнейший ресурс раскрытия публикаций университетов в России. Всего в нём сейчас 47619 публикаций. И это не то чтобы мало, даже много. Но из них всего 17 публикаций являются наборами данных и помечены как тип Dataset. Это 0.03% от общего числа публикаций. Можно ли его считать каталогом открытых данных или нет? Добавлю что ещё и то что инсталляции DSpace без доп настроек не дают поиска по типу ресурса и чтобы найти даже эти 17 датасетов пришлось скачать метаданных все 47+ тысяч записей.

А также добавлю что есть множество репозиториев научных публикаций где датасетов совсем нет, это почти все репозитории публикаций в Армении, в Казахстане и многие репозитории российских университетов.

Но ведь данные там появится могут, так что же регулярно проверять что там данные появились и только тогда вносить их как каталоги данных?

Ссылки:
[1] https://dspace.spbu.ru
[2] https://dspace.spbu.ru/handle/11701/17114?mode=full

#opendata #openaccess #researchdata #datasets