Ivan Begtin
7.99K subscribers
1.87K photos
3 videos
101 files
4.58K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Знаете ли Вы что... DBPedia - это не только цельная база данных, но и большой каталог наборов данных созданных на её основе. Все они собраны на портале databus.dbpedia.org [1], например, в виде коллекции дата файлов извлеченных из последней итерации обработчика Википедии.

Хотя лично у меня до сих пор немало сомнений насколько концепции Semantic Web И Linked Data приживутся за пределами научного мира, но что точно способствует их популяризации так это доступность больших наборов данных. А в DBPedia Databus определённо данных много. Это немалый, хотя и малоизвестный каталог открытых данных.

Ссылки:
[1] https://databus.dbpedia.org
[2] https://databus.dbpedia.org/dbpedia/collections/latest-core

#opendata #datasets #datadiscovery
В рубрике как это работает у них портал данных на базе Arab Region Data and Policy Support Hub (RCP) [1] создан при агентстве ООН The UN Regional Collaboration Platform (RCP) for Arab States.

Его можно отнести к одному из порталов данных ООН которых всего несколько десятков, часть из них базы индикаторов, часть каталоги данных, часть системы раскрытия информации в рамках инициатив прозрачности.

Этот портал - гибридный портал индикаторов и открытых данных. В его каталоге [2] 132 тысячи наборов данных большая часть из которых - это индикаторы из других проектов и сайтов ООН, таких как портал данных Всемирного банка и Портал статслужбы ООН.

Почти все данные - это статистика и в этом смысл проект напоминает другой похожий о котором я ранее писал, это DBNomics. Правда DBNomics несколько побольше, там 92 источника данных, 30 тысяч наборов данных и 1.4 миллиарда временных рядов.

В портале данных RCP такого числа временных рядов нет из-за отсутствия дробления/разрезания датасетов по территориям.

А также у портала есть документированное и недокументированное API, раздел с геоданными и статистические дашборды.

Ссылки:
[1] https://data.as-rcp.org/

#opendata #arabstates #data #datacatalogs #statistics
К вопросу о том как и где искать данные, в качестве регулярного напоминания:

Поисковые системы
по данным
- Dateno - поисковая система по всем видам наборов данных, геоданных и научных данных, агрегирует их из более чем 5 тысяч каталогов данных, включает 19 миллионов карточек датасетов
- Google Dataset Search - исследовательская поисковая система по датасетам от Google. Охватывает все датасеты в мире опубликованные по стандарту Schema.org Dataset, включает около 50 миллионов карточек датасетов

Поисковые системы по научным данным
- DataCite Commons - поисковик по всем датасетам которым присвоен DOI через сервис DataCite. Более 22 миллионов карточек наборов данных. Используется многими другими поисковыми системами и агрегаторами наборов данных. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
- OpenAIRE - поисковая система ЕС по результатам научной деятельности включая датасеты. Около 19 миллионов карточек датасетов. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
- BASE (Bielefeld Academic Search Engine) - поисковая система по научным публикациям от Bielefeld University. Включает 25 миллионов карточек датасетов из которых 22 миллиона агргеггируются из DataCite. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
- Mendeley Data - поисковик по научным данным от Elsevier, декларирует 26 миллионов карточек датасетов, в реальности многие из низ - это фрагменты единых баз данных или документы в университетских библиотеках. За их исключением реальное число наборов данных ближе к 5 миллионам. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.

Платформы и крупнейшие порталы научных данных
- Figshare - одна из крупнейших онлайн платформ для публикации научных данных. Содержит всего 2 миллиона наборов данных включая сами данные. Более половины этих наборов данных происходят из публикаций в рамках Public Library of Science (PLOS).
- OSF - открытая платформа для публикации научных данных. Точное число датасетов измерить сложно поскольку открытой статистики, или нет, или до неё сложно добраться, но можно исходить из того что это как минимум сотни тысяч наборов данных
- DataOne - каталог и агрегатор данных наук о земле. Более 777 тысяч наборов данных, включая все ресурсы/файлы к ним приложенные

Поисковики по геоданным
- GeoSeer - чуть ли не единственный специализированный поисковик по геоданным. Обещают что охватывают 3.5 миллионов точек подключения к гео API таким как WMS, WFS, WMTS и др.

P.S. Существует также большое число крупных порталов данных и агрегаторов в других областях: машинное обучение, статистика, геоданные. О них в следующий раз

#opendata #data #datasearch #datasets #geodata #openaccess
Мне вот тоже хочется поисследовать что там у нас уже набралось в Dateno, а то всё репощу исследования других, что тоже интересно, конечно.

Я, для поиска чаще всего использую datenocmd, утилитку для запросов с командной строки и, например, недавно искал что у нас с индексацией данных по криптовалютам.

Хорошая новость - датасеты в индексе есть. Не такая хорошая новость - почти это все неактуальные, исторические датасеты опубликованные исследователями в разное время популярности и непопулярности крипты.

Что удивительно, нет ни одной базы индикаторов по крипте. Коммерческих сервисов много, а ни одного центрального банка и ни одного статистического ведомства мне неизвестно которые бы эту инфу публиковали.

Даже в у Банка международных расчётов или ЕЦБ или Евростата этой информации нет, даже в экспериментальной статистике. В общем-то реально серая зона, совершенно за пределами официального статучёта.

Но мы скоро начнём добавлять эти данные в Dateno, все что найдём;)

#opendata #datasets #crypto
В рубрике закрытых данных в РФ с 2023 года перестал работать домен rosrid.ru на котором были доступны научные работы из ЕГИСУ НИОКТР (Единая государственная информационная система учета. научно-исследовательских, опытно-конструкторских и технологических работ гражданского назначения) и вместо него теперь работает сайт gisnauka.ru [1].

Ещё до обновлений 2022-2023 года в рамках ЕГИСУ НИОКТР публиковались дампы данных/метаданных научных работ. Последнюю выгрузку их в нашу дата платформу Datacrafter мы делали в 2021 году [2].

Примерно в 2022-2023 году систему ЕГИСУ НИОКТР обновляли и вместо данных дампов теперь там стали называть открытыми данными статистику. С внедрением Домена наука ничего не изменилось, сами данные недоступны и даже полнотекстовых публикаций там также не находится, хотя и в поиске есть опция их поиска.

Ссылки:
[1] https://gisnauka.ru
[2] https://datacrafter.ru/packages/rosridnew

#opendata #closeddata #russia #openaccess
Читаю в Российской газете про идею создания научного дата-хаба [1] и думаю как это прокомментировать.

Начну с того что для его создания регулирования не нужно, необходимо лишь чтобы ключевые органы власти и ряд учреждений сдали бы туда данные и чтобы ими можно было пользоваться. Это вопрос не регулирования, а как принято говорить "политической воли" или, если угодно, "государственного насилия" в отношении государственных же структур не участвующих в обмене данными.

И поэтому, разговоры про регулирование стоит воспринимать как опасный звоночек потому что не имея возможность потребовать от госорганов и госкорпораций данные, пр-во начнет регулировать бизнес сдавать данные в этот дата хаб. Вот тут регулирование нужно в полный рост, но это уже плохая форма государственного принуждения, выгодная только ограниченному числу ИИ компаний и ряду госорганов.

Ссылки:
[1] https://rg.ru/2024/11/25/rossijskij-ii-obuchat-na-otechestvennyh-dannyh.html

#opendata #data #ai #regulation #russia
В продолжение текста о том как искать данные в принципе, поговорим о том где искать геоданные. С геоданными, всё, и лучше, и хуже, но важнее то что всё по другому. Иногда очень по другому.

Первое что важно знать это то что геоданные не индексируются Google Dataset Search и большей частью поисковиков которые я ранее не упоминал. Очень часто геоданные находятся, в принципе, за пределами обычного поиска и искать их необходимо в специальных каталогах и специальных сервисах.

Конечно, в первую очередь я порекомендую Dateno ;) где проиндексировано более чем 5.5 миллионов геоданных-ресурсов из геопорталов, практически по всем странам.

Но есть и другие источники:
- Geoseer - единственный известный мне поисковик по геоданным. Чем-то похож на Dateno, а Dateno на него. Охватывает 3.5 миллиона точек с гео API, в основном WMS, WFS, WCS и WMTS.
- ArcGIS Hub - портал открытых данных на базе платформы ArcGIS, охватывает все экземпляры порталов с открытыми данными на базе облачного сервиса ArcGIS
- ArcGIS Search - поисковик от ArcGIS по всем общедоступным ресурсам на их геосерверах. Шире чем поиск ArcGIS Hub, охватывает не только цифровые слои, но и другие геоартефакты
- Spatial Data Catalog - каталог данных от Carto, более 11 тысяч наборов данных удобных для интеграции с их платформой. Примерно 2/3 данных доступны только за деньги, считаются premium data
- Spatineo Directory - не каталог данных, но каталог источников геоданных, геосерверов. Можно найти нужны сервер и искать уже в нём.

А также стоит обратить внимание на порталы США: geoplatform.gov, sciencebase.gov и Европы data.europe.eu, где тоже много геоданных

Источников геоданных куда больше, это только основные ресурсы. А есть ещё базы спутниковых снимков, интерфейсы доступа к ним через стандарт STAC и многое другое. Об этом я регулярно пишу и ещё напишу здесь.

#opendata #geodata #datacatalogs
В качестве регулярных напоминаний о том что чем занимаюсь я лично и команды Инфокультуры, Dateno и Open Data Armenia.

Международное
- Dateno - глобальная поисковая система по данным, охватывает все страны мира и 19 миллионов датасетов. Большой-маленький международный стартап помогающий находить данные по всем возможным темам. А также с открытым кодом ряда компонентов в репозиториях commondataio и dateno и реестр каталогов данных Dateno registry
- Data Catalog Armenia - общественный каталог открытых данных по Армении, пока нет государственного единственный такой каталог данных в стране. Включая открытые репозитория кода сбора данных opendataam

Проекты в России/связанные с Россией
- Хаб открытых данных - общественный портал открытых данных со множеством датасетов. Из-за наплыва спамеров пришлось закрыть в нем свободную регистрацию, но всем желающим публиковать данные всегда можем дать такую возможность.
- Госзатраты - проект по сбору и публикации всех данных о государственных и муниципальных контрактах в РФ. Включая открытое API и открытые данные. Большие данные, за более чем 10 лет.
- Ruarxive - национальный цифровой архив России, архивы всех потенциально исчезающих сайтов госорганов, организаций, НКО и отдельных проектов. Постоянно не хватает ресурсов чтобы охватить всё что хочется, потому что исчезает всё постоянно.
- OpenNGO - база по всем некоммерческим организациям в России. По всем - это всем, не только социально ориентированным. Там есть и госНКО, и университеты и тд. Включает открытые данные и открытое API.
- Datacatalogs.ru - портал каталога каталогов данных который мы делали до Dateno и до реестра каталогов данных Dateno. Только российские ресурсы и стран постсоветского пространства, включает не только "чистые" каталоги данных, но и порталы открытого бюджета, к примеру, как то что каталогами данных не является, но могло бы быть.
- Plain Russian - сервис проверки русского языка на простоту. Скорее всего скоро будет неактуальным из-за развития LLM, тем не менее, он существует, работает, полезен.

P.S. А также есть многие проекты которые ещё в работе, или подвисли, или требуют актуализации, или представленные только в виде документов или открытого кода, о них в следующий раз

#opendata #data
Написал большой текст про особенности российской официальной статистики
Российская статистика: немашиночитаемая институциональная фрагментация
в этот раз там не столько про машиночитаемость, и даже не столько про цифровизацию Росстата, сколько про его территориальные подразделения и про гигантское дробление данных и публикаций которые они создают.

Я не стал этого добавлять в большой текст, добавлю здесь. В среднем на сайте терр. органа Росстата опубликовано от 500 до 2000 документов, примерно такое же число публикаций выпущенных ими на бумаге. Если все эти документы собрать вместе то был бы каталог от 50 до 200 тысяч статистических публикаций и это было бы даже каталогом данных, наполовину,уж точно.

Но этого никогда не будет до тех пор пока подразделения Росстата торгуют данными.

#opendata #data #statistics #russia