Ivan Begtin
7.99K subscribers
1.78K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В продолжение размышлений о поиске геоданных и связанных с этим сложностей. Я ранее писал про GeoSeer, единственный известный мне поисковик геоданных в мире, но и он сравнительно небольшой. А вот в качестве альтернатив ему выступают уже не поисковики, а каталоги георесурсов. В первую очередь поисковики в экосистеме ArcGIS по их каталогам открытых данных и георесурсов и некоторое, небольшое число альтернатив.

Например, Spatineo Directory [1] от финских геоконсалтеров Spatineo. Там более 87 тысяч георесурсов, в виде точек API по стандартам WFS, WMS, WMTS, но без сбора информации о слоях, поэтому это не поисковик, а именно каталог. Его существенный минус в то что более менее там систематизированы только точки API из развитых стран.

Другой, неожиданно, государственный проект это FGDS Status Checker [2] гигантский каталог геовебсервисов созданный как сервис проверки их доступности. Список вебсервисов там огромный, но почти полностью ориентированный на США и почти не охватывающий морские территории. Есть подозрение что Spatineo делали свой каталог с оглядкой именно на этот продукт, поскольку функции схожи.

Но ещё больше каталогов которые прекратили своё существование. К примеру WFS Geodata Catalog от германского GeoClub. Сейчас можно найти только скриншот.

Ещё был Pyxis crawler с каталогом из 29+ тысяч датасетов, вот он ближе к GeoSeer, но индексировал всего 1572 источника и его тоже больше нет. Тоже остался тоже скриншот.

И был ещё такой поисковик Geometa, но теперь даже его скриншот найти оказалось непросто.

Фактических попыток систематизировать и сделать доступными геоданные и геосервисы было много. Можно сказать что у Dateno тоже есть подзадача в части геоданных.

В каталоге Dateno сейчас 4.4 миллиона наборов геоданных извлеченных из 3127 геопорталов. При этом в реестре Dateno всего 5955 геопорталов и после индексации оставшихся объём геоданных существенно вырастет, кроме того много геоданных в других типах дата каталогов: порталах открытых данных, научных репозиториях и тд., это тоже добавит число геоданных.

Но пока приходится держать в голове что в части геоданных относительно сравнимой референсной базой является GeoSeer.

Ссылки:
[1] https://directory.spatineo.com
[2] https://statuschecker.fgdc.gov

#opendata #geodata #datasets #datacatalogs #dateno
Кстати, помните я расхваливал китайский портал/агрегатор научных данных SciDb [1].

Так вот его можно не только хвалить. После некоторого исследования его содержания он на 100% соответствует подходу "главное не быть, а казаться". Из заявленных 10 миллионов наборов данных лишь 18 тысяч имеют присоединённые файлы и загружены через сам портал, ещё 754 тысячи собраны из нескольких больших открытых порталов научных данных таких как Zenodo и PANGAEA, а всё остальное - это просто слепок поискового индекса по данным DataCite, сильно замусоренного и, объективно, без значимых метаданных, да и не факт что ссылки на сами данные.

С одной стороны, как обидно, так мало данных. С другой стороны, очередное подтверждение приоритетов индексирования и то что из SciDB можно собирать только те данные что туда были загружены. Другой вопрос что отфильтровать их непросто.

В любом случае удивительно то что вместо индексации тех же геномных данных китайцы пошли по этому пути.

Ссылки:
[1] https://www.scidb.cn

#opendata #china #datasets #datacatalogs
На днях я накатывал очередной обновление реестра каталогов данных, Dateno registry [1] тот самый который раньше был Common Data Index, а потом стал ядром поисковика по данным.

Важно то что он сам по себе также является продуктом, открытым, бесплатным, под свободной лицензией как база источников открытых и общедоступных данных. Самое очевидное применение его разработчиками национальных порталов открытых данных для агрегации на них данных с региональных, муниципальных и других порталов своей страны.

Некоторые цифры реестра видны на сайте, а некоторые можно подсчитать поработав в этим датасетом напрямую. Такие цифры на сегодня.

По типам каталогов данных
- 10 099 каталогов данных всего, из них:
— 5944 каталога геоданных
— 2732 портала открытых данных
— 871 репозиторий научных данных
— 276 каталогов индикаторов
— 276 всех остальных каталогов данных

По точкам подключения к API
- 35 404 точек подключения к API 99 различных типов API

По внешним идентификаторам:
- 777 идентификаторов каталогов данных в других источниках таких как re3data, datacatalogs.org, roar, wikidata и других

По используемому ПО:
- 119 типов ПО каталогов зарегистрировано
- 89% каталогов внесены с идентификацией типа ПО и только 11 процентов как отдельная разработка

По предметным областям
- 2158 каталогов имеют тематическую привязку в виде хотя бы одной темы, это около 21% всех каталогов данных

Это самый крупный каталог источников данных на сегодняшний день, сравнимый только с re3data и fairsharing, но они используются только для научных баз данных.

А наибольшие ограничения у реестра сейчас в том что у 66% каталогов данных не указан тип владельца и у 15% не идентифицирована страна к которой каталог относится. Если страну ещё можно идентифицировать по доменной зоне, то тип владельца каталога определяется, пока, только вручную. А приоритет ручной проверки проставлен от числа наборов данных в каталоге. Если в поисковый индекс Dateno попадает источник где есть более 1000 наборов данных то он становится кандидатом для ручной проверки и обновления метаданных.

И это, напомню, цифры именно по реестру каталогов данных. Потому что по индексируемым датасетам статистика совсем другая.

Ссылки:
[1] https://dateno.io/registry

#opendata #data #datasets #datacatalogs
В рубрике интересных продуктов для публикации данных малоизвестный pycsw [1] движок с открытым кодом для публикации метаданных для геоданных. Поддерживает стандарты STAC API, CSW, OpenAPI, OGC Collections, OpenSearch, OAI-PMH и даже SRU, который, скорее, для библиотечных систем.

Имеет немного внедрений, около 50 по всему миру [2] во всяком случае тех что известны самим разработчикам.

Сильно менялся от версии к версии. До версии 3.0 был просто движком для публикации CSW каталогов, а с версии 3.0 чем-то стал конкурировать с геосервером или дополнять, тут уж как посмотреть.

С точки зрения архитектуры штука не то чтобы сильно современная, но открытый код, но расширяется плагинами и, в целом, функции индексации геоданных может выполнять неплохо если прикрутить к нему интерфейс, API для управления и тд.

Ссылки:
[1] https://pycsw.org
[2] https://raw.githubusercontent.com/geopython/pycsw.org/gh-pages/live-deployments.geojson

#opendata #geodata #datacatalogs #opensource
В рубрике интересных малоизвестных проектов по публикации данных WMO Information System (WIS) 2.0 [1] проект Всемирной метеорологической организации по стандартизированному и систематизированному сбору данных о местной погоде от национальных метеорологических агентств. WIS 2.0 представляет собой набор стандартов по предоставлению данных и для упрощения работы по стандартам WMO предоставляет открытое и бесплатное ПО WIS 2 in a box [2] в которое поступает данные со станций метеонаблюдения и данные предоставляются в виде OGC API (стандарт геоданных) через встроенный внутрь движок pygeoapi [3].

Все публикуемые в WIS 2.0 in a box стандартизированы, там всего несколько коллекций: метаданные, станции, уведомления о данных и ежечасные синоптические наблюдения.

Большая часть инсталляций WIS 2.0 in a box общедоступны, но и не очевидно может быть где найти, но и это не так сложно, если захотеть.

Вот примеры серверов с WIS 2 in a box:
- США https://wis2node.nws.noaa.gov
- Белиз https://wis.nms.gov.bz
- Казахстан https://wis2box.kazhydromet.kz
- Россия https://wis2box.mecom.ru
- Китай https://wis2node.wis.cma.cn/

И так далее, таких инсталляций довольно много, что делает pygeoapi одним из довольно популярных движков для публикации геоданных.

P.S. Мне так и не удалось найти инсталляции WIS 2.0 in a box в Армении, возможно его там и нет, а данные передаются каким-то другим образом. Как я помню, синоптические данные в странах СНГ собирались через Росгидромет.

Ссылки:
[1] https://community.wmo.int/en/activity-areas/wis
[2] https://docs.wis2box.wis.wmo.int/en/1.0b7/index.html
[3] https://pygeoapi.io/

#opendata #datacatalogs #geodata #datasets #synoptic #weather
К вопросу о наличии данных о странах, есть два взгляда на это. Первый есть ли вообще какие-то данные о стране в структурированном или неструктурированном виде, не обязательно из источников внутри страны. И второй в том есть ли структурированные источники данных внутри страны. В Dateno идёт агрегация структурированных источников и данные по странам, находятся, или в глобальных агрегаторах вроде индикаторов Всемирного банка, BIS, WHO и других, либо из самих стран, либо, реже, из глобальных и региональных систем раскрытия научных или статистических данных.

И сейчас есть 24 страны по которым нет источников структурированных данных внутри страны. Фактически, ни одного каталога данных: открытые данные, геопорталы, индикаторы, ничего нет.

Страны можно разделить на 3 типа:
- совсем небольшие развитые: Монако, Сан Марино. Их данные агрегируются странами их окружающими
- страны в длительном политическом / экономическом кризисе
- совсем бедные страны

По последним двум группам минимальные инфраструктурные данные есть на Humanitarian Data Exchange [1].

А про развитые страны где тоже маловато данных я ранее писал. Но мало, не значит нет.

В любом случае в Dateno есть уже полное покрытие всех стран именно за счёт данных из глобальных агрегаторов.

┏━━━━━━━━━┳━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━━━━━┓
┃ Alpha-2 ┃ Name ┃ Internet TLD ┃
┡━━━━━━━━━╇━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━━━━━┩
│ NE │ Niger (the) │ .ne │
│ TM │ Turkmenistan │ .tm │
│ AF │ Afghanistan │ .af │
│ SD │ Sudan (the) │ .sd │
│ SL │ Sierra Leone │ .sl │
│ KN │ Saint Kitts and Nevis │ .kn │
│ ER │ Eritrea │ .er │
│ KM │ Comoros (the) │ .km │
│ SM │ San Marino │ .sm │
│ SY │ Syrian Arab Republic (the)   │ .sy │
│ CF │ Central African Republic (the) │ .cf │
│ GQ │ Equatorial Guinea │ .gq │
│ GA │ Gabon │ .ga │
│ GW │ Guinea-Bissau │ .gw │
│ VC │ Saint Vincent and the Grenadines │ .vc │
│ GN │ Guinea │ .gn │
│ SZ │ Eswatini   │ .sz │
│ TD │ Chad │ .td │
│ GD │ Grenada │ .gd │
│ MC │ Monaco │ .mc │
│ KP │ Korea (the Democratic People's Republic of)   │ .kp │
│ ST │ Sao Tome and Principe │ .st │
│ DJ │ Djibouti │ .dj │
│ TL │ Timor-Leste   │ .tl │
├─────────┼────────────────────────────────────────────────┼──────────────┤
│ Total │ 24 │ │
└─────────┴────────────────────────────────────────────────┴──────────────┘



Ссылки:
[1] https://data.humdata.org

#opendata #nodata #datacatalogs
Одна из стран по которой пока в Dateno мало датасетов, всего 58 тысяч, это Индия. 58 тысяч датасетов на страну в более чем 1 млрд человек это очень мало хотя объективно причины и понятны.

В Dateno сейчас 46 каталогов данных связанных с Индией [1], они сейчас обновляются и не все доступны и не все включены.

Итак что с открытыми данными в Индии:
1. В Индии сильная централизация данных на национальном портале data.gov.in Это самописный продукт где заявляется 500+ тысяч дата ресурсов. У его создателей свое восприятие мира и по факту, эти 500+ тысяч ресурсов - это файлы, а то что принято в мире называть датасетами они называют каталогами. Их всего 12.6+ тысяч. Примерно по 40 файлов на один каталог. Поэтому, с одной стороны индийский портал данных кажется огромным, а с другой, совсем нет. Это всего +12.6 тысяч наборов данных для поискового индекса. А это уже не так много и не так масштабно. Что ещё показательно на нац портале не указываются объёмы хранимых данных, а это один из верных признаков что физического объёма там немного. В любом случае стандартизированного API там нет, надо делать парсер их API/веб страниц

2. Индия страна большая, но сравнительно небогатая. Не у всех регионов есть свои информационные системы, геопорталы и тд. Они постепенно появляются, но в общем то есть не у каждого штата.

3. Официальная статистика тоже не отдаётся стандартизированными интерфейсами, а отдельный портал открытых данных [2] и ещё несколько публичных ресурсов о которых я ранее писал.

В принципе же Индию я лично отношу пока к категории стран со своей большей спецификой в работе с данными. Сейчас это: Китай, Россия, Индия.

У меня пока ключевой вопрос в том как измерять качество покрытия поиска Dateno по странам. В пропорции к населению, к ВВП, индексу развития цифровой инфраструктуры (ООН), индексу демократизации или ещё чему-то? Или всем сразу?

При этом понятно что это, одновременно, оценка, и качество наполнения реестра и поискового индекса Dateno, и развитости культуры работы с данными в стране.

Можно свой индекс "забабахать" World data discovery index;)

Ссылки:
[1] https://dateno.io/registry/country/IN
[2] https://esankhyiki.mospi.gov.in

#opendata #india #datasets #datacatalogs
В рубрике как это устроено у них, открытые данные Палестинской Автономии. В реестр Dateno на сегодня 15 каталогов данных из Палестины [1] из которых 12 каталогов - это геопорталы на базе ArcGIS Server или ArcGIS Hub, 1 каталог микроданных и 2 каталога открытых данных. Основной opendata.ps можно сказать официальный портал открытых данных страны и и второй с наборами данных связанными с последними гуманитарными событиями https://data.techforpalestine.org/docs/datasets/ от Tech for Palestine.

Как и по многим других развивающимся странам гораздо больше данных о Палестине в международных организациях, в виде статистики или данных по гуманитарной инфраструктуре.

Многие из каталогов данных уже проиндексированы в Dateno, но не все. Сказывается ситуация с отсутствием сетевой нейтральности и того что не все источники данных индексируются из всех стран( Рано или поздно придётся приходить к использованию распределённых краулеров и тестированию доступности из разных стран.

Ссылки:
[1] https://dateno.io/registry/country/PS

#opendata #datacatalogs #palestine #datasets
В рубрике как это устроено у них портал открытых данных провинции Центральная Ява в Индонезии [1]. Отличается каким-то неимоверным числом опубликованных датасетов, там их чуть менее 200 тысяч что, конечно, очень много. Для сравнения на портале открытых данных США Data.gov всего опубликовано 300 тысяч датасетов. А тут всего одна провинция, да ещё и в Индонезии.

При этом, там почти нет геоданных или научных данных, зато бесконечное число файлов статистики и Excel файлов. Такое ощущение что они просто обыскали все компьютеры и выложили все найденные Excel файлы, сконвертировав некоторые из них в CSV.

Это пример того почему я говорил что сделать национальный портал открытых данных и быстро его наполнить вообще несложно. Сложно сделать его полезным.

Ссылки:
[1] https://data.jatengprov.go.id/dataset/

#opendata #indonesia #centraljava #datacatalogs
Ivan Begtin
В рубрике как это устроено у них портал открытых данных провинции Центральная Ява в Индонезии [1]. Отличается каким-то неимоверным числом опубликованных датасетов, там их чуть менее 200 тысяч что, конечно, очень много. Для сравнения на портале открытых данных…
Крупнейшие порталы открытых данных в мире, по критерию количества (не физического объёма) открытых данных и с более чем 100 тысячами наборов данных.

Открытые данные

- data.europe.eu - портал открытых данных Евросоюза, данные структур ЕС и агрегатор данных входящих в ЕС стран
- data.gov - национальный портал открытых данных США
- data.jatengprov.go.id портал открытых данных провинции Центральная Ява, Индонезия
- datos.gob.es - портал открытых данных Испании
- www.govdata.de - портал открытых данных Германии

Научные данные
- explore.openaire.eu - портал раскрытия результатов исследований в Европейском союзе, разные формы результатов, включая наборы данных
- zenodo.org - портал для раскрытия научных данных от CERN
- data.mendeley.com - портал агрегатор научных данных от Elsevier. Лукавят с числами, реально наборов данных значительно меньше заявленных 31 миллиона, поскольку за датасеты выдают, в том числе, отдельные машиночитаемые записи. Но несколько миллионов наборов данных точно есть.
- figshare.com - платформа и агрегатор научных данных от Digital Science

Геоданные

- data.amerigeoss.org - портал геоданных сообщества AmeriGEO, включающего все страны северной, центральной и южной америк
- hub.arcgis.com - платформа и агрегатор открытых данных от компании ArcGIS
- metadaten.geoportal-bw.de портал геоданных земли Baden-Wurttemberg в Германии
- geo.btaa.org - большой геопортал альянса университетов в США, чуть-чуть недотягивает до 100 тысяч датасетов
- atom.cuzk.cz - портал геоданных Чешского кадастра
- catalogue.geo-ide.developpement-durable.gouv.fr - каталог геоданных Франции


Данные для обучения ИИ
- www.kaggle.com - крупнейший каталог наборов данных для обучения ИИ
- huggingface.co - второй после Kaggle и стремительно набирающий популярность (и данные) каталог данных для обучения ИИ

Статистика
- data.worldbank.org - более 4-х миллионов индикаторов в системе Всемирного Банка, если рассматривать их в привязке к странам и территориям. Неочевидно если смотреть индикаторы на сайте, выясняется при использовании их API
- data.bis.org - многочисленные индикаторы банка международных расчётов
- data.ecb.europa.eu - огромное число индикаторов Европейского центрального банка


#opendata #datacatalogs #bigdata