Ivan Begtin
8.04K subscribers
1.94K photos
3 videos
102 files
4.66K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В рубрике как это работает у них о том как публикует статистические данные Европейский Центральный Банк (ECB).

На сайте ECB есть специальный раздел с данными "Browse data" [1] с возможностью просмотра их по категориям, концептам, географии и в виде наборов данных [2]. Особенность публикации в виде набора данных в том что каждый набор - это коллекция связанных/тематических показателей которых может быть от нескольких единиц до сотен тысяч и все данные публикуются сразу для массовой выгрузки (bulk download). Иначе говоря можно скачать разом (107 файлами) в форматах CSV и SDMX (XML) данные по сразу более чем 3.3 миллиона временных рядов, а по каждому ряду до нескольких десятков значений.

Одновременно с этим данные можно искать, причём единицей поиска представлен временной ряд привязанный к конкретной территории [3], фактически показатели фрагментированы по странам/территориям и такая фрагментация оправдана поскольку чаще всего пользователи ищут данные в привязке к конкретной стране. Это очень похоже на организацию данных в портале данных Банка международных расчётов (BIS) [4].

Одновременно с этим портал даёт возможность выгрузить отдельные временные ряды в CSV, XLSX, SDMX на их страницах и включает документированное API для получения данных в JSON [5] .

Достоинства:
- хороший баланс функций для тех кто работает с данными на сайте и теми кто работает с ними локально выгрузками и через API
- возможность bulk download
- хорошо документированное API
- подробные метаданные по каждому показателю

Недостатки:
- нет поддержки современных форматов вроде Parquet
- нет программной библиотеки для Python или R
- нет интеграции в "один клик", надо писать код для работы с API или использовать SDMX connector
- нет описания API в спецификации OpenAPI

Ссылки:
[1] https://data.ecb.europa.eu/data
[2] https://data.ecb.europa.eu/data/datasets
[3] https://data.ecb.europa.eu/search-results
[4] https://data.bis.org
[5] https://data.ecb.europa.eu/help/api/overview

#opendata #statistics #europe
В рубрике как это устроено у них публикация данных высокой ценности в Испании.

Ожидаемо очень много данных о земле, много геоданных, очень много статистики всех уровней и другое. В принципе идея с публикацией ценных данных в ЕС - это очень разумный подход про приоритеты. Не во всех странах ЕС этих данных уже много, но вот пример Испании весьма показателен.

Самое сложное в Испании связано с публикацией сведений о юр. лицах, там очень коммерциализированная область и прозрачность даётся с трудом, но постепенно публикуют и эти данные. На всё это можно смотреть задаваясь вопросом: "А почему в моей стране гос-во не раскрывает данные также?"

#opendata #datasets #europe #spain
В рубрике как это устроено у них раскрытие данных Европейского центрального банка (ECB) на ECB Data portal [1]. Главная особенность именно портала данных ECB в том что они публикуются, одновременно, для аналитиков не умеющих работать с техническими инструментами, тех кто умеет работать с API и тех кто оперирует большими данными.

Все индикаторы ECB собраны в 108 наборов данных по группам [2] скачав файлы которых можно сразу загрузить в свою базу данных и сразу работать с их значениями. Это то что называют bulk download.

Одновременно с этим каждый индикатор доступен в визуальной форме [3] и, наконец, у всего этого каталога данных есть API по стандарту SDMX 2.1 используемого для раскрытия статистики. [4]

В целом это один из наиболее методологически проработанных порталов публикации статистики поскольку современные стат. порталы удобны когда учитывают интересы многих типов пользователей.

Всем исследователям и аналитикам кто работает с данными нужны API и возможность выгрузки данных целиком.

А всем тем кто ссылается на конкретный индикатор, в статье или в научной работе - нужна постоянная ссылка на конкретный индикатор.


Ссылки:
[1] https://data.ecb.europa.eu
[2] https://data.ecb.europa.eu/data/datasets
[3] https://data.ecb.europa.eu/data/datasets/AME/AME.A.DNK.1.0.0.0.OVGD
[4] https://data.ecb.europa.eu/help/api/overview

#opendata #data #europe #centralbank #ecb #datasets #api #sdmx
Свежий национальный портал открытых данных на сей раз Боснии и Герцеговины [1], его полуоткрыли с мае 2024 года, но явно не доделали судя по текстам-заглушкам на сайте и разместили всего 12 наборов данных.

Делают его на CKAN и, в целом, как-то без энтузиазма 😜

В Боснии и Герцеговине открытых данных не так уж много, из известных мне порталов - это Otvoreni podaci Grada Prijedor [2] и несколько геокаталогов и геопорталов с геоданными.

В целом всё довольно скромно выглядит, но даже у небольшой Боснии с населением в 3.5 миллиона жителей портал открытых данных есть, а у многие крупных стран нет.

Ссылки:
[1] https://podaci.gov.ba/en/
[2] https://opendataprijedor.ba/

#opendata #bosnaihercegovina #europe #ckan #datasets
Почему некоторых особенно крупных порталов с данными нет в Dateno? Например, европейский портал data.europe.eu [1] кажется очень большим. Там более чем 1.8 миллиона датасетов со всех стран входящих в Европейский союз, там есть API через которое их можно выкачать и выглядит как "надо брать", проиндексировать его и сразу индекс сильно расшириться.

Всё так, за несколькими но, и очень существенными.

Проблема прослеживаемости
Data.europe.eu - это агрегатор, причём агрегатор агрегаторов. Потому что во многих европейских странах данные публикуются на городских/районных порталах, собираются на национальных и далее в индексируются в общеевропейский. В результате прослеживаемость до первоисточника и часть метаданных теряются.

Вот наглядный пример. Набор данных Miljöfarliga verksamheter (Экологически опасные виды работ) на портале данных шведского города Malmo [2] попадает на шведский национальный портал dataportal.se [2] и оттуда аггрегируется в общеевропейский [3]. В оригинальном источнике у всех ресурсов указана лицензия cc0-1.0, а в национальном и общеевропейском лицензия не указана. Также как и нет цепочки прослеживаемости до первоисточника.

Проблема полноты
На европейском портале сейчас агрегируются данные с национальных порталов открытых данных и из геокаталогов по программе INSPIRE. Для агрегации используются стандарты DCAT-AP, расширение INSPIRE для геокаталогов, в основном, на базе Geonetwork и стандарт SPARQL и расширение API для CKAN. Городские, региональные, муниципальные, научные и иные каталоги данных не поддерживающие эти стандарты туда не попадают.
В этом есть некое характерное отличие европейского портала открытых данных от, к примеру, порталу открытых данных США где более 80% всех данных - это научные данные и геоданные. В Европейском портале научных данных нет совсем, а геоданные составляют от 60% до 70% всех данных. В Евросоюзе научные данные собираются на портале OpenAIRE и в data.europe.eu не попадают. Практически все источники данных которые в data.europe.eu собираются есть и в Dateno.

Проблема качества
В европейском портале данных только около 150-180 тысяч наборов данных имеют разметку по типу используемой лицензии. Это очень, я бы даже сказал, совсем мало, максимум 10% от общего числа данных, при том что зная природу порталов открытых данных откуда агрегируются данных можно было бы идентифицировать лицензии гораздо эффективнее. Внутри Dateno сейчас идентифицируются 40 лицензий и условий использования по более чем 800 правилам

В целом картина складывается так что в каком-то смысле европейский портал можно рассматривать как конкурент для Dateno, а не как источник данных. Единственные значимые там характеристики - это оценка качества метаданных по их методологии и отметки что наборы данных относятся к особо ценным. Но первое можно оценивать самостоятельно, а второе содержится в метаданных первоисточников.

Важная характеристика европейского портала в попытках получить хороший поисковик выставляя высокие требования к первоисточникам которые должны соблюсти определённые стандарты.

В отличие от него в Dateno агрегируется всё что хоть как-то напоминает каталоги данных и чьи метаданные можно стандартизировать под описание схожее с DCAT, как бы оно не было в оригинале.

Ссылки:
[1] https://data.europa.eu
[2] https://ckan-malmo.dataplatform.se/dataset/miljofarliga-verksamheter
[3] https://www.dataportal.se/datasets/290_5852/miljofarliga-verksamheter
[4] https://data.europa.eu/data/datasets/https-ckan-malmo-dataplatform-se-dataset-5249aa0b-6528-43ef-880f-172adac8515b?locale=en
[5] https://github.com/commondataio/cdi-licensemapper

#opendata #data #datasets #dateno #europe
В рубрике как это устроено у них национальный портал открытых данных Германии GovData.de [1] включает более 117 тысяч наборов данных, большую часть которых агрегируют из региональных порталов открытых данных отдельных территорий и городов, более всего, 28 тысяч из земли Schleswig-Holstein, но и остальные данные чаще региональные и хорошо обновляемые. Федеральный портал стремительно пополняется, ещё несколько месяцев назад там было около 88 тысяч наборов данных.

Внутри портала работает CKAN, поверх него сделан интерфейс с помощью Liferay.

Особенность портала в том что на нём далеко не все открытые данные Германии и на портале данных ЕС имеется 726+ тысяч наборов данных. Остальные 609 тысяч наборов данных собираются из каталога геоданных Германии GDI.

В Dateno тоже есть данные по Германии и основные данные не с госпортала GovData, а как раз с геопорталов отдельных земель. Собственно обилие данных по Германии даёт значительное искажение картины доступности данных по Западной Европе в Европейском портале и в Dateno. Что вызвано тем что данных в Германии, действительно, раскрывается очень много и тем что нужно больше индексировать источники данных по другим европейским странам.

А пока можно обратить внимание что крупные национальные порталы вроде GovData также идут по пути развития фасетного поиска. Больше интересных фильтров, больше возможности найти нужные наборы данных

Ссылки:
[1] https://www.govdata.de

#opendata #germany #europe #datasets #data
Команда OpenAIRE пишет про партнёрство с лабораторией SCImago [1], командой которая создала несколько продуктов по оценке и рэнкингу научных институций и стран. Кстати, если Вы не видели их рейтинг стран по научным публикациям, то стоит взглянуть [2] и, кстати, картинка о состоянии российской науки, вернее падения её интеграции в мировую и цитируемости. Я это комментировать не буду, уверен что найдутся те кто может объяснить эти процессы лучше меня.

Так вот партнёрство OpenAIRE и SCImago упоминается в контексте исследовательских данных и логично будет если вскоре появятся аналитические и визуальные продукты именно по публикации и доступности научных данных. Это будет любопытно.

Правда, важно всегда помнить что качество метаданных в индексе OpenAIRE не очень высокое, но точно выше чем в DataCite или в китайском ScienceDB.

Ссылки:
[1] https://www.openaire.eu/openaire-and-scimago-lab-unite-to-enhance-scholarly-research-data
[2] https://www.scimagojr.com/countryrank.php
[3] https://www.scimagojr.com/countrysearch.php?country=RU

#opendata #openaccess #openaire #europe #rankings
Еврокомиссия 24 сентября запустила Public Procurement Data Space (PPDS) [1] инициативу по интеграции данных о государственных закупках в странах Евросоюза. Инициатива эта является продолжением и развитием Европейской стратегии данных (European strategy for data) [2] от 2020 года где тематика доступности данных о закупках была явно обозначена.

Из любопытного:
1. В основе технологий PPDS лежит онтология eProcurement Ontology (ePO) [3] и технологии Knowledge Graphs с реализацией аналитической базы данных с интерфейсом SPARQL
2. У проекта есть открытые репозитории, в основном с проверка
ми качества данных и индикаторами [4]
3. А также они в открытый доступ отдают дашборды с оценками качества данных [5], реализованы дашборды на Superset

Собственно чего в PPDS пока нехватает - это самих данных, систематизированных и пригодных для автоматической загрузки и обработки.

Ссылки:
[1] https://www.public-procurement-data-space.europa.eu/en
[2] https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX%3A52020DC0066
[3] https://docs.ted.europa.eu/EPO/latest/index.html
[4] https://eproc.pages.code.europa.eu/ppds/pages/
[5] https://www.public-procurement-data-space.europa.eu/en/dashboards

#opendata #europe #procurement #data #datasets
Продолжая тему данных о климате и наблюдении за океанами и морями, проект SeaDataNet [1] пан-Европейская инициатива по упрощению доступа к данным морских исследований. Включает поиск по более чем 3 миллионам наборам данных [2] которые являются пробами, наблюдениями и так далее.

Большая часть данных происходит из Франции, более 1.1 миллиона записей, но много данных и из России, порядка 182 тысяч записей.

Данные есть из практически всех европейских и многих околоевропейских стран с выходом к морю. Поэтому данные, к примеру, из Грузии есть, а из Армении нет.

Почти все данные под лицензией Creative Commons, но для доступа нужна регистрация.

Это другой пример очень специфических отраслевых данных, можно обратить внимание что поиск по ним по собственным уникальным фильтрам таким как: морской регион, координаты, научная дисциплина, способ получения данных и так далее.

Привязка данных связана скорее с географическим положением, чем с административными границами.

Ссылки:
[1] https://www.seadatanet.org/
[2] https://cdi.seadatanet.org/search

#opendata #climate #oceans #europe #datacatalogs #datasearch
Вышел европейский доклад
Open data in Europe 2024 [1] который также называют доклад по зрелости открытых данных (Open Data Maturity Report). В нём анализ состояния открытости данных, порталов открытых данных и госполитик в этой области по всем странам ЕС + некоторым странам кандидатам + Украине. Например, Сербия, а также Босния и Герцеговина там есть, а вот Грузии и Турции там нет. Впрочем на сегодняшний день это самый всеохватывающий доклад по открытости данных в отдельном над государственном образовании / регионе.

На первых трех местах по общей оценке идут: Франция, Польша и Украина, а на последних трёх: Албания, Мальта и Босния и Герцеговина. Последний случай особый, там отставание от стран ЕС наиболее серьёзно. По сути в Боснии и Герцеговине внятной политики открытости данных нет, портал данных тоже был в полурабочем состоянии когда я смотрел его в последний раз.

Лично мне доклад наиболее интересен большим числом кейсов, примеров и ссылок на порталы. Всегда есть что добавить в реестр каталогов данных Dateno.

Ссылки:
[1] https://data.europa.eu/en/publications/open-data-maturity/2024

#opendata #europe
В продолжение про зрелость открытых данных в Европе, коротко о том как в Европейском союзе устроена работа с открытыми данными.

1. У ЕС сформировалось зрелое законодательство по открытости охватывающее все страны, в которых приняты соответствующие законы, созданы порталы с открытыми данными, мониторинг их публикации и множество инициатив так или иначе с этим связанных.
2. Еврокомиссия ведёт портал data.europa.eu в котором аггрегируется уже более 1.8 миллиона наборов данных из порталов открытых данных ЕС
3. Около 2/3 всех опубликованных данных на национальных порталах открытых данных в ЕС - это геоданные.
4. В ЕС особенно много порталов данных и геопорталов регионального и муниципального уровня. В реестре каталогов данных Dateno их 467, с оговоркой что в реальности их значительно больше
5. Значительная часть региональных и городских порталов открытых данных работают на базе SaaS продукта от французского разработчика OpenDataSoft
6. В отличие от США в ЕС публикации на национальных порталах открытых данных и в научных репозиториях разделены и научные данные европейских исследователей представлены в системе OpeanAIRE
7. Важная особенность Евросоюза - это раскрытие данных особой ценности (HVD, High Value Datasets). Наборы данных про которые точно известно что они востребованы пользователями.
8. В Dateno чуть менее 7 миллионов наборов данных собраны из стран ЕС или охватывают страны ЕС. Большая часть этих данных - это геоданные, около 55%
9. При этом Dateno индексирует лишь половину национальных порталов стран ЕС поскольку другая половина использует нетиповое ПО. Откуда тогда такой охват? Из большого числа малых региональных и городских порталов данных и геопорталов, которые не попадают в общеевропейский data.europa.eu. Постепенно в Dateno будут все европейские национальные порталы данных тоже
10. Ещё одна тема не раскрываемая в отчетах Open Data Maturity - это доступность статистики. В ЕС наднациональная статистика Евростата и ЕЦБ хорошо представлена для любых пользователей, включая тех кто работает с ними как с базами данных. На национальном уровне большой разброс разных систем публикации индикаторов. но более всего используется шведская система PxWeb
11. В ЕС до сих пор популярно предоставление национальных данных через интерфейсы SPARQL и как связанные данные. Такое мало где практикуется в мире, слабо связано с современными инструментами работы с данными и дата инженерии, но имеет прямую взаимосвязь с работой с научными данными и онтологиями.

#opendata #europe #datacatalogs
В рубрике как это устроено у них European Health Information Gateway [1] портал данных Всемирной организации здравоохранения (WHO) на котором опубликованы десятки наборов данных с данными по статистике здравоохранения, целевым исследованиям, мониторингу и отчётам по европейским странам. Причём к Европе там отнесены и Турция, и Россия, и Армения и страны Центральной Азии. По каждой из стран доступно множество индикаторов и есть возможность работать с этими данными с помощью API [2].

Сам сайт представлен на двух языках, английском и русском, что тоже нестандартно для сайтов структур ООН, обычно там или только английский, или набор основных языков ООН.

Для тех кто ищет региональные данные не обязательно отправляться на сайт WHO, можно обратить внимание на их региональные порталы с данными. Другие примеры таких порталов по регионам:
- data.wpro.who.int - Western Pacific [3]
- opendata.paho.org - Americas [4]
- hip.searo.who.int - South-East Asia [5]

и так далее. Среди них европейский портал сделан существенно лучше, там, и удобное API,и отдельно датасеты и отдельно индикаторы.

Ссылки:
[1] https://gateway.euro.who.int/en/
[2] https://gateway.euro.who.int/en/api/
[3] https://data.wpro.who.int/
[4] https://opendata.paho.org/en
[5] https://hip.searo.who.int/dhis/dhis-web-commons/security/login.action

#opendata #datasets #europe #statistics #healthcare
Я, кстати, искал примеры живых данных в формате Parquet которые бы публиковались целенаправленно как открытые данные и таки нашёл.

Проект Open Performance Data Initiative (OPDI) [1] создан Евроконтролем в 2022 году для публикации данных об эффективности управления воздушным трафиком.

Данные на портале публикуются в виде Parquet файлов [2], с интервалами дат и инструкцией по их автоматической загрузке. По сути симуляция API.

Причём данных там немало. Данные о событиях за 10 дней собираются в Parquet файл размером до 150МБ что с учётом сжатия формата хранения раскрывается в сотни миллионов значений за три года.


Ссылки:
[1] https://www.opdi.aero
[2] https://www.opdi.aero/flight-event-data

#opendata #europe #transport #airtraffic #datasets