Ivan Begtin
7.98K subscribers
1.85K photos
3 videos
101 files
4.55K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Европейский доклад о гомогенизации особо ценных наборов данных (Report on Data Homogenisation for High- value Datasets) [1] вышел ещё 5 декабря. Небольшой по объёму и посвящён тому как в странах ЕС публикуют реестры компаний, данные по мобильности населения и официальную статистику. А также о том как можно было бы унифицировать публикацию таких данных. Можно уже ожидать что в 2024 году, или отдельно, или как часть существующего, но будет рейтинг/индекс/сравнение стран ЕС именно по публикации данных особой ценности.

Если кто-то пропустил, то эти наборы данных должны публиковаться в ЕС в рамках директивы 2023/138 [2] и, в принципе, европейское регулирование открытости данных идёт в направлении не только "открытости по умолчанию", но и гарантированной доступности данных по которым подтверждён общественный и коммерческий запрос. В частности - это данные реестров компаний, статистики, геоданные, метеоданные и многое другое.

Ссылки:
[1] https://data.europa.eu/en/doc/report-data-homogenisation-high-value-datasets
[2] https://eur-lex.europa.eu/eli/reg_impl/2023/138/oj

#opendata #eu #readings #reports
В рубрике как это устроено у них и о разнице между подходами к регулированию деперсонализации данных в Евросоюзе и в России.

Amnesia [1] продукт с открытым кодом [2] в рамках европейского проекта OpenAIRE позволяет анонимизировать научные данные прежде чем их публиковать в научных репозиториях.

Базовый сценарией его применения:
1. Скачать код или дистрибутив к себе локально во внутреннюю сеть или рабочий компьютер.
2. Запустить Amnesia
3. Выбрать режим анонимизации
4. Проделать все необходимые операции по деперсонализации данных.

Работает только с табличными данными вроде TXT и CSV, имеет API, может использоваться как исследователями лично, так и лабораториями, интегрирован с Zenodo и Dataverse.

Финансируется в рамках European Union's Horizon 2020 Research and Innovation programme.

Всё это к вопросу о том что если бы российское Минцифры реально хотело бы получить анонимизированные данные для ИИ, то могло бы выдать гранты на создание продуктов на открытом коде или дать субсидии коммерческим компаниям /стартапам в рамках ФСИ на создание таких коммерческих продуктов, а не централизованно собирать персональные данные от бизнеса и внутри этого оператора эти данные анонимизировать.

Всё это к тому что есть другие решения, гораздо более безопасные. А от решения по централизации всех персональных данных в России выиграют только спецслужбы, продающие перс. данные инсайдеры и хакеры которые через инсайдеров эти данные получат.

Ссылки:
[1] https://amnesia.openaire.eu/
[2] https://github.com/dTsitsigkos/Amnesia

#privacy #opensource #eu #regulation
В рубрике как это устроено у них новый каталог открытых данных Словакии data.slovensko.sk заменил предыдущий портал data.gov.sk (более недоступен). Новый портал переписали на CSharp и его код доступен [1]. Из его особенностей - это ориентация на SPARQL, доступность возможности работы со SPARQL эндпоинтом, а также то что краулит из 12 каталогов открытых данных страны и подлерживает каталоги датасетов по стандартам DCAT-AP, SPARQL и CKAN API.

Выглядит любопытно, но эта картина была бы неполной если бы:
1. Разработчики не поломали бы все ссылки на data.gov.sk которые были в европейском data.europe.eu где новый портал даже не зарегистрирован, а старый уже недоступен и ссылки "протухли"
2. Нет общедоступной документации API нового каталога
3. Нет экспорта DCAT AP или CKAN API у нового каталога.

В целом очень неаккуратно. Про SPARQL я скажу так, у него и Semantic Web есть очень много сторонников в европейских проектах за госсчёт, но к современной дата инженерии он имеет смутное отношение. Вообще никакого, если честно. Экспорт данных в Parquet, удобное REST API и, может быть, даже GraphQL эндпоинт куда важнее.

Ссылки:
[1] https://github.com/slovak-egov/nkod-portal

#opendata #slovakia #eu #standards #data #datasets
В рубрике как это устроено у них, Пражский проект по доступу к городским данным Golemio [1] существует в виде команды занимающеся дата продуктами такими как портал открытых данных Праги [2] и открытые API к системам Праги [3].

Технологически ничего феноменального, собственная BI платформа, разного рода дата продукты в активе. Но, во первых это модель по созданию открытой инсорсинговой команды внутри мэрии достаточно крупного города, во вторых исходный код их платформы открыт [4] и в третьих тут нет госпатернализма, наоборот акцент на платформе данных и государства / мэрии как структур предоставляющих данные.

Ссылки:
[1] https://golemio.cz/english
[2] https://opendata.praha.eu/datasets
[3] https://api.golemio.cz/docs/openapi/#/
[4] https://gitlab.com/operator-ict/golemio

#opendata #dataportals #czechia #praha #eu
В Нидерландах Министерство внутренних дел и по делам королевства опубликовало Handleiding Herziene Who nav de Wet implementatie open data richtlijn [1], Пересмотренное руководство для тех следует за Законом о реализации Директивы по открытым данным [2]

Руководство на голландском языке, но ничего сложного там нет и для тех кому будет сложно читать можно воспользоваться одним из онлайн переводчиков.

Если вкратце то руководство определяет политику обязательной открытости данных и кода всех государственных структур таких как:
- органы и организации федеральной власти (de staat);
- органы и организации региональной власти (zijn territoriale lichamen);
- организации учреждённые по закону (publiekrechtelijke instellingen)
- ассоциации учреждённые одним или более органов/организаций власти или организаций учрежденных по закону (verenigingen gevormd door een of meer van deze lichamen of een of meer van deze publiekrechtelijke instellingen)

Сюда попадают все органы власти, бюджетные учреждения, государственные исследовательские центры, любые организации которые они учреждали.

В руководстве определены приоритеты открытости по таким направлениям как:
- исследовательские данные
- динамические данные, такие как трафик, движение общественного транспорта и тд.
- особо ценные наборы данных (как это определено в директиве Евросоюза)
- программное обеспечение и открытый код

Из интересного:
- соблюдение принципов FAIR для открытых научных данных
- требование по использованию Metagegevens Duurzaam Toegankelijke Overheidsinformatie (MDTO) стандарта по устойчивой доступности государственной информации [2]. Разработано Национальным Архивом Нидерландов
- требование Archivering by design по предусматриванию обязательной архивации всего публикуемого и для этого использование стандарта DUTO [4], также от Национального Архива

И там ещё много всего.

В итоге можно обратить внимание на два фактора:
1. Сильный акцент на обязательное раскрытие научных данных. Это не удивительно зная сколько их создаётся и раскрывается в Нидерландах.
2. Переход к обязательности раскрытие ПО и открытого кода
3. Стандартизация с акцентом на архивацию. Роль национального архива в этом процессе.

И, чтобы два раза не вставать, нидерландский веб-архив всех государственных сайтов [5], несколько тысяч, может быть, десяток тысяч сайтов и госучреждений.

Ссылки:
[1] https://openrijk.nl/artikel/5c0e86d8-bc47-48c0-99f5-4306dea73b6d/nieuwe-wet-voor-open-data-in-nederland
[2] https://minbzk.github.io/publicatie/hl/hwho/#wat-is-de-status-van-deze-handleiding
[3] https://www.nationaalarchief.nl/archiveren/mdto/stappenplan-toepassen-mdto
[4] https://www.nationaalarchief.nl/archiveren/kennisbank/duto-raamwerk
[5] https://www.archiefweb.eu/


#opendata #netherlands #eu #policy #opensource #digitalpreservation #webarchives