Ivan Begtin
8.09K subscribers
1.99K photos
3 videos
102 files
4.7K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Если вам кажется что только в Вашей стране, где бы Вы ни были, всё делают через одно место и это не голова, то это не так. Например, Chaos Computer Club (CCC), старейшая хакерская команда в Германии, пишут о том что германская компания Gematik отвечающая за информатизацию здравоохранения плохо понимают в информационной безопасности того что они делают [1].

Текст на немецком языке, но легко переводится и смысл его в том что по номеру медицинской страховки сотрудник аптеки может получить о человеке всю информацию о его рецептах, без дополнительной авторизации и подтверждения самого человека. Учитывая что в Германии идёт цифровизация здравоохранения с переходом на электронные рецепты - то это становится актуально.

Я бы ещё обратил внимание на модель угроз которую они описывают. Сотрудник аптеки может продать таблоидам номера страховок знаменитостей и те могут узнать из рецептов от чего знаменитости лечатся.

Это не единственный "косяк" от Gematik, но достаточно яркий.

А если вернуться к российским реалиям, то для авторизации на российском портале ЕМИАС [2] достаточно номера карточки медицинского страхования и даты рождения. После этого доступны данные о записях к врачам, рецептам и направлениям (хорошо хоть не самой медкарты).

Это означает что любой врач в системе ОМС имеющий доступ к Вашему анамнезу может увидеть всю эту информацию на сайте ЕМИАС и Вы никогда об этом не узнаете. Но, всё интереснее. В медицинских полисах последние 6 цифр - это и есть дата рождения. Если у кого-то есть номер вашего мед полиса и даже если этот кто-то не знает даты Вашего рождения он/она может получить доступ к этому же личному кабинету.

Страны разные, проблемы похожие.

UPD: Речь, в первую очередь, про московский портал ЕМИАС. Как организовано в других регионах надо разбираться отдельно.

Ссылки:
[1] https://www.ccc.de/updates/2022/erezept-mangelhaft
[2] https://emias.info/

#security #privacy #germany #russia
Тем временем в Германии Министерство внутренних дел и общества и другие организации создают Институт данных, Dateninstitut [1] для повышения доступности данных для бизнеса и общества. Ещё в начале года на его создание было выделено 1,7 миллиона евро и к концу года он появится. Его создание должны обсуждать сегодня на секции Das Dateninstitut – neue Impulse für die Datenökonomie (Институт данных - новый импульс для экономики данных) [2] конференции Digital-Gipfel 2022 по берлинскому времени сегодня в 10։10 (это 12։10 по Москве, 13։10 по Еревану и 15։10 по Астане). Живая трансляция должна быть доступна на сайте, на немецком языке.

Почему это важно? По сути в Германии создают аналог The Open Data Institute существующего (ODI) в Великобритании. Однако ODI всегда строился и существует как глобальная институция, с претензией на воспроизводство лучших практик в развитых и развивающихся странах. Относительно Dateninstitute пока неизвестно будет ли он действовать локально про Германию, на весь Евросоюз или глобально как ODI.

Ссылки։
[1] https://www.bmi.bund.de/SharedDocs/pressemitteilungen/DE/2022/10/dateninstitut-startschuss.html
[2] https://www.de.digital/DIGITAL/Navigation/DE/Konferenzen/konferenzen.html

#opendata #data #policy #germany #dataeconomy #datapolicy
В рубрике как это работает у них, инфраструктура научных данных в Германии включает большое число исследовательский и университетских репозиториев данных и других результатов научной деятельности. Многие репозитории работают на без open-source ПО каталога научных данных Dataverse, например, DaRUS [1] университета Штудгарта или HeiData [2] Университета Хельдельберга. Всего в Германии мне известно 10 репозиториев научных данных именно на базе Dataverse.

Одновременно с Dataverse активно используется относительно новый open-source продукт каталога данных InvenioRDM, на нём работает репозиторий научных данных Университета Гамбурга [3] и архив данных RODARE [4]

Но гораздо более популярными являются репозитории данных на базе таких продуктов как DSpace и специфичного для Германии MyCore. DSPace - это распространённый продукт в академической и архивной среде для хранения условно любого контента с метаданными, в Германии DSpace весьма распространён и на его базе публикуются, в том числе наборы данных. К примеру, архив OpARA [5] Технического университета Дрездена.

И отдельно про MyCore [6], это аналог DSpace особенно распространённый в Германии. На нём созданы десятки порталов раскрытия научных результатов университетов по всей стране [7] и как и DSpace он создан для сохранения и поиска любого контента с расширяемыми наборами метаданных, что особенно актуально в научной среде. В MyCore часто сохраняют данные о статьях, научных тезисах, диссертациях, архивах, изображениях и, в том числе, исследовательских данных. А некоторые репозитории изначально создаются на MyCore чтобы сохранять только данные. Например, реестр научных данных Университета Киель [8]

И, дополнительно, необходимо отметить такие проекты как PANGAEA [9], огромный репозиторий научных данных о земле и поисковик по научным данным Германии [10] на базе сервиса da|RA по выдаче DOI.

Данные германских исследовательских центров практически все в значительном объёме проиндексированы в общеевропейском проекте OpenAIRE.

Ссылки:
[1] https://darus.uni-stuttgart.de
[2] https://heidata.uni-heidelberg.de/
[3] https://www.fdr.uni-hamburg.de
[4] https://rodare.hzdr.de/
[5] https://opara.zih.tu-dresden.de/xmlui/
[6] https://www.mycore.de/
[7] https://www.mycore.de/site/applications/list/
[8] https://opendata.uni-kiel.de
[9] https://pangaea.de/
[10] https://www.da-ra.de/search

#opendata #germany #datasets #openaccess #openscience
Свежий портал открытых данных, на сей раз в Баварии open.bydata.de [1]

Более 1100 наборов данных, несколько видов API для доступа; через SPARQL, API для CKAN и своё API для доступа к внутренней базе.

Что характерно для всех европейских порталов с данными почти половина наборов данных - это геоданные. Они включают: слои к геокартам в формате WMS, файлы GeoJSON, файлы Esri Shape (SHP) и API серверов ArcGIS.

Помимо геоданных большая часть других датасетов посвящена городской инфраструктуре и её использованию в городах Баварии. У портала явный акцент на вовлечение в использовании городских/территориальных данных.


Ссылки:
[1] https://open.bydata.de

#opendata #datasets #germany
Рейтинг открытости данных в Германии Open Data Ranking от OKF Germany [1].

На первом месте регион Schleswig-Holstein, на последнем Saxony-Anhalt, а ключевые оценки по юридической обязательности публикации данных.

Если посмотреть на рейтинг то кажется что всё не так уж хорошо, хотя, ИМХО, они игнорируют порталы геоданных которых в Германии немало, особенно на региональном и городском уровне.

В реестре Dateno сейчас 378 каталогов данных в Германии [2] из которых 211 - это геопорталы.

При этом почти наверняка в каталоге собрано далеко не всё, как минимум у каждой из земель в Германии есть собственный статистический офис и много муниципальных порталов данных.

Поэтому этот рейтинг скорее про качество госполитики чем про доступность данных, хотя авторы и пытаются это смешать и добавили туда оценку по доступности документов парламентов. Что, несомненно, важно, хотя и методически странно. Тогда надо бы разделять на меньшее число крупных блоков: законодательство, технологии, прозрачности власти.

В любом случае рейтинг полезен и любопытен.

Ссылки:
[1] https://opendataranking.de
[2] https://dateno.io/registry/country/DE

#opendata #data #germany #ratings
Geoexplorer Berlin [1] сервис навигации по геоданным Берлина, интерфейс над их каталогом данных на базе Geonetwork.

Отличительная особенность в интеграции ChatGPT в интерфейс и это выражается в генерации описания того зачем нужен конкретный датасет, дословно: "На какие вопросы отвечает этот датасет?" и в автодокументировании данных. А также в поиске по данным на естественном языке. Немецком языке, конечно же.

Данных там немного, но функции любопытные. Есть что изучить и применить.

Разработано в Technologie Stiftung Berlin [2], открытый код под лицензией MIT [3]

Ссылки:
[1] https://geoexplorer.odis-berlin.de/
[2] https://www.technologiestiftung-berlin.de/
[3] https://github.com/technologiestiftung/odis-geoexplorer

#opendata #geodata #datasets #ai #opensource #germany #berlin
В рубрике как это устроено у них национальный портал открытых данных Германии GovData.de [1] включает более 117 тысяч наборов данных, большую часть которых агрегируют из региональных порталов открытых данных отдельных территорий и городов, более всего, 28 тысяч из земли Schleswig-Holstein, но и остальные данные чаще региональные и хорошо обновляемые. Федеральный портал стремительно пополняется, ещё несколько месяцев назад там было около 88 тысяч наборов данных.

Внутри портала работает CKAN, поверх него сделан интерфейс с помощью Liferay.

Особенность портала в том что на нём далеко не все открытые данные Германии и на портале данных ЕС имеется 726+ тысяч наборов данных. Остальные 609 тысяч наборов данных собираются из каталога геоданных Германии GDI.

В Dateno тоже есть данные по Германии и основные данные не с госпортала GovData, а как раз с геопорталов отдельных земель. Собственно обилие данных по Германии даёт значительное искажение картины доступности данных по Западной Европе в Европейском портале и в Dateno. Что вызвано тем что данных в Германии, действительно, раскрывается очень много и тем что нужно больше индексировать источники данных по другим европейским странам.

А пока можно обратить внимание что крупные национальные порталы вроде GovData также идут по пути развития фасетного поиска. Больше интересных фильтров, больше возможности найти нужные наборы данных

Ссылки:
[1] https://www.govdata.de

#opendata #germany #europe #datasets #data
Вышла бета версия германской статистической системы GENESIS-Online используемой статслужбой страны для публикации индикаторов [1]. В целом удобно, но скорее консервативно чем современно.

Из плюсов:
- есть API
- есть выгрузка в CSV/XLSX
- всё достаточно быстро и удобно

Из минусов:
- документированное API требует регистрации и авторизации, недокументированное... недокументировано
- документированное API сделано предоставляет SOAP интерфейс, непонятно зачем в 2024 году
- нет поддержки SDMX
- нет массовой выгрузки, bulk download

В целом, это скорее даже удивительно насколько статистика ЕС удобнее в работе чем статистика Германии, по крайней мере инструментально.

Ссылки:
[1] https://www-genesis.destatis.de/datenbank/beta

#opendata #statistics #germany #datacatalogs #indicators
Дашборд Германии (Dashboard Deutchland) [1] свежий проект германской статслужбы Destatis по визуализации ключевых индикаторов текущего состояния экономики.

Довольно простая и симпатичная штука со множеством панелей по разным областям с данными, в основном, с актуализацией в месяц, иногда с задержкой в 3 месяца.

Еженедельные и ежесуточные индикаторы тоже есть [2].

Плюс дают возможность зарегистрироваться и настроить личные дашборды.

А внутри используется открытое API того же Destatis и данные из других источников.

Ссылки:
[1] https://www.dashboard-deutschland.de/
[2] https://www.dashboard-deutschland.de/pulsmesser_wirtschaft/pulsmesser_wirtschaft_daily

#opendata #dataviz #germany #statistics #dashboards
В рубрике как это устроено у них пакет для Python под названием ... Германия, в оригинале deutschland [1] звучит странно, а содержание весьма логично. Этот пакет - это набор функций и классов для доступа к наиболее значимым наборам данных и API Германии. Сами данные предоставляются и API поверх данных и в виде сервисов предоставляются через портал bund.dev [2] где они задокументированы и общедоступны.

А пакет для python выглядит как логичное развитие и дополнение, значительно снижающие порог входа к использованию этих данных.

Заодно можно обратить внимание что чуть ли не основные примеры про работу с геоданными и данными регистра компаний.

Особенность в том что этот проект негосударственный и делается командой активистов.

Ссылки:
[1] https://github.com/bundesAPI/deutschland
[2] https://bund.dev

#germany #data #api #opendata
В рубрике плохих примеров публикации данных статистические данные и портал открытых данных Германии. В Германии официальный портал открытых данных govdata.de [1] содержит более 130 тысяч наборов данных, в самых разных форматах. Причём очень много геоданных и не только в машиночитаемых форматах, но и просто в виде PDF файлов карт. Среди этих данных около 3 тысяч наборов - это официальная статистика статслужбы Германии DESTATIS [2]. DESTATIS эксплуатирует платформу публикации официальной статистики Genesis [3] на которой доступны статистические индикаторы.

Так вот что важно знать:
1. Там отсутствует публикация данных в общепринятых стандартах вроде SDMX
2. Данные на сайте платформы отдаются в форматах XLSX, CSV и CSV (flat)
3. А через нац портал статистики они ещё и доступны со ссылкой на CSV формат и XML. Например, тут [4].

Так вот CSV файл из Genesis - это не нормальный CSV файл, а в их собственном формате в результате чего для него требуется отдельный парсер. Выглядит он как на этом скриншоте. Автоматически можно обрабатывать, или XML, или CSV формат который CSV (flat) который доступен только с сайте Genesis.

Про проблемы работы с метаданными Genesis и GovData.de я как-нибудь отдельно, скажу лишь что в отличие от ряда других стран ЕС в Германии всё хорошо с масштабами раскрытия данных, но довольно плохо с системным подходом в этой области и в части публикации статистики у меня лично много вопросов, не про методологию, а именно про удобство доступа.

Ссылки:
[1] https://govdata.de
[2] https://www.destatis.de
[3] https://www-genesis.destatis.de/datenbank/online
[4] https://www.govdata.de/suche/daten/bevolkerung-erwerbstatige-erwerbslose-erwerbspersonen-nichterwerbspersonen-aus-hauptwohnsitzhau35dcf

#opendata #germany #datasets