Ivan Begtin
8K subscribers
1.91K photos
3 videos
101 files
4.61K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В рубрике как это работает у них, существует такой тип порталов и каталогов данных как каталоги микроданных. Это не про данные малого размера, но про данные создаваемые при работе социологов и конкретно при опросах граждан и бизнеса. Эти опросы проводятся регулярно на уровне стран и некоторые межгосударственные и международные организации. Особенность микроданных в том что они часто содержат сведения прямо или косвенно идентифицирующие конкретного опрашиваемого человека, поэтому чаще данные результатов опросов доступны не полностью, а только в виде метаданных с описанием и их надо запрашивать у владельца, но часто, опять же, данные проходят анонимизацию и всё же доступны для всех. В любом случае каталоги микроданных создаются с открытыми метаданными описывающими содержание собранных данных.

Наиболее популярным в мире ПО для ведения таких каталогов это NADA Microdata Cataloging Tool [1], продукт с открытым кодом разработанный за счёт Всемирного Банка и поддерживаемый организацией International Household Survey Network которые поддерживают централизованный каталог микроданных подобных опросов [2] по огромному числу стран и включающий как открытые данные, так и данные по запросу.

А также на базе NADA работают каталоги микроданных Всемирного банка [3], FAO [4], UNCHR [5], а на пост-советском пространстве в Армении [6]. В отличие от геокаталогов данных и порталов открытых данных, в каталогах микроданных используются другие стандарты метаданных. В частности, основным стандартом является DDI [7], стандарт публикации статистических данных.

В России микроданные также публикуются Росстатом, но на совершенно другом ПО, не обновлявшемся более 9 лет [8]. Данные в системе obdx.gks.ru последний раз актуализировались в 2021 году.

А ранее многие статистические службы публиковали данные через ПО Nesstar Web View, но с 2022 года развитие продукта прекратилось, а редактор данных для стандарта Nesstar также передан в IHSN [9]. В этом стандарте/формате Nesstar публиковались и российские микроданные и до сих пор публикуются во многих странах.

Ссылки:
[1] https://nada.ihsn.org/
[2] https://catalog.ihsn.org
[3] https://microdata.worldbank.org
[4] https://microdata.fao.org
[5] https://microdata.unhcr.org
[6] https://microdata.armstat.am
[7] https://ddialliance.org/
[8] https://obdx.gks.ru/
[9] https://www.ihsn.org/software/ddi-metadata-editor

#opendata #microdata #statistics #knowhow
В рубрике как это устроено у них канадский портал публикации микроданных опросов посвящённых COVID-19 CITF DATA PORTAL [1] где CITF расшифровывается как he COVID-19 Immunity Task Force, рабочая группа по иммунитету от COVID. В отличие от порталов открытых данных подобные порталы опросов не бывают открытыми в виду того что содержащиеся в них данные содержат персональные данные опрашиваемых или же поскольку персональные данные могут быть из них восстановлены. Такие ресурсы ещё называют каталогами микроданных, их довольно много в мире.

Хотя эти данные редко доступны широкой аудитории, они доступны исследователям через формальные запросы и процедуры их одобрения.

Хотя здесь и нет открытых данных, но есть открытый код и конкретно CITF Data Portal создан на базе открытого ПО для эпидемиологии Obiba Mica [3].

Ссылки:
[1] https://portal.citf.mcgill.ca/
[2] https://www.covid19immunitytaskforce.ca
[3] https://www.obiba.org

#opendata #datacatalogs #microdata #canada
В рубрике как это устроено у них порталы данных эпидемиологических исследований, для них существует специальное ПО с открытым кодом Obiba Mica [1], я в прошлом году упоминал [2] портал с данными по COVID-19, но это далеко не единственный такой проект с данными.

На базе Obiba Mica работает несколько десятков порталов данных в рамках проектов RECAP Preterm [3], европейский проект мониторинга детей с недостаточным весом и рождённых до срока и EUCAN Connect [4] совместные проекты Евросоюза и Канады в области персонализированной и превентивной медицины. Инсталляции на базе Obiba Mica разбросаны по разным странам: Испания [5], Португалия [6] и многие другие.

В чём особенность этих порталов? Во первых они не содержат открытые данные. Практически всегда содержащиеся там данные - это медицинские сведения, даже если они деперсонализированы, они более всего похожи на микроданные переписей и также организованы.

У датасетов есть переменные и метаданные которые детально описаны, доступны, стандартизированы, но сами данные доступны только после регистрации, направления запроса и получения подтверждения.

И, конечно, это продукт с открытым исходным кодом [7].

Во многих научных дисциплинах есть специализированные продукты/каталоги данных используемых для доступа к данным исследований в форме специфичной для этой дисциплины и Obiba Mica - это один из таких примеров.

В реестре Dateno есть около 20 дата порталов на базе Obiba Mica, в дикой среде их ещё где-то столько же, но в индексе Dateno их нет, поскольку данные из таких каталогов недоступны, а есть только метаданные. А это снижает приоритет индексирования, не говоря уже о том что наборов данных в таких порталах немного, от единиц до пары сотен датасетов.

Ссылки:
[1] https://www.obiba.org/pages/products/mica/
[2] https://t.iss.one/begtin/5053
[3] https://recap-preterm.eu/
[4] https://eucanconnect.com/
[5] https://coral.igtp.cat/pub/
[6] https://recap-ispup.inesctec.pt/pub/
[7] https://github.com/obiba

#opendata #datacatalogs #datasets #dateno #microdata #epidemiology