В рубрике как это работает у них, существует такой тип порталов и каталогов данных как каталоги микроданных. Это не про данные малого размера, но про данные создаваемые при работе социологов и конкретно при опросах граждан и бизнеса. Эти опросы проводятся регулярно на уровне стран и некоторые межгосударственные и международные организации. Особенность микроданных в том что они часто содержат сведения прямо или косвенно идентифицирующие конкретного опрашиваемого человека, поэтому чаще данные результатов опросов доступны не полностью, а только в виде метаданных с описанием и их надо запрашивать у владельца, но часто, опять же, данные проходят анонимизацию и всё же доступны для всех. В любом случае каталоги микроданных создаются с открытыми метаданными описывающими содержание собранных данных.
Наиболее популярным в мире ПО для ведения таких каталогов это NADA Microdata Cataloging Tool [1], продукт с открытым кодом разработанный за счёт Всемирного Банка и поддерживаемый организацией International Household Survey Network которые поддерживают централизованный каталог микроданных подобных опросов [2] по огромному числу стран и включающий как открытые данные, так и данные по запросу.
А также на базе NADA работают каталоги микроданных Всемирного банка [3], FAO [4], UNCHR [5], а на пост-советском пространстве в Армении [6]. В отличие от геокаталогов данных и порталов открытых данных, в каталогах микроданных используются другие стандарты метаданных. В частности, основным стандартом является DDI [7], стандарт публикации статистических данных.
В России микроданные также публикуются Росстатом, но на совершенно другом ПО, не обновлявшемся более 9 лет [8]. Данные в системе obdx.gks.ru последний раз актуализировались в 2021 году.
А ранее многие статистические службы публиковали данные через ПО Nesstar Web View, но с 2022 года развитие продукта прекратилось, а редактор данных для стандарта Nesstar также передан в IHSN [9]. В этом стандарте/формате Nesstar публиковались и российские микроданные и до сих пор публикуются во многих странах.
Ссылки:
[1] https://nada.ihsn.org/
[2] https://catalog.ihsn.org
[3] https://microdata.worldbank.org
[4] https://microdata.fao.org
[5] https://microdata.unhcr.org
[6] https://microdata.armstat.am
[7] https://ddialliance.org/
[8] https://obdx.gks.ru/
[9] https://www.ihsn.org/software/ddi-metadata-editor
#opendata #microdata #statistics #knowhow
Наиболее популярным в мире ПО для ведения таких каталогов это NADA Microdata Cataloging Tool [1], продукт с открытым кодом разработанный за счёт Всемирного Банка и поддерживаемый организацией International Household Survey Network которые поддерживают централизованный каталог микроданных подобных опросов [2] по огромному числу стран и включающий как открытые данные, так и данные по запросу.
А также на базе NADA работают каталоги микроданных Всемирного банка [3], FAO [4], UNCHR [5], а на пост-советском пространстве в Армении [6]. В отличие от геокаталогов данных и порталов открытых данных, в каталогах микроданных используются другие стандарты метаданных. В частности, основным стандартом является DDI [7], стандарт публикации статистических данных.
В России микроданные также публикуются Росстатом, но на совершенно другом ПО, не обновлявшемся более 9 лет [8]. Данные в системе obdx.gks.ru последний раз актуализировались в 2021 году.
А ранее многие статистические службы публиковали данные через ПО Nesstar Web View, но с 2022 года развитие продукта прекратилось, а редактор данных для стандарта Nesstar также передан в IHSN [9]. В этом стандарте/формате Nesstar публиковались и российские микроданные и до сих пор публикуются во многих странах.
Ссылки:
[1] https://nada.ihsn.org/
[2] https://catalog.ihsn.org
[3] https://microdata.worldbank.org
[4] https://microdata.fao.org
[5] https://microdata.unhcr.org
[6] https://microdata.armstat.am
[7] https://ddialliance.org/
[8] https://obdx.gks.ru/
[9] https://www.ihsn.org/software/ddi-metadata-editor
#opendata #microdata #statistics #knowhow
www.ihsn.org
DDI Metadata Editor (Nesstar Publisher 4.0.10) | IHSN
The IHSN Metadata Editor, also known as the Nesstar Publisher, is a specialized XML editor compliant with the Data Documentation Initiative (DDI) 2.n and the Dublin Core metadata standards
В рубрике как это устроено у них канадский портал публикации микроданных опросов посвящённых COVID-19 CITF DATA PORTAL [1] где CITF расшифровывается как he COVID-19 Immunity Task Force, рабочая группа по иммунитету от COVID. В отличие от порталов открытых данных подобные порталы опросов не бывают открытыми в виду того что содержащиеся в них данные содержат персональные данные опрашиваемых или же поскольку персональные данные могут быть из них восстановлены. Такие ресурсы ещё называют каталогами микроданных, их довольно много в мире.
Хотя эти данные редко доступны широкой аудитории, они доступны исследователям через формальные запросы и процедуры их одобрения.
Хотя здесь и нет открытых данных, но есть открытый код и конкретно CITF Data Portal создан на базе открытого ПО для эпидемиологии Obiba Mica [3].
Ссылки:
[1] https://portal.citf.mcgill.ca/
[2] https://www.covid19immunitytaskforce.ca
[3] https://www.obiba.org
#opendata #datacatalogs #microdata #canada
Хотя эти данные редко доступны широкой аудитории, они доступны исследователям через формальные запросы и процедуры их одобрения.
Хотя здесь и нет открытых данных, но есть открытый код и конкретно CITF Data Portal создан на базе открытого ПО для эпидемиологии Obiba Mica [3].
Ссылки:
[1] https://portal.citf.mcgill.ca/
[2] https://www.covid19immunitytaskforce.ca
[3] https://www.obiba.org
#opendata #datacatalogs #microdata #canada
В рубрике как это устроено у них порталы данных эпидемиологических исследований, для них существует специальное ПО с открытым кодом Obiba Mica [1], я в прошлом году упоминал [2] портал с данными по COVID-19, но это далеко не единственный такой проект с данными.
На базе Obiba Mica работает несколько десятков порталов данных в рамках проектов RECAP Preterm [3], европейский проект мониторинга детей с недостаточным весом и рождённых до срока и EUCAN Connect [4] совместные проекты Евросоюза и Канады в области персонализированной и превентивной медицины. Инсталляции на базе Obiba Mica разбросаны по разным странам: Испания [5], Португалия [6] и многие другие.
В чём особенность этих порталов? Во первых они не содержат открытые данные. Практически всегда содержащиеся там данные - это медицинские сведения, даже если они деперсонализированы, они более всего похожи на микроданные переписей и также организованы.
У датасетов есть переменные и метаданные которые детально описаны, доступны, стандартизированы, но сами данные доступны только после регистрации, направления запроса и получения подтверждения.
И, конечно, это продукт с открытым исходным кодом [7].
Во многих научных дисциплинах есть специализированные продукты/каталоги данных используемых для доступа к данным исследований в форме специфичной для этой дисциплины и Obiba Mica - это один из таких примеров.
В реестре Dateno есть около 20 дата порталов на базе Obiba Mica, в дикой среде их ещё где-то столько же, но в индексе Dateno их нет, поскольку данные из таких каталогов недоступны, а есть только метаданные. А это снижает приоритет индексирования, не говоря уже о том что наборов данных в таких порталах немного, от единиц до пары сотен датасетов.
Ссылки:
[1] https://www.obiba.org/pages/products/mica/
[2] https://t.iss.one/begtin/5053
[3] https://recap-preterm.eu/
[4] https://eucanconnect.com/
[5] https://coral.igtp.cat/pub/
[6] https://recap-ispup.inesctec.pt/pub/
[7] https://github.com/obiba
#opendata #datacatalogs #datasets #dateno #microdata #epidemiology
На базе Obiba Mica работает несколько десятков порталов данных в рамках проектов RECAP Preterm [3], европейский проект мониторинга детей с недостаточным весом и рождённых до срока и EUCAN Connect [4] совместные проекты Евросоюза и Канады в области персонализированной и превентивной медицины. Инсталляции на базе Obiba Mica разбросаны по разным странам: Испания [5], Португалия [6] и многие другие.
В чём особенность этих порталов? Во первых они не содержат открытые данные. Практически всегда содержащиеся там данные - это медицинские сведения, даже если они деперсонализированы, они более всего похожи на микроданные переписей и также организованы.
У датасетов есть переменные и метаданные которые детально описаны, доступны, стандартизированы, но сами данные доступны только после регистрации, направления запроса и получения подтверждения.
И, конечно, это продукт с открытым исходным кодом [7].
Во многих научных дисциплинах есть специализированные продукты/каталоги данных используемых для доступа к данным исследований в форме специфичной для этой дисциплины и Obiba Mica - это один из таких примеров.
В реестре Dateno есть около 20 дата порталов на базе Obiba Mica, в дикой среде их ещё где-то столько же, но в индексе Dateno их нет, поскольку данные из таких каталогов недоступны, а есть только метаданные. А это снижает приоритет индексирования, не говоря уже о том что наборов данных в таких порталах немного, от единиц до пары сотен датасетов.
Ссылки:
[1] https://www.obiba.org/pages/products/mica/
[2] https://t.iss.one/begtin/5053
[3] https://recap-preterm.eu/
[4] https://eucanconnect.com/
[5] https://coral.igtp.cat/pub/
[6] https://recap-ispup.inesctec.pt/pub/
[7] https://github.com/obiba
#opendata #datacatalogs #datasets #dateno #microdata #epidemiology