Ivan Begtin
7.98K subscribers
1.85K photos
3 videos
101 files
4.56K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Forwarded from APICrafter
В каталог DataCrafter загружены данные каталога справочников и классификаторов Минздрава РФ nsi.rosminzdrav.ru, это 1520 справочников помещенных в группы Справочники и классификаторы и Медицина. Их совокупный объём составляет более 7 гигабайт.

Все данные доступны как открытые данные, могут быть выгружены в виде цельных датасетов для MongoDB и с открытым API.

Из интересных данных, например:
- Алфавитный указатель к Международной статистической классификации болезней и проблем, связанных со здоровьем - это чуть менее чем 1 миллион 250 тысяч записей
- Классификатор адресов России. Улицы (1.2.643.5.1.13.2.1.1.663) - создан на базе КЛАДР 4.0, включает 520 тысяч записей

В общей сложности новые наборы данных содержат 15 тысяч полей и около 7 миллионов записей. В ближайшее время все загруженные наборы данных будут подвергнуты автоматическому анализу и классификации, типы полей будут идентифицированы и привязаны к кодам классификации в разделе Классификация проекта.

#opendata #datacatalogs #medicine #data #datasets
Научная статья Diego A. Forero, Walter H. Curioso и George P. Patrinos "The importance of adherence to international standards for depositing open data in public repositories" [1] о значимости международной стандартизации в публикации открытых данных в общедоступных репозиториях. В статье весьма подробно о том как организации выделяющие финансирование исследований в США и в Европе обязывают учёных публиковать результаты как открытые данные, о стандартах TOP Transparency and Openness Promotion [2] и множество ссылок на научные статьи и дискусии о принципах обмена данных в ситуации пандемии и необходимости доступности качественных данных.

Статья опубликована в BMC (Springer Nature), поэтому у неё довольно чёткий уклон в сторону биоинформатики, но много отсылок и на государственные порталы открытых данных в ЕС и США.

И тут же вдогонку пример поисковой системы по данным - DataMed.org [3] более 2.300.000+ наборов данных из 76 цифровых репозиториев. На его же основе Covid19 Data Index [4] где более 7800+ наборов данных исследований по COVID-19.

Ссылки:
[1] https://bmcresnotes.biomedcentral.com/articles/10.1186/s13104-021-05817-z
[2] https://www.cos.io/initiatives/top-guidelines
[3] https://datamed.org/
[4] https://www.covid19dataindex.org/

#opendata #datacatalogs #datasets #data #medicine #biomed
В рубрике как это устроено у них есть большая тема про доступность данных которую никак не уложить в короткий текст да и длинных текстов понадобится немало. Про инфраструктуру открытых данных в медицине, тесно переплетённую с идеей открытого доступа в науке.

Сразу всё сложно, можно подступиться к к отдельным её частям.

...
Значительная часть открытых данных связанных с медицинскими исследованиями в мире публикуется благодаря политике Национального института здравоохранения США (NIH). И связано это с тем что у NIH есть последовательная политика:
1. Вначале предпочтительности, а далее обязательности открытого доступа для всех финансируемых им исследований.
2. Последовательная политика поощрения создания и создания собственных репозиториев данных и иных результатов научной деятельности.
3. Прямые инвестиции в инфраструктуру создания, обработки, визуализации и систематизации данных научных исследований.

Примеры реализации этих политик в виде каталога репозиториев данных поддерживаемых NIH [1] причём эти репозитории разделяются на Generalist и Domain Specific. Первые - это репозитории данных как датасетов, такие как Zenodo или OSF. Вторые - это специализированные репозитории данных где единицей измерения/учёта/записи являются, как правило, не датасеты, а объекты научной деятельности к которым привязаны данные. Это могут быть репозитории исследований (studies), репозитории геномов (genomes) и так далее. Как правило эти репозитории содержат существенное число метаданных связанных с медициной/биоинформатикой/генетикой и перевязаны между собой кросс ссылками.

По мере нарастания критической массы разных проектов, а там реально очень много проектов на данных у NIH есть Common Fund Data Ecosystem (CFDE) [2] по интеграции существующих дата порталов и иных дата проектов общими правилами и конвейерами обработки данных. А сама эта инициатива существует в рамках The Common Fund в рамках которого как раз финансируется общая инфраструктура, важная для всех направлений исследований [3].

Медицина и, более широко, биоинформатика формируют собственную сложную экосистему репозиториев данных, инструментов, ключевых понятий и онтологий чем многие другие.

Реальные объёмы данных, количественные и качественные там поражают и одновременно, это область весьма замкнутого применения. Она как бы полностью в себе, как и большая часть научных дисциплин. Во всяком случае так это выглядит со стороны человека не вовлеченного в них напрямую.
...

Ссылки:
[1] https://www.nlm.nih.gov/NIHbmic/domain_specific_repositories.html
[2] https://commonfund.nih.gov/dataecosystem
[3] https://commonfund.nih.gov/current-programs

#opendata #medicine #openaccess #health #data