Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Возвращаюсь из недельной командировки совмещённой с отпуском, надеюсь что читатели не заскучали по материалам про данные. И сразу же интересный свежий доклад The State of Open Data 2023 [1] от команды Digital Science, стартапа/компании предоставляющих Figshare и другие порталы и сервисы для открытой инфраструктуры для научных публикаций.

Доклад не про то что вы можете подумать публикуется на порталах открытых данных, а про то как исследователи публикуют свои данные. В каких дисциплинах чаще, с какой мотивацией, что они об этом думают, помогают ли им и так далее. Тем кто хочет знать как развивается открытость науки в головах исследователей - это полезный документ. Он составлен через опросы как и большая часть докладов жанра "The State of ...", и главный вывод который можно сделать в том что открытость данных в науке - это долговременный постепенно развивающийся и не останавливающийся тренд.

Ссылки:
[1] https://digitalscience.figshare.com/articles/report/The_State_of_Open_Data_2023/24428194

#opendata #openaccess #research #science
В рубрике как это устроено у них центры научных данных и другие проекты распространения научных данных Китайской республики.

Центры научных данных
- National Basic Sciences Public Science Data Center [1] - центр данных по базовым дисциплинам: физика, химия, астрономия, биология и т.д.
- National Marine Science Data Center [2] - центр данных о море и водных объектах
- National Earthquake Science Data Center [3] - центр данных о землетрясениям
- National Meteorological Science Data Center [4] - центр данных по метеорологии
- National Forestry and Grassland Science Data Center [5] - центр данных о лесе и зеленых насаждениях
- National Agricultural Science Data Center [6] - центр данных о сельском хозяйстве
- National Population Health Science Data Center [7] - центр данных о здоровье граждан
- National Metrological Science Data Center [8] - центр данных по метрологии
- National Cryosphere Desert Data Center [9] - центр данных о засушливых и холодных территориях

Другие ресурсы
- CSDB [10] центр научных данных академии наук Китая. Действует с 1987 года, включает более 45 тысяч наборов данных
- Science Data Bank [11] портал для публикации данных исследователями Китая. Интегрирован с большинством поисковых систем, сервисов цитирования и иными глобальными сервисами открытой науки
- CSData [12] научный журнал посвящённый доступности научных данных Китая и для китайских исследователей
- FinData [13] поисковик по научным данным Китая и данным используемых китайскими исследователями

Не все из научных порталов данных предоставляют открытые данные, через многие доступны данные только по запросу или авторизации, в некоторых случаях существуют градации режимов доступа, в ряде случаев есть требования/рекомендации поделиться Вашими исследованиями на этих данных. Однако широко распространены свободные лицензии и большая часть данных общедоступны и не требуют никаких усилий кроме как скачать их напрямую и знать китайский язык.

Ссылки:
[1] https://www.nsdata.cn
[2] https://mds.nmdis.org.cn
[3] https://data.earthquake.cn
[4] https://data.cma.cn/en
[5] https://www.forestdata.cn
[6] https://www.agridata.cn
[7] https://www.geodata.cn
[8] https://www.nms.org.cn
[9] https://www.ncdc.ac.cn/portal/?lang=en
[10] https://www.casdc.cn
[11] https://www.scidb.cn/en
[12] https://www.csdata.org/en/
[13] https://findata.cn

#opendata #datasets #china #datacatalogs #openaccess #openresearch
В рубрике как это работает у них о том как публикация данных для обучения ИИ и медицинских исследований в США. На портале CDC Data Platform от National Cancer Institute опубликовано более миллиона изображений объёмом более чем 6.7 Петабайт [1] их которых 20 Терабайт (около 30% по числу файлов) являются полностью открытыми, а остальные в режиме регламентированного доступа, предоставляются по запросу после авторизации. Для доступа используется специальное ПО для выгрузки данных. У портала с данными есть открытое API и открытый код [2].

В целом это один из наиболее крупных порталов научных данных, из его особенностей это то что он имеет предметную, а не общетематическую природу и набором данных на нём называется "коллекция" (collection) случаев (case) включающая множество файлов изображений. Это особенность научных порталов в том что для превращения в порталы открытых данных или просто порталы данных в нём имеющиеся тематические понятия приводятся к понятиям набора данных.

Ссылки:
[1] https://portal.gdc.cancer.gov/repository?facetTab=files&files_sort=%5B%7B%22field%22%3A%22file_size%22%2C%22order%22%3A%22desc%22%7D%5D&searchTableTab=files
[2] https://github.com/NCI-GDC/gdc-docs

#opendata #datasets #genomics #cancer #openaccess #data #usa
В рубрике как это работает у них реестр исследовательской инфраструктуры в Австрии [1]. Всего 2300 объектов среди которых десятки банков данных, порталов данных, научных репозиториев (статей, данных и тд.), тестовых лабораторий, специализированных лабораторий и устройств, обсерваторий и другой инфраструктуры.

Во многих странах такая инфраструктура существует, не во всех это столь тщательно систематизировано.

С точки зрения данных интересен список из 127 научных дата архивов, репозиториев и баз данных.

Из любопытного, по каждому объекту научной инфраструктуры присутствуют:
- условия использования
- ссылки на проводимые проекты
- ссылки на научные публикации с упоминанием.

Ссылки:
[1] https://forschungsinfrastruktur.bmbwf.gv.at/en

#openscience #openaccess #austria