Ivan Begtin
7.99K subscribers
1.88K photos
3 videos
101 files
4.58K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В рубрике как это устроено у них данные проекта CMIP6 [1] (Coupled Model Intercomparison Project) по моделированию климата Земли формируются десятком научных климатических центров по всему миру. Итоговые данные публикуются в формате NetCDF и составляют более 13 миллионов датасетов размеров петабайты если не больше [2]. Эти данные весьма специфичны к этой области и малополезны за пределами климатологии и специалистов в этой области. Практически все они создаются в США и Европейских странах, но в списках партнерствующих лабораторий есть и научные центры в Китае и Индии.

В целом, данные наук о Земле (Earth Sciences) сформированы в отдельную экосистему, стандарты, форматы и каталоги данных. Точно также как и биоинформатика, генетика, астрофизика, физика частиц и многие другие научные дисциплины.

Ссылки:
[1] https://pcmdi.llnl.gov/CMIP6/
[2] https://aims2.llnl.gov/search

#opendata #datasets #data #climatology #earthsciences #cmip6
В мире очень много данных о которых мало кто знает (с)

Большой срез научных данных - это данные о погоде, климате и наблюдениях за морями и океанами. Всё это является частью метеорологии и климатологии наук которые изначально про работу с большими данными, поскольку данные метеонаблюдений, спутниковых снимков и тд. - это реально большие объёмы данных поступающих в реальном времени.

Так вот большая часть этих данных в мире собирается с помощью открытого кода и публикуется в форме датасетов в каталогах данных на базе движка ERDDAP [1]. Это довольно старый программный продукт, разработанный Национальным управлением океанических и атмосферных исследований и используемый как каталог научных данных с возможностью работать с данными через API, в виде графов, таблиц и с первичными данными в формате NetCDF.

В общей сложности в мире более 100 инсталляций ERDDAP, большая их часть находится в США, но есть и в Австралии, Японии, странах ЕС и ряде других. В совокупности это более 100 тысяч наборов данных, а реальный объём данных сложно измерить, но можно исходить из того что там минимум сотни терабайт, а скорее больше.

В реестре Dateno тоже есть записи с серверами ERDDAP [2] и пока их там чуть менее 70, по большинству из них ещё не собраны нужные метаданные и сами данные ещё не индексируются.

В ближайшие недели/месяцы мы, конечно, индексировать их начнём, поскольку они неплохо стандартизированы и пригодны для индексации. Но это та область которая как бы существует сама по себе, узкая нишевая научная инфраструктура в которой, в принципе, большинство исследователей и так знают где что искать.

Поэтому для Dateno эти каталоги данных пока не первоприоритетны, но они несомненно интересны для понимания того как устроены данных в отдельных научных дисциплинах. А что то и так индексируется с существующих дата каталогов где есть ссылки на данные из ERDDAP [3]

Ссылки:
[1] https://github.com/ERDDAP
[2] https://dateno.io/registry/catalog/cdi00004521/
[3] https://dateno.io/search?query=ERDDAP

#opendata #dataportals #datasets #oceans #climatology