Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В рубрике как это устроено у них японский национальный репозиторий результатов научных работ IRDB [1], включает 4.1 миллиона ресурсов, большая часть которых это научные статьи, журналы, публикации после конференций и так далее, а также боле чем 124 тысячи наборов исследовательских данных. Чем то IRDB схож с проектами OpenAIRE и SciDB, хотя и сделан весьма консервативнее.

В его основе харвестинг метаданных из более чем 700 научных репозиториев [2] в которых реализовано раскрытие метаданных по стандарту JPCOAR [3] через интерфейсы OAI-PMH. Сам репозиторий IDRB также поддерживает доступ через OAI-PMH [4] и с ним можно взаимодействовать программным образом.

Простота харвестинга во многом обеспечена тем что значительная часть репозиториев - это репозитории на базе open-source ПО Weko3 которое является доработанной версией репозитория для научных публикаций Invenio 3 и который и обеспечивает предоставление метаданных через OAI и, также, предоставляет иные, API упрощающие сбор данных. Weko3 был разработан Национальным институтом информатики Японии, той же организацией что управляет IRDB

У IRDB множество недостатков тоже есть:
- нет bulk download, нельзя скачать базу целиком
- нет документированного API, даже интерфейс OAI не упомянут на сайте, не говоря уже о том что он устарел для большей части задач
- схемы данных описания датасетов весьма консервативны. Нет даже разметки schema.org, не говоря уже о DCAT.

В целом проект выглядит проработанным, живым, но замершим в развитии.

Кстати, китайский проект SciDb сделан очень похожим образом. Также есть ПО институциональных репозиториев созданный структурой Китайской академии наук и централизованный архив/поиск индексирующий все эти репозитории.

Возвращаясь к IRDB, например, для Dateno проще автоматизировать сбор метаданных из японских репозиториев напрямую чем индексировать IRDB именно из-за отсутствия другого API кроме OAI.


Ссылки:
[1] https://irdb.nii.ac.jp
[2] https://irdb.nii.ac.jp/en/repositorylist
[3] https://schema.irdb.nii.ac.jp/en
[4] https://irdb.nii.ac.jp/oai

#opendata #data #openaccess #japan #china #openscience
Я совсем пропустил публикацию обновлённого China Open Data Index [1] в январе 2024 года, а там интересные цифры в виде 345 853 наборов данных доступных на региональных государственных порталах открытых данных Китая.

А также всего с 2017 года появилось 226 городских порталов открытых данных (60% от всех городов) и 22 региональных портала из 27 провинций.

Точный объём данных на городских порталах неизвестен, но весьма велик почти наверняка.

Много ли это? Да много. Например, в США на портале data.gov опубликовано порядка 300+ тысяч наборов данных из которых от 60 до 80% - это открытые научные данные

А в Китае очень много научных данных доступно через scidb.cn и findata.cn.

Ссылки:
[1] https://ifopendata.fudan.edu.cn

#opendata #china #data
Один из крупнейших проектов с большими научными данными - это Китайский национальный центр биоинформации через сайт которого доступно более 53 Петабайт геномных данных [1]. Причём в августе 2021 года их было всего 5 Петабайт и сейчас можно наблюдать 10-кратный рост за 3 года. Такими темпами к концу 2025 года будут все 100 Пб.

Внутри центра много разных баз данных и архивов, от нескольких терабайт, до десятка петабайт. Все данные доступны в форматах специфичных в для биоинформатики и геномных исследований.

Часть этих данных полностью открытые и их можно сразу скачать через FTP или HTTP интерфейсы, часть требуют процедуры получения доступа через профильный комитет доступа к данным Data Access Committee(DAC) [2].

Ссылки:
[1] https://www.cncb.ac.cn/services
[2] https://ngdc.cncb.ac.cn/gsa-human/browse/HRA002875

#opendata #china #data #genomics #bigdata
Кстати, помните я расхваливал китайский портал/агрегатор научных данных SciDb [1].

Так вот его можно не только хвалить. После некоторого исследования его содержания он на 100% соответствует подходу "главное не быть, а казаться". Из заявленных 10 миллионов наборов данных лишь 18 тысяч имеют присоединённые файлы и загружены через сам портал, ещё 754 тысячи собраны из нескольких больших открытых порталов научных данных таких как Zenodo и PANGAEA, а всё остальное - это просто слепок поискового индекса по данным DataCite, сильно замусоренного и, объективно, без значимых метаданных, да и не факт что ссылки на сами данные.

С одной стороны, как обидно, так мало данных. С другой стороны, очередное подтверждение приоритетов индексирования и то что из SciDB можно собирать только те данные что туда были загружены. Другой вопрос что отфильтровать их непросто.

В любом случае удивительно то что вместо индексации тех же геномных данных китайцы пошли по этому пути.

Ссылки:
[1] https://www.scidb.cn

#opendata #china #datasets #datacatalogs
Полезное чтение про данные, технологии и не только:
- Unlocking AI for All: The Case for Public Data Banks [1] о том что для развития экосистемы ИИ нужны public AI data banks (PAIDs), каталоги данных доступных для исследователей и среднего/малого бизнеса. Мысли здравые и даже примеры близкие, но автор явно далёк от некоторых областей работы с данными иначе знал бы более релевантные примеры. В любом случае идея актуальная ещё надолго.
- China: Autocracy 2.0 [2] структуризация экономической и политической политики Китая с оглядкой на его автократическую модель. Что-то кажется очевидным, что-то не так очевидным, но всё вместе неплохо описано.
- Climate and Health Outcomes Research Data Systems (CHORDS) [3] проект и каталог данных о влиянии окружающей среды на здоровье человека. Каталог данных скорее выглядит как агрегатор ссылок на академические репозитории, но всё неплохо организовано. Подробный рассказ про инициативу [4] и, что любопытно, внутри него ранее не встречавшийся мне продукт каталога данных Gen3 Data Commons [5]
- Need for Co-creating Urban Data Collaborative [6] про инициативы по открытости данных в Индии на уровне городов и вовлечение граждан в создание данных. Много интересного о том что там происходит, из любопытного, у них есть DMAF (Data Maturity Assessment Framework) [7] для оценки зрелости работы с данными в индийских городах и результаты оценки и дашборд по 100 городам [8]
- Report – Improving Governance Outcomes Through AI Documentation: Bridging Theory and Practice [9] доклад о необходимости и влиянии документированности AI моделей на их управляемость


Ссылки:
[1] https://www.lawfaremedia.org/article/unlocking-ai-for-all--the-case-for-public-data-banks
[2] https://www.nber.org/papers/w32993
[3] https://niehs.github.io/chords_landing/index.html
[4] https://factor.niehs.nih.gov/2024/8/science-highlights/climate-health-data
[5] https://gen3.org/products/data-commons/
[6] https://medium.com/civicdatalab/need-for-co-creating-urban-data-collaboratives-1ab9bc2c0776
[7] https://dmaf.mohua.gov.in/
[8] https://amplifi.mohua.gov.in/dmaf-dashboard
[9] https://cdt.org/insights/report-improving-governance-outcomes-through-ai-documentation-bridging-theory-and-practice/

#data #opendata #ai #india #china #healthcare #openaccess #datapolicy