Ivan Begtin
7.98K subscribers
1.85K photos
3 videos
101 files
4.56K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В рубрике как это устроено у них портал открытых данных провинции Центральная Ява в Индонезии [1]. Отличается каким-то неимоверным числом опубликованных датасетов, там их чуть менее 200 тысяч что, конечно, очень много. Для сравнения на портале открытых данных США Data.gov всего опубликовано 300 тысяч датасетов. А тут всего одна провинция, да ещё и в Индонезии.

При этом, там почти нет геоданных или научных данных, зато бесконечное число файлов статистики и Excel файлов. Такое ощущение что они просто обыскали все компьютеры и выложили все найденные Excel файлы, сконвертировав некоторые из них в CSV.

Это пример того почему я говорил что сделать национальный портал открытых данных и быстро его наполнить вообще несложно. Сложно сделать его полезным.

Ссылки:
[1] https://data.jatengprov.go.id/dataset/

#opendata #indonesia #centraljava #datacatalogs
Ivan Begtin
В рубрике как это устроено у них портал открытых данных провинции Центральная Ява в Индонезии [1]. Отличается каким-то неимоверным числом опубликованных датасетов, там их чуть менее 200 тысяч что, конечно, очень много. Для сравнения на портале открытых данных…
Крупнейшие порталы открытых данных в мире, по критерию количества (не физического объёма) открытых данных и с более чем 100 тысячами наборов данных.

Открытые данные

- data.europe.eu - портал открытых данных Евросоюза, данные структур ЕС и агрегатор данных входящих в ЕС стран
- data.gov - национальный портал открытых данных США
- data.jatengprov.go.id портал открытых данных провинции Центральная Ява, Индонезия
- datos.gob.es - портал открытых данных Испании
- www.govdata.de - портал открытых данных Германии

Научные данные
- explore.openaire.eu - портал раскрытия результатов исследований в Европейском союзе, разные формы результатов, включая наборы данных
- zenodo.org - портал для раскрытия научных данных от CERN
- data.mendeley.com - портал агрегатор научных данных от Elsevier. Лукавят с числами, реально наборов данных значительно меньше заявленных 31 миллиона, поскольку за датасеты выдают, в том числе, отдельные машиночитаемые записи. Но несколько миллионов наборов данных точно есть.
- figshare.com - платформа и агрегатор научных данных от Digital Science

Геоданные

- data.amerigeoss.org - портал геоданных сообщества AmeriGEO, включающего все страны северной, центральной и южной америк
- hub.arcgis.com - платформа и агрегатор открытых данных от компании ArcGIS
- metadaten.geoportal-bw.de портал геоданных земли Baden-Wurttemberg в Германии
- geo.btaa.org - большой геопортал альянса университетов в США, чуть-чуть недотягивает до 100 тысяч датасетов
- atom.cuzk.cz - портал геоданных Чешского кадастра
- catalogue.geo-ide.developpement-durable.gouv.fr - каталог геоданных Франции


Данные для обучения ИИ
- www.kaggle.com - крупнейший каталог наборов данных для обучения ИИ
- huggingface.co - второй после Kaggle и стремительно набирающий популярность (и данные) каталог данных для обучения ИИ

Статистика
- data.worldbank.org - более 4-х миллионов индикаторов в системе Всемирного Банка, если рассматривать их в привязке к странам и территориям. Неочевидно если смотреть индикаторы на сайте, выясняется при использовании их API
- data.bis.org - многочисленные индикаторы банка международных расчётов
- data.ecb.europa.eu - огромное число индикаторов Европейского центрального банка


#opendata #datacatalogs #bigdata
В рубрике как это устроено у них открытые данные в Великобритании. Самый очевидный опыт когда дело касается открытых данных. Один из эпицентров движухи про открытые данные в мире был именно в Великобритании и один из первых порталов государственных открытых данных data.gov.uk также появился именно там.

Сейчас там 67 тысяч наборов данных и сам портал выглядит если не запущенным, то точно не развивающимся уже несколько лет. Особенно если сравнить с общеевропейским порталом data.europe.eu или порталом открытых данных Франции data.gouv.fr.

Малоизвестная широкой публике особенность открытости данных в Великобритании - это огромное число академических порталов раскрытия данных. Фактически данные публикуются всеми исследовательскими центрами и университетами, либо в общих порталах открытого доступа и раскрытия research outputs, либо на специальных порталах с research data.

Параллельно с этим в Великобритании существует множество порталов открытых данных городов и отдельных графств, множество геопорталов и тд. В реестре Dateno сейчас 382 каталога данных страны и почти наверняка есть ещё неучтённые. Из каталогов которые можно выделить:

Открытые данные
- Resource Data https://www.resourcedata.org

Геоданные
- NERC Geonetwork https://csw-nerc1.ceda.ac.uk/geonetwork/
- CEDA Geonetwork https://csw.ceda.ac.uk/geonetwork

Научные данные
- British Antarctic Survey Data https://data.bas.ac.uk

#opendata #datasets #uk #datacatalogs
17-18 сентября я буду в Алма-Ата, в Казахстане, какое-то число встреч встреч уже запланировано, если задумаете со мной там пересечься, напишите.

А пока об открытых данных в Казахстане я неоднократно тут писал, в стране довольно контрастная ситуация когда одновременно есть портал данных data.egov.kz который хоть и называется порталом открытых данных, но по факту ничего открытого там нет. И параллельно существует геопортал НИПД где как раз именно открытые данные, но только пространственные и в отличие от data.egov.kz он сделан на типовом ПО GeoNode как раз предназначенном для раскрытия геоданных.

А главная особенность Казахстана в большом числе региональных геопорталов сделанных местными компаниями и, соответственно, на которых слои карт отдаются в каких-то собственных форматах вместо общепринятых.

И отдельно, важная тема, в Казахстане практически нет практики публикации научных данных. Либо эта культура ещё не сформировалась, либо публикация данных идёт только на зарубежных ресурсах

В целом ощущения что данных много, систематизации мало, а проекты вроде data.egov.kz правильнее было бы закрыть или радикально переделать.

#opendata #datasets #datacatalogs #kazakhstan
В рубрике как это устроено у них, поисковик по биомедицинским датасетам DataMed [1], создан в Университете Калифорнии, Сан Диего, на грант 10 миллионов USD [2] от Национального института здравоохранения США и других грантодающих организаций.

С одной стороны, это действительно поисковик, с 49 проиндексированными репозиториями, 4-мя фасетами и 1.2 миллионами датасетов, а с другой стороны...

Из этих репозиториев топ 4 содержат 1 миллион датасетов, более 83% и, в целом, если пройтись по сайтам этих топ 4 репозиториев: ClinicalTrials, Gene Expression Omnibus, NeuroMorpho, Zenodo то их поиск содержит гораздо больше возможностей.

Кроме того сами особенности индексируемых данных учитываются, как бы сказать, никак.

Не выглядит, конечно, как продукт за 10 миллиона долларов, но даже в таком виде любопытен и потенциально полезен.

И конечно, это не поисковик, а по сути агрегатор репозиториев. Главное отличие поисковика по данным и агрегатора, в том что агрегатор создан быть проиндексированным поисковыми системами и у каждого датасета есть отдельная индексируемая страница. А поисковик не предполагает что его будут индексировать другие поисковики.

Ссылки:
[1] https://datamed.org
[2] https://reporter.nih.gov/project-details/1U24AI117966-01

#opendata #datasets #datasearch #datacatalogs #healthcare #bioinformatics
В рубрике популярных каталогов данных OpenSDG [1] просто ПО с открытым кодом используемое статистическими службами многих стран для публикации индикаторов устойчивого развития.

Особенность OpenSDG в том что это открытый код [2] профинансированный статслужбами Великобритании и США и разработанный в CODE [3], The Center for Open Data Enterprise.

Из-за простоты и бесплатности его как раз и используют, например, статслужба Армении [4], Конго [5], Великобритании [6] и ещё пара десятков стран и множество городов [7].

OpenSDG нельзя назвать полноценным порталом данных, скорее порталом индикаторов. Причём без стандартизированного API, но со стандартизированной выгрузкой всех индикаторов целиком и некоторым псевдо API для доступа к данным индикаторов.

Ссылки:
[1] https://open-sdg.org
[2] https://github.com/open-sdg/open-sdg
[3] https://www.opendataenterprise.org/
[4] https://sdg.armstat.am
[5] https://odd-dashboard.cd
[6] https://sdgdata.gov.uk
[7] https://open-sdg.org/community

#opendata #datacatalogs #opensdg #statistics
Я, кстати, в очередной раз могу сказать что открытые данные - это, в первую очередь, культура и систематизация работы с данными. Так сложилось что я регулярно работаю с большими базами документов порождённых органами власти. Не с отдельными файлами, а прям с копиями банков документов законов и других НПА. И огромная часть этих НПА - это, безусловно, то что должно быть доступно в виде данных, а не в виде отсканированных PDF документов.

Если бы официальные документы все и всеми публиковались бы с приложениями, хотя бы в виде Excel файлов, то доступных данных было бы гораздо больше.

Например из десятков тысяч документов опубликованных органами власти г. Москвы на оф сайте mos.ru, как минимум несколько тысяч - это очень большие таблицы, в сотни и тысячи страниц опубликованные как сканы. Если бы их публиковали иначе, то то же Правительство Москвы могло бы публиковать не несколько сотен, а несколько тысяч наборов данных, потенциально весьма востребованных к тому же.

Это просто пример, он справедлив к отношении практически всех органов власти, особенно крупных стран и территорий.

А я об этом задумался ещё давно в контексте того что поиск по данным может начинаться как поиск по каталогам данных и индексированием того что уже машиночитаемо, а продолжаться охватывая то что ещё не машиночитаемо, но может стать таковым. Чтобы проиндексировать каталог данных, надо сделать этот каталог данных (с).

#opendata #datasets #laws #datacatalogs
В рубрике как это устроено у них Indian Data Portal [1] портал открытых данных созданный Bharti Institute of Public Policy, индийским исследовательским центром в области публичной политики.

Интересен тем что работает на собственном движке поверх каталога открытых данных CKAN. Сами данные хранятся в связанном с ним каталогом данных [2], а основной веб сайт использует API каталога данных для создания дополнительных фильтров при поиске данных, таких как гранулярность, сектор экономики, источник данных, частота обновления.

Данные исследователям доступны после авторизации и, в принципе, именно они являются аудиторией этого портала.

Это пример, использования CKAN как Data Management System (DMS), многие порталы данных в мире создавались по той же модели, когда CKAN используется как хранилище метаданных и данных, а над ним строятся разные интерфейсы.

Ссылки:
[1] https://indiadataportal.com/
[2] https://ckan.indiadataportal.com/

#opendata #datacatalogs #datasets #india
Полезные ссылки про данные, технологии и не только:
- Governing data products using fitness functions [1] полезная статья с определением того что такое Data Product и как ими управлять, в первую очередь с архитектурной точки зрения.
- UIS Data Browser [2] новый каталог данных (статистики) ЮНЕСКО, данных немного, но есть API и массовая выгрузка.
- Why is language documentation still so terrible? [3] гневная статья где автор ругает все языки программирования кроме Rust. Претензий много и я с ним согласен и не только в отношении языков. Хорошую документацию на SDK или open source продукты встретишь нечасто.
- How We Made PostgreSQL Upserts 300x Faster on Compressed Data [4] про оптимизацию загрузки данных в PostgreSQL с помощью TimescaleDB, лично я не видел этот движок в работе, но для каких-то задач он может быть именно тем что нужно
- ImHex [5] шестнадцатеричный редактор с открытым кодом для реверс инжиниринга. На мой взгляд мало что заменит IDA Pro, но для задач не требующих хардкора и когда нет денег вполне себе полезный инструмент.

Ссылки:
[1] https://martinfowler.com/articles/fitness-functions-data-products.html#ArchitecturalCharacteristicsOfADataProduct
[2] https://databrowser.uis.unesco.org/
[3] https://walnut356.github.io/posts/language-documentation/
[4] https://www.timescale.com/blog/how-we-made-postgresql-upserts-300x-faster-on-compressed-data/
[5] https://github.com/WerWolv/ImHex

#opensource #data #datacatalogs #documentation #dbs
В рубрике интересных наборов и каталогов данных, источники данных по блокчейну, Web 3
- Blockсhair datasets [1] дампы всех основных криптовалют: Bitcoin, Bitcoin Cash, Zcash, ERC-20, Ethereum, Dogecoin, Litecoin в виде коллекции сжатых TSV файлов
- Bitcoin Blockchain Historical Data [2] датасет на Kaggle адаптированный под data science прямо на платформе, только Bitcoin
- AWS Public Blockchain Data [3] дампы блокчейнов Bitcoin и Ethereum сразу в формате parquet
- Google Cloud Blockchain Analytics [4] данные и интерфейс работы с ними для 24 разных криптовалют на платформе Google Cloud

Ссылки:
[1] https://blockchair.com/dumps
[2] https://www.kaggle.com/datasets/bigquery/bitcoin-blockchain
[3] https://registry.opendata.aws/aws-public-blockchain/
[4] https://cloud.google.com/blockchain-analytics/docs/supported-datasets

#opendata #datasets #data #datacatalogs
Вышла бета версия германской статистической системы GENESIS-Online используемой статслужбой страны для публикации индикаторов [1]. В целом удобно, но скорее консервативно чем современно.

Из плюсов:
- есть API
- есть выгрузка в CSV/XLSX
- всё достаточно быстро и удобно

Из минусов:
- документированное API требует регистрации и авторизации, недокументированное... недокументировано
- документированное API сделано предоставляет SOAP интерфейс, непонятно зачем в 2024 году
- нет поддержки SDMX
- нет массовой выгрузки, bulk download

В целом, это скорее даже удивительно насколько статистика ЕС удобнее в работе чем статистика Германии, по крайней мере инструментально.

Ссылки:
[1] https://www-genesis.destatis.de/datenbank/beta

#opendata #statistics #germany #datacatalogs #indicators
Для тех кто любит применять правильные термины, оказывается ещё в июле 2024 г. вышел словарь CODATA Research Data Management Terminology [1] с подборкой англоязычных терминов по управлению исследовательскими данными.

В принципе то термины там относительно универсальны, но определения даны через призму работу исследователей, поэтому корректно их воспринимать именно в контексте исследовательских данных, принципов FAIR и открытого доступа.

Например, определение открытых данных звучит как:

Data that are accessible, machine-readable, usable, intelligible, and freely shared. Open data can be freely used, re-used, built on, and redistributed by anyone – subject only, at most, to the requirement to attribute and sharealike.[2]

Этот словарь доступен через портал Research Vocabularies Australia [3] агрегатор и поисковик по всем словарям используемым в исследовательских целях в Австралии.

Ссылки:
[1] https://vocabs.ardc.edu.au/viewById/685
[2] https://vocabs.ardc.edu.au/repository/api/lda/codata/codata-research-data-management-terminology/v001/resource?uri=https%3A%2F%2Fterms.codata.org%2Frdmt%2Fopen-data
[3] https://vocabs.ardc.edu.au

#opendata #semanticweb #data #datacatalogs #terms
В рубрике как это устроено у них Hakala [1] французский репозиторий данных для гуманитарных и социальных наук. Предоставляет открытое API [2], интерфейс OAI-PMH [3] и содержит чуть менее 800 тысяч цифровых объектов.

Кажется большим, но есть нюансы. Они почти всегда есть с научными репозиториями данных. В данном случае де-факто поиск не данных, а файлов/ресурсов и большая их часть (71%) это изображения, а самих датасетов там не более 1-2 % если к ним относить ещё и карты, большая часть которых, тоже, растровые изображения.

Иначе говоря, если смотреть глазами инженера, аналитика данных или дата сайентиста, то никаких данных там нет, а только фрагментированные первичные данные. Но учёные социологи и гуманитарии к данным, по всей видимости, относят всё что приложено к научной статье, а для гуманитарных статей это обычно изображения, видео, звуки, тексты.

Всё это к философским рассуждениям о том что такое данные и все они сводятся к тому что ответ зависит от того с кем разговариваешь. Кто аудитория? Потому что разные ответы для разных пользователей.

А также, чтобы два раза не возвращаться, ещё один интересный проект за пределами англосферы про систематизацию научных данных - это Cat OPIDoR [2] каталог научных репозиториев данных, баз данных и сервисов для их публикации и обработке во Франции. Отличается тем что сделан на Semantic Mediawiki. В каком-то смысле альтернатива re3data и других каталогов научных дата репозиториев.

Ссылки:
[1] https://nakala.fr
[2] https://api.nakala.fr/doc
[3] https://api.nakala.fr/oai2?verb=Identify
[4] https://cat.opidor.fr

#opendata #data #openaccess #france #datacatalogs
В рубрике как это устроено у них
Reproducible Research Repository [1] проект Всемирного банка по публикации кода и данных при проведении исследований, в основном социологических, по всему миру.

Отличается тем что это не портал открытых данных, а репозиторий для размещения метаданных, кода и данных для перепроверки проведенного исследования. Соответственно данные могут быть как полностью доступные и опубликованы так и ограниченные в доступе и только в виде метаданных с описанием процедуры доступа.

Хотя на сайте это нигде не указано, но в основе ПО для публикации метаданных NADA Data Catalog [2] на котором также работает портал микроданных Всемирного банка [3].

Сейчас в репозитории немного данных, всего 163 записи и не все из них содержат данные, иногда только код.

P.S. У Всемирного банка и структур ООН появляется всё больше порталов открытых данных и других дата каталогов. Я вскоре напишу про них подробнее

Ссылки:
[1] https://reproducibility.worldbank.org
[2] https://nada.ihsn.org
[3] https://microdata.worldbank.org

#opendata #datasets #openaccess #datacatalogs
В рубрике интересных каталогов и поисковиков по данным проект WorldEx [1] каталог данных и поисковик геоданных привязанных к хексагонам.

Кодирование через хексагоны стало популярным относительно недавно, авторы используют библиотеку H3 [2] от Uber.

Подход любопытный, благо в Dateno у нас миллионы датасетов с геоданными и было бы любопытно разметить их по хексагонам. Очень любопытно.

Сам проект worldex с открытым кодом [3], хранят данные в PostGIS и Elasticsearch.

Жаль не удалось найти код конвейеров данных по геокодированию в H3, но и без него такое можно повторить.

Ссылки:
[1] https://worldex.org
[2] https://h3geo.org
[3] https://github.com/worldbank/worldex

#opendata #data #search #datasearch #datacatalogs #dataviz #geodata
В рубрике как это устроено у них один из крупнейших научных репозиториев данных в мире ScienceBase.gov [1] поддерживается Геологической службой США (USGS) и содержит более чем 18.7 миллионов записей включающих наборы данных, точки подключения к API, файлы данных тайлов и многие другие относящиеся к геологии, геодезии, географии и другим гео наукам в США.

Большая часть записей там это разрезанные по регионам очень крупные базы данных такие как: National Elevation Dataset (NED) - 7.4 миллиона записей и
3D Elevation Program (3DEP) - 6.1 миллион записей и так далее.

Многие датасеты в этом репозитории - это описания физических объектов и содержан они, как машиночитаемое представление, так и многочисленные фотографии. Почти у всех датасетов есть геопривязка в форме точки на карте или полигон где находится множество точек/объектов.

Этот каталог по масштабам можно сравнить с Data.one и Pangaea, но по объёму и числу датасетов он гораздо больше.

При этом у него, как и у многих предметно тематических научных репозиториев, собственные API для доступа и форматы публикации метаданных. Это и собственная схема описания данных, и стандарт FGDC используемый в США, и стандарт ISO TC 211.

Важно и то что USGS требует от исследователей публиковать данные в этом репозитории и он непрерывно наполняется результатами профинансированных ими проектами, данных геофондов на уровне штатов и результатами работ научных институтов.

А с точки зрения поиска, это довольно хорошо структурированный репозиторий, с возможностью фасетного поиска. Из видимых недостатков у него нет bulk выгрузки метаданных, так чтобы была возможность выгрузить все записи целиком, да и некоторые датасеты тоже. Это кажется очень логичным, изучая практики публикации геномных данных, с одной стороны, с другой стороны в геологии нет такой всеобъемлющей широты использования онтологий и бесконечного числа идентификаторов. Датасеты менее гомогенны, но и в этом направлении явно идёт постепенная работа.

Ссылки:
[1] https://www.sciencebase.gov

#opendata #datasets #datacatalogs #geology #geography #geodata