Ivan Begtin
7.99K subscribers
1.88K photos
3 videos
101 files
4.58K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Пример порталов с данными которые не порталы данных.

Порталы спортивных сообществ по обмену маршрутами и треками. В большинстве случаев когда альпинисты, яхтсмены, хайкеры и др. хотят поделиться своими маршрутами, они могут выложить где-то карту, а скорее KML или GPX файл где-то на собственных ресурсах, а могут и воспользоваться одним из онлайн сервисов таких как Wikiloc [1], AllTrails,TrailForks, Hikr и другие. К примеру Wikiloc позволяет выгружать треки в форматах KML, GPX и TCX (специальный формат от компании Garmin). В других сервисах чаще всего данные в GPX или в KML форматах.

Только крупных порталов с миллионами маршрутов в мире более десятка, а небольших и того больше. На них опубликовано более десятка миллионов маршрутов, чаще доступных после авторизации, но есть и те что полностью открыты. Всё это делает такие порталы одними из крупнейших порталов с геоданными, особенно если измерять в числе датасетов, а не в размерах файлов.

Ссылки:
[1] https://www.wikiloc.com

#opendata #datasets #data #dataportals #hiking #geodata
В рубрике закрытых данных Правительство Тамбовской области в неизвестный момент между 7 февраля 2024 года и текущей датой убрало все ссылки на данные в разделе "Открытые данные" своего сайта [1]. Как этот раздел выглядел в феврале 2024 года можно увидеть в интернет архиве [2]. Данных там не то чтобы было много, но и эти теперь недоступны.

Можно также обратить внимание что контент официального сайта Пр-ва Тамбовской области не индексируется Интернет архивом уже 2 года, так что при его исчезновении восстановить его из внешних источников будет почти невозможно.

Ссылки:
[1] https://www.tambov.gov.ru/opendata.html
[2] https://web.archive.org/web/20220206004218/https://www.tambov.gov.ru/opendata.html

#opendata #data #tambovregion #dataportals #closeddata
В рубрике как это устроено у них, Пражский проект по доступу к городским данным Golemio [1] существует в виде команды занимающеся дата продуктами такими как портал открытых данных Праги [2] и открытые API к системам Праги [3].

Технологически ничего феноменального, собственная BI платформа, разного рода дата продукты в активе. Но, во первых это модель по созданию открытой инсорсинговой команды внутри мэрии достаточно крупного города, во вторых исходный код их платформы открыт [4] и в третьих тут нет госпатернализма, наоборот акцент на платформе данных и государства / мэрии как структур предоставляющих данные.

Ссылки:
[1] https://golemio.cz/english
[2] https://opendata.praha.eu/datasets
[3] https://api.golemio.cz/docs/openapi/#/
[4] https://gitlab.com/operator-ict/golemio

#opendata #dataportals #czechia #praha #eu
В рубрике как это устроено у них публикация данных Международным валютным фондом (IMF). IMF - это значимое финансовое агентство при ООН , отвечающее как за международную финансовую помощь, так и за сбор данных о международных финансах. Значительная часть данных публикуется на основном сайте IMF (www.imf.org) [1], но, также, агентство использует несколько систем раскрытия данных.

- IMF Data [2] основной портал данных IMF с десятками датасетов для массовой выгрузки, сотнями показателей и возможностью доступа к данным индикаторов через SDMX API [3]. В основном все данные связанные с макропоказателями стран.
- Dissemination Standards Bulletin Board (DSBB) [4] портал для сбора и публикации данных в соответствии с разработанными стандартами Расширенной общей системы распространения данных. Эти данные собираются с официальных сайтов стран, как правило страниц на сайте ЦБ, опубликованных по определенным требованиям.
- Portwatch. Monitoring Trade Disruptions from Space [5] совместный проект IMF и Оксфордского университета по мониторингу портов с помощью спутников для идентификации и предупреждения событий которые могут помешать международной торговле. Предоставляет ленту событий, результаты мониторинга и другие данные. Все данные можно скачать, внутри сайта платформа ArcGIS Hub позволяющая массовую выгрузку данных
- Climate Change Indicators Dashboard [6] портал с индикаторами изменений климата по странам. Также на платформе ArcGIS Hub, и также все данные доступны для выгрузки.

Общие наблюдения по изменению в подходе к публикации данных IMF те что и для большей части структур ООН:
- переход к публикации открытых данных по умолчанию
- доступность данных одновременно для массовой выгрузки (bulk), API и в виде веб интерфейсов визуализации
- параллельное использование порталов раскрытия разработанных на заказ и типовых продуктов, в данном случае ArcGIS Hub


Ссылки:
[1] https://www.imf.org
[2] https://data.imf.org
[3] https://datahelp.imf.org/knowledgebase/articles/630877-api
[4] https://dsbb.imf.org/
[5] https://portwatch.imf.org/
[6] https://climatedata.imf.org/

#opendata #datasets #dataportals #statistics #finances #economics
В мире очень много данных о которых мало кто знает (с)

Большой срез научных данных - это данные о погоде, климате и наблюдениях за морями и океанами. Всё это является частью метеорологии и климатологии наук которые изначально про работу с большими данными, поскольку данные метеонаблюдений, спутниковых снимков и тд. - это реально большие объёмы данных поступающих в реальном времени.

Так вот большая часть этих данных в мире собирается с помощью открытого кода и публикуется в форме датасетов в каталогах данных на базе движка ERDDAP [1]. Это довольно старый программный продукт, разработанный Национальным управлением океанических и атмосферных исследований и используемый как каталог научных данных с возможностью работать с данными через API, в виде графов, таблиц и с первичными данными в формате NetCDF.

В общей сложности в мире более 100 инсталляций ERDDAP, большая их часть находится в США, но есть и в Австралии, Японии, странах ЕС и ряде других. В совокупности это более 100 тысяч наборов данных, а реальный объём данных сложно измерить, но можно исходить из того что там минимум сотни терабайт, а скорее больше.

В реестре Dateno тоже есть записи с серверами ERDDAP [2] и пока их там чуть менее 70, по большинству из них ещё не собраны нужные метаданные и сами данные ещё не индексируются.

В ближайшие недели/месяцы мы, конечно, индексировать их начнём, поскольку они неплохо стандартизированы и пригодны для индексации. Но это та область которая как бы существует сама по себе, узкая нишевая научная инфраструктура в которой, в принципе, большинство исследователей и так знают где что искать.

Поэтому для Dateno эти каталоги данных пока не первоприоритетны, но они несомненно интересны для понимания того как устроены данных в отдельных научных дисциплинах. А что то и так индексируется с существующих дата каталогов где есть ссылки на данные из ERDDAP [3]

Ссылки:
[1] https://github.com/ERDDAP
[2] https://dateno.io/registry/catalog/cdi00004521/
[3] https://dateno.io/search?query=ERDDAP

#opendata #dataportals #datasets #oceans #climatology