Ivan Begtin
7.99K subscribers
1.88K photos
3 videos
101 files
4.58K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В рубрике как это работает у них портал данных для машинного обучения AI Hub в Южной Корее [1]

На портале размещено 100 наборов данных, относительно большого размера (крупнейший в 20ТБ). Все наборы данных созданы именно под машинное обучение и обучение ИИ, например, включают размеченные данные распознавания голоса, видео, текстов, изображений лидаров и так далее.

Они же проводят конкурсы по улучшению алгоритмов распознавания образов [2].

Из важных особенностей:
a) Это не открытые данные, доступ к ним только после регистрации и авторизации, для многих наборов данных стоит пометка (Only Koreans can apply for data.), иначе говоря "только для корейцев"
b) Некоторые наборы данных связанные с медициной доступны только в режиме Safe Zone, специальной среде без интернета, доступ к которой надо отдельно запрашивать.
с) По всем наборам данных очень подробное описание/документация. Это должно значительно упрощать их использование. Например, для набора данных Hearing loss test voice data [3]

Ссылки:
[1] https://aihub.or.kr
[2] https://aihub.or.kr/cpthb/cpthb/list.do?currMenu=125&topMenu=102
[3] https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=71393

#datasets #datacatalogs #dataportals #korea #ai #ml
Часть 2 из 2.

4) Во многих африканских странах нет никаких других открытых данных кроме порталов микроданных (явно созданных при поддержке Всемирного банка и других институтов развития) и порталов геоданных, многие из которых также созданы на деньги международной помощи.

5) Количественно открытых государственных данных более всего в Европейском союзе, по объёму в США. При этом стремительный рост порталов открытых данных в Азии, в Китае с акцентом на инновации и бизнес, в других странах на открытость гос-ва, подотчетность и тд.

6) Порталы данных создают даже министерства обороны некоторых стран. В Чехии есть [3] и в США [4]. Немного, но есть.

7) Есть какая-то понятная корреляция между развитием экономики стран и доступностью их данных, но это надо изучать подробнее.

8) Есть очень большая проблема с отсутствием сетевой нейтральности. Например, российские сайты с данными не открываются не из России, многие сайты с госданными США не открываются не из США (даже IP в Германии или Франции не срабатывает), аналогично с некоторыми бразильскими сайтами и тд. Реже, но так бывает когда на сайте прямо сказано что блокируется всё не из их страны. Например, такое сообщение есть на портале данных спутниковых снимков Нидерладов [5]. А также на корейском портале AI Hub [6] открытым текстом пишут что только для корейцев
--
И ещё довольно много всего, я буду рассказывать об этом время от времени

Ссылки:
[1] https://begtin.substack.com
[2] https://github.com/commondataio/dataportals-registry
[3] https://data.army.cz
[4] https://data.defense.gov
[5] https://www.satellietdataportaal.nl
[6] https://aihub.or.kr

#opendata #commondataindex #datacatalogs #dataportals #datasets
В рубрике как это работает у них Платформа геоданных Малави [1] африканской страны с 16 миллионным населением и довольно небольшой экономикой.

Портал создан на базе open source движка Geonode [2] том же самом на котором сделан, к примеру, Портал открытых пространственных данных Республики Казахстан (map.gov.kz) [2] и ещё пара сотен государственных, муниципальных и научных порталов открытых геоданных.

На портале размещено 547 наборов данных в виде слоёв карт из разных источников, внутренних и внешних, например OSM.

И как и все порталы на базе GeoNode включает доступное по умолчанию API для доступа к данным в разделе "Developers" [3].

Особенность доступа к данным в Малави как и в большинстве африканских стран в том что национальные порталы открытых данных у них отсутствуют, а вот порталы открытых геоданных имеются и активно развиваются.

Ссылки:
[1] https://www.masdap.mw
[2] https://map.gov.kz
[3] https://www.masdap.mw/developer/

#opendata #geodata #malawi #africa #dataportals
В качестве регулярного напоминания, если Вы ищите данные по России и постсоветским странам, то в каталоге каталогов данных DataCatalogs.ru [1] они как раз собраны.

В проекте сейчас 322 каталога данных, из которых 294 по России, ещё 28 по Казахстану, Кыргызстану, Узбекистану, Армении и тд.

В данном случае открытые данные трактуются расширительно, исходя из того что в каталоге каталогов собраны и источники не только открытых данных в строгом определении, но и другие общедоступные источники данных которые что называется "недооткрыты", например, порталы открытого бюджета или геопорталы.

Этот проект был одним из источников для создаваемого сейчас Common Data Index [2] реестра каталогов данных по всему миру, где их уже более 2000+ тысяч и о котором я, также, регулярно пишу.

Ссылки:
[1] https://www.datacatalogs.ru/
[2] https://github.com/commondataio/dataportals-registry

#opendata #datacatalogs #dataportals #metadata
Среди малоизвестных продуктов для публикации открытых данных есть такой продукт как Open Data Cube [1]. Можно перевести его как "куб открытых данных", но скорее он является "Открытым кубом данных". Это ПО с открытым кодом [2] для создания каталогов спутниковых данных. Продукт достаточно давний и его первые версии распространялись CEOS [3] (The Committee on Earth Observation Satellites) и до сих пор развёрнуты во многих странах, но работают, в основном, в закрытом режиме.

Последняя версия Open Data Cube, именно про открытые данные. Причём помимо возможности работать с данными и скачивать данные привычным образом, эта версия ПО по умолчанию поддерживает протокол по спецификации STAC [4].

Уже есть некоторое число общедоступных инсталляций, часть из которых зарегистрирована в реестре STAC, а часть надо искать, впрочем я облегчу задачу и приведу примеры тут:
- Digital Earth Africa - https://explorer.digitalearth.africa
- Digital Earth Australia - https://explorer.nci.dea.ga.gov.au
- Common Sensing Ltd. - https://cubeexplorer.csopenportal.co.uk
- Maynooth University - https://tai-odc.terrainai.com
- Thai Geo and space agency - https://datacube.gistda.or.th

В Open Data Cube своя терминология которую важно учитывать. Например, термин dataset, который по сути является срезом наблюдения на определённую дату и время, поэтому, например, в каком-нибудь Digital Earth Africa может быть до 1 миллиона датасетов. А то что датасетом считают в других порталах тут называют product. Например, именно product является объектом лицензионных рассмотрений и публикуется под какой-то конкретной лицензией, например, CC-BY 4.0.

Ссылки:
[1] https://www.opendatacube.org
[2] https://github.com/opendatacube
[3] https://www.opendatacube.org/ceos
[4] https://stacspec.org/en

#opensource #opendata #geodata #dataportals
Я давненько не писал про работу над моим пэт-проектом Common Data Index по созданию поисковой системы по всем общедоступным открытым данным который по мере развития получит институциализацию. Пока же о текущем состоянии. В каталоге сейчас 2027 каталогов данных из которых большая часть это порталы открытых данных. Ещё 824 каталога данных найдены, но ещё не включены в каталог, большая их часть - это геопорталы. После обновления, скорее всего, число геопорталов будет больше числа порталов открытых данных.

Реестр теперь можно увидеть наглядно на сайте registry.commondata.io и у каждого каталога есть отдельная страница, уникальный идентификатор с префиксом cdi, а также можно увидеть статистику реестра целиком и профили по странам и, конечно, скачать сам реестр целиком.

#opendata #datasets #dataportals #datacatalog
Я, кстати, кажется не писал про PortalJS [1] это относительно недавняя разработка с открытым кодом компании Datopian, той же команды что стоит за поддержкой ПО CKAN используемого повсеместно для каталогов открытых данных.

Те кто видел CKAN в деле знают что выглядит он, в целом, непрезентабельно. Приемлимо, и у нас он много где используется, но слишком уж визуально неэстетично, особенно его тема по умолчанию и поэтому очень многие команды в госорганах используют CKAN как систему управления данными DMS (Data management system) и поверх его API писали свои обёртки. Так было с канадским национальным порталом данных, частично так в США где несколько интерфейсов у data.gov и так сейчас в Великобритании с их порталом data.gov.uk.

Так вот PortalJS - это попытка бьютификации CKAN'а так сказать от разработчиков. Их предложение взять эту надстройку вместо того чтобы клепать свою.
Это выглядит очень резонно, потому что всё что я знаю и вижу про существующий рынок порталов открытых данных и научных репозиториев там коммерческие игроки с облачными порталами уже сильно CKAN превосходят по возможностям из коробки, хотя и пока не по всему спектру возможностей вообще.

На базе PortalJS, например, работает портал открытых данных ОАЭ [2] и портал открытых данных Северной Ирландии [3].

Впрочем особенность PortalJS в том что там заявляется что бэкэндом может быть не только CKAN и это не совсем продукт, а скорее фреймворк для донастройки со множеством примеров.

Продукт интересный, обязательно надо опробовать на одном из наших открытых порталов с данными.

Ссылки:
[1] https://portaljs.org
[2] https://opendata.fcsc.gov.ae
[3] https://www.opendatani.gov.uk

#opendata #datacatalogs #opensource #dataportals
Я ранее несколько раз писал про портал открытых данных Казахстана data.egov.kz [1] и то что на портале есть множество ограничений по выгрузке данных (не более 100 записей за один раз, каптча), а ранее неграждане страны вообще не могли ничего оттуда выгружать. Теперь, пересмотрев несколько тысяч порталов с данными по всему миру могу сказать что вот этот казахстанский пример абсолютно уникален, ни на одном национальном портале данных в мире нет таких ограничений.

Другое удивительное явление в Казахстане - это то что несмотря на то что страна богатая деньгами, ресурсами и развитой ИТ средой, тем не менее практически нет тематических и региональных порталов с данными. Во многих странах всё скорее наоборот, может национального портала не быть, но городские и региональные повсеместны.

Параллельно неработающему национальному порталу открытых данных есть немалое число доступных геоданных и даже научных данных.
Например, в Университете Назарбаева открытые данные публикуются на двух ресурсах:
- https://issai.nu.edu.kz/issai-datasets/ коллекция наборов данных под свободными лицензиями от ISSAI - Институт Умных Систем и Искусственного Интеллекта. Множество наборов данных для машинного обучения
- https://research.nu.edu.kz/en/publications/ - наборы данных среди результатов исследований университета, фильтруются по "Type" - "Dataset". Пока там всего один набор данных, правда [2]

Научных данных пока немного, как и инфраструктуры для работы с ними, но что-то есть. Впрочем, как я понимаю, большая часть учёных в Казахстане также как и многие другие публикуют свои данные в Zenodo [3]

А вот с геопорталами интересно, мне лично за час удалось найти несколько десятков открытых геопорталов и в общей сложности в Казахстане их найдено 33. Так много геопорталов появилось относительно недавно и практически все они работают на базе ArcGIS Enterprise или Geoserver или на базе ГИС разабатываемых вендорами внутри страны, но во всех геопорталах есть развитое недокументированное API.

Все каталоги данных и геопорталы Казахстана собраны в профиле страны в Common Data Index [4]. Если Вы знаете какие-то порталы данных и гепорталы которые там не указаны, напишите в личку, обязательно их добавлю в следующих обновлениях.

Ссылки:
[1] https://t.iss.one/begtin/4464
[2] https://research.nu.edu.kz/en/publications/kazakhstan-soil-microbiome-scientific-data-mendeley-data-v1
[3] https://zenodo.org/record/7749411
[4] https://registry.commondata.io/country/KZ

#opendata #datasets #dataportals #datacatalogs
Среди порталов с открытыми данными, иногда, выявляются уникальные находки. Например, мало кто знает что во Вьетнаме много порталов открытых данных - страны, провинций, и городов, и университетов. Я об этом отдельно как-нибудь напишу. А из них можно особенно выделить портал открытых данных города Da Nang [1].

Кроме всего прочего они предоставляют данные через SMS.

Я совершенно серьёзно, Можно отправить SMS с текстом на специальный номер и получить в ответ документ или запись из баз данных. Это, конечно, ближе к API чем к выгрузке наборов данных, но зато своя живая экзотика.

Скриншот прилагаю, текст на нём переведён гуглопереводчиком, так что неточности могут быть, но смысл не меняется.

Ссылки:
[1] https://opendata.danang.gov.vn

#opendata #vietnam #dataportals #danangcity
В рубрике продуктов по каталогизации и обмену данными малоизвестный продукт Geoblacklight [1] опубликованный с открытым кодом и предназначенный для публикации открытых геоданных. Продукт написан полностью на Ruby on Rails и в его основе проект Blacklight [2] популярный для публикации цифровых объектов культурного наследия.

На Geoblacklight работает не менее 12 каталогов данных [3] среди них можно выделить такие как:
- Big Ten Academic Alliance Geoportal [4]
- University of California Berkeley – GeoData Portal [5]
- DRYAD [6]

На каждом из таких порталов содержится до десятков тысяч наборов геоданных, часто охватывающих весь мир.

Ссылки:
[1] https://geoblacklight.org
[2] https://projectblacklight.org
[3] https://geoblacklight.org/showcase/
[4] https://geo.btaa.org
[5] https://geodata.lib.berkeley.edu
[6] https://datadryad.org/search
#opendata #geodata #datasets #dataportals #opensource
Международные данные, подборка каталогов глобальных индикаторов и не только:
- Global Trade Data Portal [1] от Всемирной торговой организации. Помимо подборок данных и визуализаций от ВТО, там также представлены данные партнеров ВТО которые могут запрашивать исследователи для научных работ [2], самое интересное - это портовые грузоперевозки, ИМХО, впрочем для разных задач, разные данные.
- Data Futures Exchange [3] портал данных UNDP с разного рода показателями развития, а также множество продуктов на данных от того же UNDP включая GeoHub [4], каталог геоданных, и портал с данными для малых развивающихся островных государств SIDS [5]
- COVID-19 Data Portal [6] созданный в ЕС (EMBL-EBI) разросся до 30+ миллионов дата объектов из которых 29 миллионов это примеры и вирусные последовательности, ещё около 1 миллиона - это статьи и оставшиеся несколько десятков тысяч - это другие связанные с вирусом данные и данные по научной инфраструктуре.
- EUI Library Data Portal [7] большой систематизированный каталог описаний источников данных в European University Institute, Скорее даже не источник международных данных, а источник их описания.
- Gemstat Data Portal [8] портал данных проекта ООН по мониторингу качества питьевой воды по всему миру. Датчики во многих странах, данных много, очень много, но предоставляют их не самым удобным способом. Даже API не документировали.

Ссылки:
[1] https://globaltradedata.wto.org
[2] https://globaltradedata.wto.org/data-partnerships
[3] https://data.undp.org
[4] https://geohub.data.undp.org
[5] https://sids.data.undp.org
[6] https://www.covid19dataportal.org
[7] https://www.eui.eu/Research/Library/ResearchGuides/Economics/Statistics/DataPortal
[8] https://portal.gemstat.org

#opendata #dataportals #indicators #statistics
К вопросу об открытости данных в Казахстане свежая статья в Exclusive.kz [1]. Проблема с этим порталом в том что он к открытым данным отношения не имеет никакого. Видно что не проделано работы, ни по доступности данных, ни по свободе использования (открытые лицензии) и данные которые туда попадают из других источников парадоксальным образом становятся более, а не менее закрытыми.

Это на фоне того что в Казахстане много открытых геопорталов, баз статистики (ТАЛДАУ) и тд.

Всего 13649 датасетов по Казахстану у нас в Dateno проиндексировано [2], но почти все эти данные - это геоданные и индикаторы из международных источников потому что именно открытые данные, в строгом определении, не публикуются.

И ещё отдельная история о том почему во многих странах госорганы пытаются создавать порталы данных на нетиповых продуктах. В результате они не индексируются ни у нас в Dateno, ни в Google Dataset Search, ни в других поисковиках. При том что в том же data.egov.kz нет ничего такого что нельзя было бы сделать с помощью CKAN, DKAN и ещё ряда продуктов создания каталогов открытых данных.

И это только пока мы говорим про техническую сторону процесса, не затрагивая то какие, собственные данные должны публиковаться чтобы быть востребованными. Подсказка, простые опросы пользователей не работают. Работают приоритеты по high value datasets (датасеты особо ценные) которые формируют страны ЕС, к примеру.

К теме данных в Центральной Азии я ещё буду неоднократно возвращаться.

Ссылки:
[1] https://exclusive.kz/chto-skryvaet-otkrytoe-pravitelstvo-kazahstana/
[2] https://registry.commondata.io/country/KZ

#opendata #opengov #kazakhstan #dataportals
Пример порталов с данными которые не порталы данных.

Порталы спортивных сообществ по обмену маршрутами и треками. В большинстве случаев когда альпинисты, яхтсмены, хайкеры и др. хотят поделиться своими маршрутами, они могут выложить где-то карту, а скорее KML или GPX файл где-то на собственных ресурсах, а могут и воспользоваться одним из онлайн сервисов таких как Wikiloc [1], AllTrails,TrailForks, Hikr и другие. К примеру Wikiloc позволяет выгружать треки в форматах KML, GPX и TCX (специальный формат от компании Garmin). В других сервисах чаще всего данные в GPX или в KML форматах.

Только крупных порталов с миллионами маршрутов в мире более десятка, а небольших и того больше. На них опубликовано более десятка миллионов маршрутов, чаще доступных после авторизации, но есть и те что полностью открыты. Всё это делает такие порталы одними из крупнейших порталов с геоданными, особенно если измерять в числе датасетов, а не в размерах файлов.

Ссылки:
[1] https://www.wikiloc.com

#opendata #datasets #data #dataportals #hiking #geodata
В рубрике закрытых данных Правительство Тамбовской области в неизвестный момент между 7 февраля 2024 года и текущей датой убрало все ссылки на данные в разделе "Открытые данные" своего сайта [1]. Как этот раздел выглядел в феврале 2024 года можно увидеть в интернет архиве [2]. Данных там не то чтобы было много, но и эти теперь недоступны.

Можно также обратить внимание что контент официального сайта Пр-ва Тамбовской области не индексируется Интернет архивом уже 2 года, так что при его исчезновении восстановить его из внешних источников будет почти невозможно.

Ссылки:
[1] https://www.tambov.gov.ru/opendata.html
[2] https://web.archive.org/web/20220206004218/https://www.tambov.gov.ru/opendata.html

#opendata #data #tambovregion #dataportals #closeddata
В рубрике как это устроено у них, Пражский проект по доступу к городским данным Golemio [1] существует в виде команды занимающеся дата продуктами такими как портал открытых данных Праги [2] и открытые API к системам Праги [3].

Технологически ничего феноменального, собственная BI платформа, разного рода дата продукты в активе. Но, во первых это модель по созданию открытой инсорсинговой команды внутри мэрии достаточно крупного города, во вторых исходный код их платформы открыт [4] и в третьих тут нет госпатернализма, наоборот акцент на платформе данных и государства / мэрии как структур предоставляющих данные.

Ссылки:
[1] https://golemio.cz/english
[2] https://opendata.praha.eu/datasets
[3] https://api.golemio.cz/docs/openapi/#/
[4] https://gitlab.com/operator-ict/golemio

#opendata #dataportals #czechia #praha #eu
В рубрике как это устроено у них публикация данных Международным валютным фондом (IMF). IMF - это значимое финансовое агентство при ООН , отвечающее как за международную финансовую помощь, так и за сбор данных о международных финансах. Значительная часть данных публикуется на основном сайте IMF (www.imf.org) [1], но, также, агентство использует несколько систем раскрытия данных.

- IMF Data [2] основной портал данных IMF с десятками датасетов для массовой выгрузки, сотнями показателей и возможностью доступа к данным индикаторов через SDMX API [3]. В основном все данные связанные с макропоказателями стран.
- Dissemination Standards Bulletin Board (DSBB) [4] портал для сбора и публикации данных в соответствии с разработанными стандартами Расширенной общей системы распространения данных. Эти данные собираются с официальных сайтов стран, как правило страниц на сайте ЦБ, опубликованных по определенным требованиям.
- Portwatch. Monitoring Trade Disruptions from Space [5] совместный проект IMF и Оксфордского университета по мониторингу портов с помощью спутников для идентификации и предупреждения событий которые могут помешать международной торговле. Предоставляет ленту событий, результаты мониторинга и другие данные. Все данные можно скачать, внутри сайта платформа ArcGIS Hub позволяющая массовую выгрузку данных
- Climate Change Indicators Dashboard [6] портал с индикаторами изменений климата по странам. Также на платформе ArcGIS Hub, и также все данные доступны для выгрузки.

Общие наблюдения по изменению в подходе к публикации данных IMF те что и для большей части структур ООН:
- переход к публикации открытых данных по умолчанию
- доступность данных одновременно для массовой выгрузки (bulk), API и в виде веб интерфейсов визуализации
- параллельное использование порталов раскрытия разработанных на заказ и типовых продуктов, в данном случае ArcGIS Hub


Ссылки:
[1] https://www.imf.org
[2] https://data.imf.org
[3] https://datahelp.imf.org/knowledgebase/articles/630877-api
[4] https://dsbb.imf.org/
[5] https://portwatch.imf.org/
[6] https://climatedata.imf.org/

#opendata #datasets #dataportals #statistics #finances #economics
В мире очень много данных о которых мало кто знает (с)

Большой срез научных данных - это данные о погоде, климате и наблюдениях за морями и океанами. Всё это является частью метеорологии и климатологии наук которые изначально про работу с большими данными, поскольку данные метеонаблюдений, спутниковых снимков и тд. - это реально большие объёмы данных поступающих в реальном времени.

Так вот большая часть этих данных в мире собирается с помощью открытого кода и публикуется в форме датасетов в каталогах данных на базе движка ERDDAP [1]. Это довольно старый программный продукт, разработанный Национальным управлением океанических и атмосферных исследований и используемый как каталог научных данных с возможностью работать с данными через API, в виде графов, таблиц и с первичными данными в формате NetCDF.

В общей сложности в мире более 100 инсталляций ERDDAP, большая их часть находится в США, но есть и в Австралии, Японии, странах ЕС и ряде других. В совокупности это более 100 тысяч наборов данных, а реальный объём данных сложно измерить, но можно исходить из того что там минимум сотни терабайт, а скорее больше.

В реестре Dateno тоже есть записи с серверами ERDDAP [2] и пока их там чуть менее 70, по большинству из них ещё не собраны нужные метаданные и сами данные ещё не индексируются.

В ближайшие недели/месяцы мы, конечно, индексировать их начнём, поскольку они неплохо стандартизированы и пригодны для индексации. Но это та область которая как бы существует сама по себе, узкая нишевая научная инфраструктура в которой, в принципе, большинство исследователей и так знают где что искать.

Поэтому для Dateno эти каталоги данных пока не первоприоритетны, но они несомненно интересны для понимания того как устроены данных в отдельных научных дисциплинах. А что то и так индексируется с существующих дата каталогов где есть ссылки на данные из ERDDAP [3]

Ссылки:
[1] https://github.com/ERDDAP
[2] https://dateno.io/registry/catalog/cdi00004521/
[3] https://dateno.io/search?query=ERDDAP

#opendata #dataportals #datasets #oceans #climatology