Ivan Begtin
7.99K subscribers
1.88K photos
3 videos
101 files
4.58K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Я регулярно рассказываю про порталы данных и другие госпроекты по открытости в странах мира. Можно уже создать такую отдельную регулярную рубрику и в этот раз про портал открытых данных Республики Киргизия data.gov.kg

Портал создан в 2019 году и содержит 646 наборов данных включающих 1167 файлов общим объёмом около 570Мб. Более всего наборов данных опубликовано статистическим комитетом, а наибольший набор данных это - Сведения по рецептам по Дополнительной программе ОМС, в общей сложности 229МБ.

Из плюсов։
- портал существует (это уже редкость для многих стран, например, в Армении его нет)
- есть несколько любопытных наборов данных
- портал работает на CKAN и предоставляет стандартизованное API

Из минусов։
- портал уже несколько лет заброшен, новые данные на нём почти не публикуют, последнее небольшое обновление в середине 2022 г.
- данных мало, даже только на сайте статкомитета Киргизии опубликовано более 10 тысяч Excel файлов статпоказателей
- геоданные полностью отсутствуют, хотя эти данные доступны на других государственных геопорталах
- информация о продуктах на базе этого портала не собирается, новости не публикуются, есть ощущение что ничего не происходит
- машиночитаемых форматов практически нет, работы над переводом Excel файлов хотя бы в CSV не наблюдается

Общее итоговое ощущение что портал "висит в воздухе", без потребителей, мотивации госорганов к раскрытию данных, методик его работы, ответственных и тд. И всё это за довольно короткий срок, буквально в 3 года.

Поэтому приходится рассматривать его скорее как антипример госпортала открытых данных. При том что довести его до ума не требует ни больших сил, ни ресурсов, ни много людей.

#opendata #kyrgyzstan #dataportals
В продолжение анализа про портал открытых данных Кыргызстана я в форме большого лонгрида написал в рассылку заметку "Что не так с порталом открытых данных Узбекистана?"․ Лонгрид получился потому что и сам портал казался больше, анализ его должен был быть куда более кропотливым.

Продублирую тут итоги.

Выводы очень неутешительны. 6623 набора данных в итоге оказываются всего лишь 40 мегабайтами данных, а фактическое число наборов данных оказывается искусственно раздутым. Мониторинг наборов данных выполняет даже не декоративную, а скорее манипулятивную функцию не давая реальной картины, но показывая обновлёнными данные которые совершенно точно не обновлялись. Даже портал открытых данных Киргизии, при всего лишь 646 наборах данных в Excel оказывается больше по объёму, не говоря уже о многих других порталах открытых данных других стран.

#opendata #uzbekistan #dataportals #government
В рубрике как это работает у них портал открытых данных Шанхая (Китай) data.sa.gov.cn [1]. Я ранее уже рассказывал об открытых данных в Китае, но не рассказывал именно про этот портал.

Первая особенность портала в большом объёме данных. На нём опубликовано 4490 наборов данных. Это довольно много даже для национальных порталов открытых данных, а тут портал только города. Впрочем города с 25 миллионами населения, что немало.

Почти все данные публикуются в форме данных для структурированного хранилища и экспортируются сразу в форматах XML, XLS, JSON, CSV и RDF. По поводу RDF сразу те же сомнения что с порталом открытых данных Узбекистана, никакой привязки к онтологиям нет - это, конечно, минус.

Плюс - объём данных и частота обновления. 929 наборов данных предоставляются через API и обновляются ежесуточно.

Для полноты картины осталось посмотреть на их инструкции для разработчиков.

Ссылки:
[1] https://data.sh.gov.cn
[2] https://t.iss.one/begtin/4470

#opendata #dataportals #china #shanghai
В рубрике как это работает у них, государственный портал открытых данных Чехии data.gov.cz [1].

Содержит 142 тысяч наборов данных из которых 137 тысяч наборов данных - это данные кадастровой службы страны.

Обладает рядом весьма интересных особенностей, специфичных только для него.
1. Портал построен на базе связки генератора статических страниц Jekyll + Github. В результате у него феноменальная скорость открытия страниц, лучше чем у любого известного мне портала с данными.
2. Внутри движок который работает на связанных данных (Linked Data), API портала, также, доступно в виде SPARQL и интеграционный движок тоже на базе связанных данных
3. Есть целый каталог стандартов раскрытия написанных в W3C стиле [2]
4. Значительная часть наборов данных обновляется ежедневно
5. На портал ничего не загружается, все данные представлены прямыми ссылками на оригинальные госсайты
6. У многих наборов данных есть сведения о временном и географическом покрытии в привязке к справочникам.

В целом это один из лучших порталов открытых данных которые я видел, по логике, организации и подозреваю что и стоимости. Из недостатков - это отсутствие данных большого объёма для задач по data science и отсутствие среза научных данных открытого доступа, которых в Чехии тоже много

Ссылки:
[1] https://data.gov.cz
[2] https://data.gov.cz/ofn/

#opendata #czech #dataportals #linkeddata #datacatalogs #europe
По поводу российского государственного портала открытых данных data.gov.ru который недавно был закрыт Минэкономразвития [1] и как пишет Ольга Пархимович у себя в канале там ещё и чудеса с обратной связью с представителями этого министерства [2], так вот ещё до появления госпортала открытых данных мы командой Инфокультуры делали портал hubofdata.ru [3] куда загружали данные которые госорганы "забывали" опубликовать как открытые и который подзабросили когда российские госорганы начали создавать свои порталы открытых данных, поскольку было, какое-то время, впечатление что данные госорганы будут публиковать.

Так вот я большого секрета не открою сказав что сделать большой негосударственный портал открытых данных можно и даже не феноменально сложно. И если Минэкономразвития собирается запускать новую версию data.gov.ru на Гостехе и за 50 млн. руб, то без министерства и без Гостеха общественный проект с большим числом наборов данных и их объёмом можно сделать в 5 раз дешевле.

Больше того, поскольку мы кроме общественного портала Hubofdata делали ещё и полу-коммерческий Datacrafter [4] то заполнить такой общероссийский портал можно сразу данными большого объёма и в хорошем качестве. Кстати, Datacrafter никуда не исчез, может быть будет перезапущен в России, может быть мигрирован в другую страну и с другими акцентами. В любом случае значительная часть собранных там данных может быть перенесена в общественный проект.

В чем же сложность тогда? На самом деле ключевая сложность в России вот уже много лет в отсутствии доступных инвестиций/грантов/средств на цифровые гражданские проекты, особенно по доступности данных. Это министерства могут сжечь любое количество потратить 50 миллионов рублей в довесок к уже потраченным без гарантии результата. Объяснить из чего складывается разница? Из того что порталы открытых данных во всём мире делают на готовых опенсорс решениях, чаще всего на CKAN, реже на DKAN, uData, Dataverse, а для геоданных Geonetwork. Развертывание любого из них в разы дешевле и практичнее разработки с нуля, если только нет плана по созданию мегафич из-за которых опенсорс продукты не подходят. А разработка с нуля на Гостехе - это удовольствие не для слабонервных, учитывая что там никаких готовых решений. Нельзя вот так просто взять и развернуть готовое решение из коробки и неизвестно можно ли будет когда-либо. Например, Datacrafter делался не на CKAN'е потому что в нём внутри структурированное NoSQL хранилище, разметчик семантических типов данных и экспорт всех данных в parquet по умолчанию. CKAN этого не умеет, пока что.

Когда есть амбиции делать национальные порталы открытых данных, то стоит ли делать их в России? Поэтому я через какое-то время анонсирую общественный портал открытых данных, пока небольшой, создаваемый для другой страны и я уже рассказывал ранее про проект Common Data Index [5] который начинается с общего реестра каталогов и порталов открытых данных в мире, а продолжится поисковой системой по всем наборам данных в общедоступных каталогах данных.

Ссылки:
[1] https://t.iss.one/begtin/4714
[2] https://t.iss.one/ahminfin/541
[3] https://hubofdata.ru
[4] https://datacrafter.ru
[5] https://t.iss.one/begtin/4764

#opendata #russia #opengov #dataportals
В рубрике как это работает у них репозитории [больших] научных данных в области биоинформатики и не только.

GigaDB [1] репозиторий научных данных созданный командой журнала GigaScience. Создан и развивается в Гонконге, содержит 2339 наборов данных, 410263 файла общим размером около 47 ТБ (на начало мая 2023 г). Данные регулярно обновляются, а метаданные доступны по протоколу OAI-PMH используемому для обмена метаданными между репозиториями научных документов

BioStudies [2] база результатов биологических исследований включая их взаимосвязь с исследованиями в рамках работы EMBL-EBI. 2 миллиона 395 тысяч исследований и 9 миллионов 584 тысячи файлов. Данные раздаются, в том числе, через FTP и через систему обмена научными данными Globus [3]. Объём данных оценить сложно, цифры они не приводят, но он явно очень большой, сравнимый с GigaDB и, скорее всего, его превосходящий.

CSIRO Data Access portal [4] портал данных австралийского агентства CSIRO, в общем объёме чуть менее 7.5 тысяч наборов данных, все посвящены исследованиям проводимым CSIRO или в котором исследователи CSIRO принимают участие. Многие наборы данных - это большие коллекции файлов первичного наблюдения, не машиночитаемые, но также являющиеся результатом исследований.

Существует множество более узкоспециализированных репозиториев, их списки публикуют агентства финансирующие исследования и журналы принимающие научные работы:
- PLOS One recommended Repositories [5]
- The Royal Society Data Sharing [6]

И многие другие. Даже один крупный репозиторий данных в области биоинформатики по объёму хранимых данных может превосходить все национальные и региональные порталы открытых данных.

Ссылки:
[1] https://gigadb.org
[2] https://www.ebi.ac.uk/biostudies/
[3] https://www.globus.org/
[4] https://data.csiro.au/
[5] https://journals.plos.org/plosone/s/recommended-repositories
[6] https://royalsociety.org/journals/ethics-policies/data-sharing-mining/

#opendata #openaccess #openscience #datacatalogs #dataportals
В рубрике как это работает у них портал данных для машинного обучения AI Hub в Южной Корее [1]

На портале размещено 100 наборов данных, относительно большого размера (крупнейший в 20ТБ). Все наборы данных созданы именно под машинное обучение и обучение ИИ, например, включают размеченные данные распознавания голоса, видео, текстов, изображений лидаров и так далее.

Они же проводят конкурсы по улучшению алгоритмов распознавания образов [2].

Из важных особенностей:
a) Это не открытые данные, доступ к ним только после регистрации и авторизации, для многих наборов данных стоит пометка (Only Koreans can apply for data.), иначе говоря "только для корейцев"
b) Некоторые наборы данных связанные с медициной доступны только в режиме Safe Zone, специальной среде без интернета, доступ к которой надо отдельно запрашивать.
с) По всем наборам данных очень подробное описание/документация. Это должно значительно упрощать их использование. Например, для набора данных Hearing loss test voice data [3]

Ссылки:
[1] https://aihub.or.kr
[2] https://aihub.or.kr/cpthb/cpthb/list.do?currMenu=125&topMenu=102
[3] https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=71393

#datasets #datacatalogs #dataportals #korea #ai #ml
Часть 2 из 2.

4) Во многих африканских странах нет никаких других открытых данных кроме порталов микроданных (явно созданных при поддержке Всемирного банка и других институтов развития) и порталов геоданных, многие из которых также созданы на деньги международной помощи.

5) Количественно открытых государственных данных более всего в Европейском союзе, по объёму в США. При этом стремительный рост порталов открытых данных в Азии, в Китае с акцентом на инновации и бизнес, в других странах на открытость гос-ва, подотчетность и тд.

6) Порталы данных создают даже министерства обороны некоторых стран. В Чехии есть [3] и в США [4]. Немного, но есть.

7) Есть какая-то понятная корреляция между развитием экономики стран и доступностью их данных, но это надо изучать подробнее.

8) Есть очень большая проблема с отсутствием сетевой нейтральности. Например, российские сайты с данными не открываются не из России, многие сайты с госданными США не открываются не из США (даже IP в Германии или Франции не срабатывает), аналогично с некоторыми бразильскими сайтами и тд. Реже, но так бывает когда на сайте прямо сказано что блокируется всё не из их страны. Например, такое сообщение есть на портале данных спутниковых снимков Нидерладов [5]. А также на корейском портале AI Hub [6] открытым текстом пишут что только для корейцев
--
И ещё довольно много всего, я буду рассказывать об этом время от времени

Ссылки:
[1] https://begtin.substack.com
[2] https://github.com/commondataio/dataportals-registry
[3] https://data.army.cz
[4] https://data.defense.gov
[5] https://www.satellietdataportaal.nl
[6] https://aihub.or.kr

#opendata #commondataindex #datacatalogs #dataportals #datasets
В рубрике как это работает у них Платформа геоданных Малави [1] африканской страны с 16 миллионным населением и довольно небольшой экономикой.

Портал создан на базе open source движка Geonode [2] том же самом на котором сделан, к примеру, Портал открытых пространственных данных Республики Казахстан (map.gov.kz) [2] и ещё пара сотен государственных, муниципальных и научных порталов открытых геоданных.

На портале размещено 547 наборов данных в виде слоёв карт из разных источников, внутренних и внешних, например OSM.

И как и все порталы на базе GeoNode включает доступное по умолчанию API для доступа к данным в разделе "Developers" [3].

Особенность доступа к данным в Малави как и в большинстве африканских стран в том что национальные порталы открытых данных у них отсутствуют, а вот порталы открытых геоданных имеются и активно развиваются.

Ссылки:
[1] https://www.masdap.mw
[2] https://map.gov.kz
[3] https://www.masdap.mw/developer/

#opendata #geodata #malawi #africa #dataportals
В качестве регулярного напоминания, если Вы ищите данные по России и постсоветским странам, то в каталоге каталогов данных DataCatalogs.ru [1] они как раз собраны.

В проекте сейчас 322 каталога данных, из которых 294 по России, ещё 28 по Казахстану, Кыргызстану, Узбекистану, Армении и тд.

В данном случае открытые данные трактуются расширительно, исходя из того что в каталоге каталогов собраны и источники не только открытых данных в строгом определении, но и другие общедоступные источники данных которые что называется "недооткрыты", например, порталы открытого бюджета или геопорталы.

Этот проект был одним из источников для создаваемого сейчас Common Data Index [2] реестра каталогов данных по всему миру, где их уже более 2000+ тысяч и о котором я, также, регулярно пишу.

Ссылки:
[1] https://www.datacatalogs.ru/
[2] https://github.com/commondataio/dataportals-registry

#opendata #datacatalogs #dataportals #metadata
Среди малоизвестных продуктов для публикации открытых данных есть такой продукт как Open Data Cube [1]. Можно перевести его как "куб открытых данных", но скорее он является "Открытым кубом данных". Это ПО с открытым кодом [2] для создания каталогов спутниковых данных. Продукт достаточно давний и его первые версии распространялись CEOS [3] (The Committee on Earth Observation Satellites) и до сих пор развёрнуты во многих странах, но работают, в основном, в закрытом режиме.

Последняя версия Open Data Cube, именно про открытые данные. Причём помимо возможности работать с данными и скачивать данные привычным образом, эта версия ПО по умолчанию поддерживает протокол по спецификации STAC [4].

Уже есть некоторое число общедоступных инсталляций, часть из которых зарегистрирована в реестре STAC, а часть надо искать, впрочем я облегчу задачу и приведу примеры тут:
- Digital Earth Africa - https://explorer.digitalearth.africa
- Digital Earth Australia - https://explorer.nci.dea.ga.gov.au
- Common Sensing Ltd. - https://cubeexplorer.csopenportal.co.uk
- Maynooth University - https://tai-odc.terrainai.com
- Thai Geo and space agency - https://datacube.gistda.or.th

В Open Data Cube своя терминология которую важно учитывать. Например, термин dataset, который по сути является срезом наблюдения на определённую дату и время, поэтому, например, в каком-нибудь Digital Earth Africa может быть до 1 миллиона датасетов. А то что датасетом считают в других порталах тут называют product. Например, именно product является объектом лицензионных рассмотрений и публикуется под какой-то конкретной лицензией, например, CC-BY 4.0.

Ссылки:
[1] https://www.opendatacube.org
[2] https://github.com/opendatacube
[3] https://www.opendatacube.org/ceos
[4] https://stacspec.org/en

#opensource #opendata #geodata #dataportals
Я давненько не писал про работу над моим пэт-проектом Common Data Index по созданию поисковой системы по всем общедоступным открытым данным который по мере развития получит институциализацию. Пока же о текущем состоянии. В каталоге сейчас 2027 каталогов данных из которых большая часть это порталы открытых данных. Ещё 824 каталога данных найдены, но ещё не включены в каталог, большая их часть - это геопорталы. После обновления, скорее всего, число геопорталов будет больше числа порталов открытых данных.

Реестр теперь можно увидеть наглядно на сайте registry.commondata.io и у каждого каталога есть отдельная страница, уникальный идентификатор с префиксом cdi, а также можно увидеть статистику реестра целиком и профили по странам и, конечно, скачать сам реестр целиком.

#opendata #datasets #dataportals #datacatalog
Я, кстати, кажется не писал про PortalJS [1] это относительно недавняя разработка с открытым кодом компании Datopian, той же команды что стоит за поддержкой ПО CKAN используемого повсеместно для каталогов открытых данных.

Те кто видел CKAN в деле знают что выглядит он, в целом, непрезентабельно. Приемлимо, и у нас он много где используется, но слишком уж визуально неэстетично, особенно его тема по умолчанию и поэтому очень многие команды в госорганах используют CKAN как систему управления данными DMS (Data management system) и поверх его API писали свои обёртки. Так было с канадским национальным порталом данных, частично так в США где несколько интерфейсов у data.gov и так сейчас в Великобритании с их порталом data.gov.uk.

Так вот PortalJS - это попытка бьютификации CKAN'а так сказать от разработчиков. Их предложение взять эту надстройку вместо того чтобы клепать свою.
Это выглядит очень резонно, потому что всё что я знаю и вижу про существующий рынок порталов открытых данных и научных репозиториев там коммерческие игроки с облачными порталами уже сильно CKAN превосходят по возможностям из коробки, хотя и пока не по всему спектру возможностей вообще.

На базе PortalJS, например, работает портал открытых данных ОАЭ [2] и портал открытых данных Северной Ирландии [3].

Впрочем особенность PortalJS в том что там заявляется что бэкэндом может быть не только CKAN и это не совсем продукт, а скорее фреймворк для донастройки со множеством примеров.

Продукт интересный, обязательно надо опробовать на одном из наших открытых порталов с данными.

Ссылки:
[1] https://portaljs.org
[2] https://opendata.fcsc.gov.ae
[3] https://www.opendatani.gov.uk

#opendata #datacatalogs #opensource #dataportals
Я ранее несколько раз писал про портал открытых данных Казахстана data.egov.kz [1] и то что на портале есть множество ограничений по выгрузке данных (не более 100 записей за один раз, каптча), а ранее неграждане страны вообще не могли ничего оттуда выгружать. Теперь, пересмотрев несколько тысяч порталов с данными по всему миру могу сказать что вот этот казахстанский пример абсолютно уникален, ни на одном национальном портале данных в мире нет таких ограничений.

Другое удивительное явление в Казахстане - это то что несмотря на то что страна богатая деньгами, ресурсами и развитой ИТ средой, тем не менее практически нет тематических и региональных порталов с данными. Во многих странах всё скорее наоборот, может национального портала не быть, но городские и региональные повсеместны.

Параллельно неработающему национальному порталу открытых данных есть немалое число доступных геоданных и даже научных данных.
Например, в Университете Назарбаева открытые данные публикуются на двух ресурсах:
- https://issai.nu.edu.kz/issai-datasets/ коллекция наборов данных под свободными лицензиями от ISSAI - Институт Умных Систем и Искусственного Интеллекта. Множество наборов данных для машинного обучения
- https://research.nu.edu.kz/en/publications/ - наборы данных среди результатов исследований университета, фильтруются по "Type" - "Dataset". Пока там всего один набор данных, правда [2]

Научных данных пока немного, как и инфраструктуры для работы с ними, но что-то есть. Впрочем, как я понимаю, большая часть учёных в Казахстане также как и многие другие публикуют свои данные в Zenodo [3]

А вот с геопорталами интересно, мне лично за час удалось найти несколько десятков открытых геопорталов и в общей сложности в Казахстане их найдено 33. Так много геопорталов появилось относительно недавно и практически все они работают на базе ArcGIS Enterprise или Geoserver или на базе ГИС разабатываемых вендорами внутри страны, но во всех геопорталах есть развитое недокументированное API.

Все каталоги данных и геопорталы Казахстана собраны в профиле страны в Common Data Index [4]. Если Вы знаете какие-то порталы данных и гепорталы которые там не указаны, напишите в личку, обязательно их добавлю в следующих обновлениях.

Ссылки:
[1] https://t.iss.one/begtin/4464
[2] https://research.nu.edu.kz/en/publications/kazakhstan-soil-microbiome-scientific-data-mendeley-data-v1
[3] https://zenodo.org/record/7749411
[4] https://registry.commondata.io/country/KZ

#opendata #datasets #dataportals #datacatalogs
Среди порталов с открытыми данными, иногда, выявляются уникальные находки. Например, мало кто знает что во Вьетнаме много порталов открытых данных - страны, провинций, и городов, и университетов. Я об этом отдельно как-нибудь напишу. А из них можно особенно выделить портал открытых данных города Da Nang [1].

Кроме всего прочего они предоставляют данные через SMS.

Я совершенно серьёзно, Можно отправить SMS с текстом на специальный номер и получить в ответ документ или запись из баз данных. Это, конечно, ближе к API чем к выгрузке наборов данных, но зато своя живая экзотика.

Скриншот прилагаю, текст на нём переведён гуглопереводчиком, так что неточности могут быть, но смысл не меняется.

Ссылки:
[1] https://opendata.danang.gov.vn

#opendata #vietnam #dataportals #danangcity
В рубрике продуктов по каталогизации и обмену данными малоизвестный продукт Geoblacklight [1] опубликованный с открытым кодом и предназначенный для публикации открытых геоданных. Продукт написан полностью на Ruby on Rails и в его основе проект Blacklight [2] популярный для публикации цифровых объектов культурного наследия.

На Geoblacklight работает не менее 12 каталогов данных [3] среди них можно выделить такие как:
- Big Ten Academic Alliance Geoportal [4]
- University of California Berkeley – GeoData Portal [5]
- DRYAD [6]

На каждом из таких порталов содержится до десятков тысяч наборов геоданных, часто охватывающих весь мир.

Ссылки:
[1] https://geoblacklight.org
[2] https://projectblacklight.org
[3] https://geoblacklight.org/showcase/
[4] https://geo.btaa.org
[5] https://geodata.lib.berkeley.edu
[6] https://datadryad.org/search
#opendata #geodata #datasets #dataportals #opensource
Международные данные, подборка каталогов глобальных индикаторов и не только:
- Global Trade Data Portal [1] от Всемирной торговой организации. Помимо подборок данных и визуализаций от ВТО, там также представлены данные партнеров ВТО которые могут запрашивать исследователи для научных работ [2], самое интересное - это портовые грузоперевозки, ИМХО, впрочем для разных задач, разные данные.
- Data Futures Exchange [3] портал данных UNDP с разного рода показателями развития, а также множество продуктов на данных от того же UNDP включая GeoHub [4], каталог геоданных, и портал с данными для малых развивающихся островных государств SIDS [5]
- COVID-19 Data Portal [6] созданный в ЕС (EMBL-EBI) разросся до 30+ миллионов дата объектов из которых 29 миллионов это примеры и вирусные последовательности, ещё около 1 миллиона - это статьи и оставшиеся несколько десятков тысяч - это другие связанные с вирусом данные и данные по научной инфраструктуре.
- EUI Library Data Portal [7] большой систематизированный каталог описаний источников данных в European University Institute, Скорее даже не источник международных данных, а источник их описания.
- Gemstat Data Portal [8] портал данных проекта ООН по мониторингу качества питьевой воды по всему миру. Датчики во многих странах, данных много, очень много, но предоставляют их не самым удобным способом. Даже API не документировали.

Ссылки:
[1] https://globaltradedata.wto.org
[2] https://globaltradedata.wto.org/data-partnerships
[3] https://data.undp.org
[4] https://geohub.data.undp.org
[5] https://sids.data.undp.org
[6] https://www.covid19dataportal.org
[7] https://www.eui.eu/Research/Library/ResearchGuides/Economics/Statistics/DataPortal
[8] https://portal.gemstat.org

#opendata #dataportals #indicators #statistics
К вопросу об открытости данных в Казахстане свежая статья в Exclusive.kz [1]. Проблема с этим порталом в том что он к открытым данным отношения не имеет никакого. Видно что не проделано работы, ни по доступности данных, ни по свободе использования (открытые лицензии) и данные которые туда попадают из других источников парадоксальным образом становятся более, а не менее закрытыми.

Это на фоне того что в Казахстане много открытых геопорталов, баз статистики (ТАЛДАУ) и тд.

Всего 13649 датасетов по Казахстану у нас в Dateno проиндексировано [2], но почти все эти данные - это геоданные и индикаторы из международных источников потому что именно открытые данные, в строгом определении, не публикуются.

И ещё отдельная история о том почему во многих странах госорганы пытаются создавать порталы данных на нетиповых продуктах. В результате они не индексируются ни у нас в Dateno, ни в Google Dataset Search, ни в других поисковиках. При том что в том же data.egov.kz нет ничего такого что нельзя было бы сделать с помощью CKAN, DKAN и ещё ряда продуктов создания каталогов открытых данных.

И это только пока мы говорим про техническую сторону процесса, не затрагивая то какие, собственные данные должны публиковаться чтобы быть востребованными. Подсказка, простые опросы пользователей не работают. Работают приоритеты по high value datasets (датасеты особо ценные) которые формируют страны ЕС, к примеру.

К теме данных в Центральной Азии я ещё буду неоднократно возвращаться.

Ссылки:
[1] https://exclusive.kz/chto-skryvaet-otkrytoe-pravitelstvo-kazahstana/
[2] https://registry.commondata.io/country/KZ

#opendata #opengov #kazakhstan #dataportals