Ivan Begtin
7.99K subscribers
1.86K photos
3 videos
101 files
4.56K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В качестве того как устроена работа порталов открытых данных, найду место не только для критики в адрес органов власти.

Например, московский портал data.mos.ru про данные из которого я совсем недавно писал как загруженные в DataCrafter. Из порталов открытых данных которые в России эксплуатируются, он один из наиболее живых, хотя там и не обновляли новости с 2019 года на самом портале.

Почему? Потому что это один из немногих порталов со структурированным хранилищем внутри. Данные хранятся изначально в СУБД в табличном и иерархическом виде, а во внешний контур отдаются слепками с текущей версии и возможностью получения их в XML/JSON/CSV форматах. Таких порталов данных в России создавалось немного, они дороже в ведении чем файлоcборники, в них ведутся метаданные к базам данных и, в принципе, с точки зрения управления данными, это более зрелые продукты.

К таким же можно отнести портал открытых данных Санкт-Петербурга data.gov.spb.ru, портал НСИ ФФОМС РФ nsi.ffoms.ru, портал открытых данных Минкультуры РФ opendata.mkrf.ru и ещё несколько десятков, а также некоторые отраслевые системы такие как ЕСИМО esimo.ru тоже, факту, являются порталами данных, со своими системами метаданных, правилами регистрации баз данных, экспортом наборов данных и так далее.

Когда-то, я помню, что московский портал data.mos.ru появился ещё до федерального data.gov.ru и сейчас в нём несколько десятков гигабайт данных. 4 ГБ последних версий и точно не скажу, но больше 15 ГБ архивных слепков наборов данных.

Главная же беда всех порталов открытых данных в России без исключения в низкой актуальности публикуемых данных. Данные обновляются редко, наиболее чувствительные данные не обновляются. Я могу сказать что сейчас в DataCrafter'е количественно больше данных из каталогов данных, они составляют около 90% всех наборов данных, а после загрузки запланированных на этот год каталогов их будет 99%. Но объёмно, в числе записей и в гигабайтах, основные данные - это данные из государственных информационных систем. Они составляют более 70% всех хранимых данных, не считая данных о госзакупках и юрлицах, которые ведутся у нас отдельно.

Поэтому каталог открытых данных у Москвы не так уж плох, но, конечно, и он может быть лучше, сильно лучше.

#opendata #datacatalogs #moscow #nsi