Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Я много критиковал и критикую российский федеральный портал открытых данных data.gov.ru [1], но как-то без цифр. Сейчас, когда наконец-то докачались все доступные данные 26490 наборов данных с этого портала я могу цифры привести и дать некоторую картину его текущего состояния:
1. 29 гигабайт - это общий объём данных в федеральном портале открытых данных data.gov.ru. Большая часть этих данных несжаты, после сжатия их объём составит около 15-20 гигабайт, а может быть и меньше, сжатие этого архива ещё не закончилось.
2. Из них 6.8 гигабайт - это однократный слепок данных в ZIP архиве из системы ФИАС не обновлявшийся с октября 2019 года [2]. Вернее ссылка на этот слепок на сайте ФНС [3].
3. Всего на 5 крупнейших наборов данных приходится 50% хранимого объёма. Это данные ФИАС, вакансий и юр. лиц Роструда и сведения о малом и среднем бизнесе с сайта ФНС.
4. 3839 наборов данных имеют размер менее 1 килобайта. Это 14.5% всех наборов данных, всех уровней власти. Федерального, регионального и муниципального.
5. На самом деле даже текущие цифры являются завышенными потому что многие ссылки указывают на внешние сайты и протухли из-за реформы органов власти. Наглядный пример, данные ФСТ РФ присоединённой к ФАС РФ. Набор данных "Информация об обращениях граждан" [4] указывает на сайт fstrf.ru которые редиректит на рекламу на meta.ru.
6. Аналогично наборы данных со многих сайтов были перенесены или удалены, метаданные на data.gov.ru не обновлялись. Так не работает ссылки на все наборы данных ФТС (Таможенной службы), например тут [5].

Для сравнения:
1. 950+ наборов данных из портала data.mos.ru - это 17 гигабайт несжатых данных. Частично эти наборы импортированы в data.gov.ru, но лишь частично.
2. Данные системы ЕМИСС (fedstat.ru) это 3.4 гигабайт несжатых XML файлов, данных неполными в выгрузке на сайте и проиндексированных в data.gov.ru. Если собрать их же в полных Excel файлах, экспортируя через веб интерфейс, то это около 24 ГБ
3. В системе budget.gov.ru данных по госфинансам 31 ГБ в сжатом виде. Если их распаковать то это около 200 ГБ и с оговоркой что это далеко не все данные, поскольку ряд крупнейших датасетов мы не скачивали, это слишком долго через их API.
4. 9200+ наборов данных из системы ЕСИМО (портал о мировом океане) - это 10 ГБ данных в несжатом виде. Их никогда не было на портале data.gov.ru

Это не полный список, только самое очевидное.

Все сравнения не в пользу федерального портала открытых данных. И это с оговоркой только количественного, не качественного сравнения. Если сравнивать федеральный портал по качеству документированности данных, удобства доступа, форматам и метаданным и тд. с другими порталами, то федеральный портал оказывается бесполезен. Он не выполняет функции поисковика по данным размещённых в других порталах, как минимум к особо крупным и ценным наборам данных. Технологически data.gov.ru также сильно отстал, и от того что делают зарубежом, и от лучших российских практик. Многие региональные и ведомственные порталы данных устроены куда лучше и профессиональнее.

Сейчас я изучаю можно ли хоть что-то из data.gov.ru автоматически загрузить в DataCrafter [6] или лучше работать только с первоисточниками.

Архив данных этого и других порталов данных мы также сохраняем в рамках Национального цифрового архива [7] и он будет сохранён и доступен для выгрузки.

Если есть желающие изучать все скачанные данные уже сейчас, я выложу слепок данных с портала для выгрузки и объясню как данные выгружались и как с ними можно работать. Напишите если он Вам нужен, я пришлю ссылки пока индивидуально, а как только поместим в архивное хранилище то будет доступно всем.

Ссылки:
[1] https://data.gov.ru
[2] https://data.gov.ru/opendata/7707329152-fias
[3] https://fias.nalog.ru
[4] https://data.gov.ru/opendata/7705513068-CitizensRequest
[5] https://data.gov.ru/opendata/7730176610-p5statimpvajneytov
[6] https://data.apicrafter.ru

#opendata #dataportals #russia #datasets #datagovru
Для тех кто работал/работает с данными в России и не могут найти данные портала федерального портала data.gov.ru поскольку он недоступен напомню что у нас есть полная архивная копия данных собранное на 2 февраля 2022 года [1]. 13ГБ архив и 29ГБ после распаковки. Не бог весть какие ценные там данные, но могут быть полезны тем кому они могут быть полезны.

Ссылки:
[1] https://hubofdata.ru/dataset/datagovru-20220202

#opendata #data #datagovru #russia