Ivan Begtin
7.98K subscribers
1.85K photos
3 videos
101 files
4.56K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Неприятный факт в том что почти все порталы открытых данных, не только российские, а в мире - это редкостные дата-помойки. Ещё более менее там где данные загружены в сервисы вроде Socrata или в OpenDataSoft и хранятся таблицами. А там где публикуются просто файлы, особенно CSV, всё в разнобой.

Я смотрю сейчас data.gov.uk [1] и там та же беда с CSV файлами что и российских порталах открытых данных:
- разные кодировки файлов
- отсутствие заголовков
- разные разделители значений в строках
- мусорные значения из-за экспорта из Excel (ломают автоматическую обработку данных)

Причина - отсутствие валидации при загрузке и, как мне подсказывают коллеги, в отсутствии культуры работы с данными у государственных служащих. Данные публикуют пресс службы, рядовые сотрудники не знающие разницу между CSV и XML файлами, необученные специалисты и люди не понимающие ценности данных и как их используют.

В результате автоматическая обработка таких данных - это оочень затруднённый процесс.

Но, что надо отметить в Великобритании, это правовая проработка раскрытия данных, раскрытие данных в рамках политической транспарентности и в целом модель open by default у них работает. Публикуют много мусора, но работает. Эдакий open garbage by default.

Надо об этом написать статью на английском языке и так и назвать Open garbage by default. Data.gov.uk as an example.

Ссылки:
[1] https://data.gov.uk

#opendata #opengarbage #dataportals