Неприятный факт в том что почти все порталы открытых данных, не только российские, а в мире - это редкостные дата-помойки. Ещё более менее там где данные загружены в сервисы вроде Socrata или в OpenDataSoft и хранятся таблицами. А там где публикуются просто файлы, особенно CSV, всё в разнобой.
Я смотрю сейчас data.gov.uk [1] и там та же беда с CSV файлами что и российских порталах открытых данных:
- разные кодировки файлов
- отсутствие заголовков
- разные разделители значений в строках
- мусорные значения из-за экспорта из Excel (ломают автоматическую обработку данных)
Причина - отсутствие валидации при загрузке и, как мне подсказывают коллеги, в отсутствии культуры работы с данными у государственных служащих. Данные публикуют пресс службы, рядовые сотрудники не знающие разницу между CSV и XML файлами, необученные специалисты и люди не понимающие ценности данных и как их используют.
В результате автоматическая обработка таких данных - это оочень затруднённый процесс.
Но, что надо отметить в Великобритании, это правовая проработка раскрытия данных, раскрытие данных в рамках политической транспарентности и в целом модель open by default у них работает. Публикуют много мусора, но работает. Эдакий open garbage by default.
Надо об этом написать статью на английском языке и так и назвать Open garbage by default. Data.gov.uk as an example.
Ссылки:
[1] https://data.gov.uk
#opendata #opengarbage #dataportals
Я смотрю сейчас data.gov.uk [1] и там та же беда с CSV файлами что и российских порталах открытых данных:
- разные кодировки файлов
- отсутствие заголовков
- разные разделители значений в строках
- мусорные значения из-за экспорта из Excel (ломают автоматическую обработку данных)
Причина - отсутствие валидации при загрузке и, как мне подсказывают коллеги, в отсутствии культуры работы с данными у государственных служащих. Данные публикуют пресс службы, рядовые сотрудники не знающие разницу между CSV и XML файлами, необученные специалисты и люди не понимающие ценности данных и как их используют.
В результате автоматическая обработка таких данных - это оочень затруднённый процесс.
Но, что надо отметить в Великобритании, это правовая проработка раскрытия данных, раскрытие данных в рамках политической транспарентности и в целом модель open by default у них работает. Публикуют много мусора, но работает. Эдакий open garbage by default.
Надо об этом написать статью на английском языке и так и назвать Open garbage by default. Data.gov.uk as an example.
Ссылки:
[1] https://data.gov.uk
#opendata #opengarbage #dataportals