Ivan Begtin
8.05K subscribers
1.96K photos
3 videos
102 files
4.67K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В рубрике интересных наборов данных QuantGov [1] исследовательский проект по сбору законов и других регуляторных документов, превращению их в данные и последующий анализ с построением графиков и интерактивных инструментов. Основной посыл в измерении регуляторной нагрузки, охватывают, при этом, не только США и отдельные штаты, но и Канаду, Австралию, Индию, Великобританию. Всё доступно в виде датасетов в CSV, интерактивного выгрузчика документов и API.

Ключевое - это активное научное применение, эти датасеты активно цитируют исследователи и пишут про них экономические СМИ.

P.S. Префикс Quant в данном случае не имеет никакого отношения к квантовым технологиям, а часть слова Quantification, количественная оценка.

Ссылки:
[1] https://www.quantgov.org

#opendata #datasets #laws #regulations #policy
Я, кстати, в очередной раз могу сказать что открытые данные - это, в первую очередь, культура и систематизация работы с данными. Так сложилось что я регулярно работаю с большими базами документов порождённых органами власти. Не с отдельными файлами, а прям с копиями банков документов законов и других НПА. И огромная часть этих НПА - это, безусловно, то что должно быть доступно в виде данных, а не в виде отсканированных PDF документов.

Если бы официальные документы все и всеми публиковались бы с приложениями, хотя бы в виде Excel файлов, то доступных данных было бы гораздо больше.

Например из десятков тысяч документов опубликованных органами власти г. Москвы на оф сайте mos.ru, как минимум несколько тысяч - это очень большие таблицы, в сотни и тысячи страниц опубликованные как сканы. Если бы их публиковали иначе, то то же Правительство Москвы могло бы публиковать не несколько сотен, а несколько тысяч наборов данных, потенциально весьма востребованных к тому же.

Это просто пример, он справедлив к отношении практически всех органов власти, особенно крупных стран и территорий.

А я об этом задумался ещё давно в контексте того что поиск по данным может начинаться как поиск по каталогам данных и индексированием того что уже машиночитаемо, а продолжаться охватывая то что ещё не машиночитаемо, но может стать таковым. Чтобы проиндексировать каталог данных, надо сделать этот каталог данных (с).

#opendata #datasets #laws #datacatalogs
В рубрике недокументированных API ещё один пример, реестр НПА Казахстана zan.gov.kz [1]. Хотя на сайте нет документации на это API, но оно существует и все материалы оттуда доступны в машиночитаемой форме.

- https://zan.gov.kz/api/documents/search - пример запроса поиска (требует POST запрос)
- https://zan.gov.kz/api/documents/200655/rus?withHtml=false&page=1&r=1726577683880 - пример запроса получения конкретного документа

Как Вы наверняка уже догадываетесь ни на портале данных Казахстана нет описания этого API и тем более на других ресурсах. Тем временем могу сказать что в одном только Казахстане под сотню недокументированных API, просто потому что разработчикам удобнее делать приложения используя Ajax, динамическую подгрузку контента и тд.

Каталоги API которые делаются в мире - это не такая уж странная штука, это один из способов предоставлять данные разработчикам.

Я завел отдельный тег #undocumentedapi и время от времени буду приводить примеры по разным странам.

Ссылки:
[1] https://zan.gov.kz

#opendata #data #kazakhstan #laws #api #undocumentedapi
Свежий доклад The value of corporate transparency in tackling crime [1] от британского Department for Business and Trade (DBT) о ценности сведений о регистре компаний для рынка после реформы ведения реестра. Что интересно, в докладе упоминаются оценки рынка пользователей информации о прозрачности реестра компаний, сравнивается измерение ценности этих сведений до и после реформ.

А реформы, напомню были вызваны Economic Crime and Corporate Transparency Act 2023 [2], законом в соответствии с которым изменились требования к верификации сведений в реестре компаний в Великобритании, началась чистка реестра от недостоверных сведений и появились новые принципы раскрытия данных, в том числе в машиночитаемой форме.

Собственно этот отчёт - это продолжение внедрения этого закона и оценка экономического эффекта от доступности данных.

Текст полезный, в первую очередь, тем кто оценивает экономические эффекты от доступности данных.

Ссылки:
[1] https://www.gov.uk/government/publications/the-value-of-corporate-transparency-in-tackling-crime
[2] https://www.gov.uk/government/publications/economic-crime-and-corporate-transparency-act-outline-transition-plan-for-companies-house/economic-crime-and-corporate-transparency-act-outline-transition-plan-for-companies-house

#opendata #uk #reports #laws #aml
Вдогонку к новости от ИПП про датасет российского законодательства, не могу не порадоваться его появлению, ИПП одни из немногих кто создаёт качественные датасеты и публикует их ещё и в parquet формате. Реально ценный датасет для исследователей и моя любимая тема - измерение качества баз нормативных документов и законотворческой деятельности. Раз 5 я подступался к запуску публичного проекта в этой области, но каждый раз убеждался что политизации избежать сложно (невозможно!) и единственный способ подачи материалов, это вот такие датасеты.

А я покажу Вам живой пример как его использовать с помощью DuckDB. Благо пример у меня был уже готов по другой базе, тоже законов, и его надо было лишь слегка адаптировать.

Итак, скачиваете все parquet файлы, запускаете DuckDB в одной с ними папке и выполняете вот такой, не самый сложный SQL Запрос:
select count(num) as n_open, max(num) as n_total, (n_total-n_open) as n_closed, (n_open*100.0/n_total) as percent_open, year(parsed_date) as y from (select CAST(split_part(docNumberIPS, '-', 1) as INTEGER) a
s num, strptime(docdateIPS, '%d.%m.%Y') as parsed_date from 'ruslawod_*.parquet' where issuedByIPS = 'Распоряжение Правительства Российской Федерации' order by parsed_date) group by y order by y desc;

-
Результат будет как на картинке. По этой таблице можно построить графики:
- общего числа принятых распоряжений Правительства РФ по годам
- числа распоряжений которые были опубликованы
- числа распоряжений которые не были опубликованы (секретны)
- доля открытых текстов распоряжений.

Можно увидеть что:
1. Доля распоряжений резко нарастает в последние 2 года
2. Число закрытых/секретных распоряжений значительно выросло, в 2.1 раза с 2020 г.
3. Доля открытых распоряжений снизилась с 81% в 2020 году до 63% в 2023 г.

По другим типам НПА можно проделать такой же фокус и увидеть много интересного. Например, измеряя рост нормативной нагрузки по объёмам опубликованных НПА определённого типа.

В добавок, в качестве добрых пожеланий, датасет можно улучшить если изменить его типы данных внутри с varchar на более естественные для формата parquet. Превратить поля docdateIPS и actual_datetimeIPS в датувремя, поля classifierByIPS и keywordsByIPS в списки varchar, is_widely_used в boolean.

Впрочем и без этого с данными можно работать.

#opendata #datasets #russia #laws