Ivan Begtin
8K subscribers
1.91K photos
3 videos
101 files
4.61K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В рубрике недокументированных API ещё один пример, реестр НПА Казахстана zan.gov.kz [1]. Хотя на сайте нет документации на это API, но оно существует и все материалы оттуда доступны в машиночитаемой форме.

- https://zan.gov.kz/api/documents/search - пример запроса поиска (требует POST запрос)
- https://zan.gov.kz/api/documents/200655/rus?withHtml=false&page=1&r=1726577683880 - пример запроса получения конкретного документа

Как Вы наверняка уже догадываетесь ни на портале данных Казахстана нет описания этого API и тем более на других ресурсах. Тем временем могу сказать что в одном только Казахстане под сотню недокументированных API, просто потому что разработчикам удобнее делать приложения используя Ajax, динамическую подгрузку контента и тд.

Каталоги API которые делаются в мире - это не такая уж странная штука, это один из способов предоставлять данные разработчикам.

Я завел отдельный тег #undocumentedapi и время от времени буду приводить примеры по разным странам.

Ссылки:
[1] https://zan.gov.kz

#opendata #data #kazakhstan #laws #api #undocumentedapi
Свежий доклад The value of corporate transparency in tackling crime [1] от британского Department for Business and Trade (DBT) о ценности сведений о регистре компаний для рынка после реформы ведения реестра. Что интересно, в докладе упоминаются оценки рынка пользователей информации о прозрачности реестра компаний, сравнивается измерение ценности этих сведений до и после реформ.

А реформы, напомню были вызваны Economic Crime and Corporate Transparency Act 2023 [2], законом в соответствии с которым изменились требования к верификации сведений в реестре компаний в Великобритании, началась чистка реестра от недостоверных сведений и появились новые принципы раскрытия данных, в том числе в машиночитаемой форме.

Собственно этот отчёт - это продолжение внедрения этого закона и оценка экономического эффекта от доступности данных.

Текст полезный, в первую очередь, тем кто оценивает экономические эффекты от доступности данных.

Ссылки:
[1] https://www.gov.uk/government/publications/the-value-of-corporate-transparency-in-tackling-crime
[2] https://www.gov.uk/government/publications/economic-crime-and-corporate-transparency-act-outline-transition-plan-for-companies-house/economic-crime-and-corporate-transparency-act-outline-transition-plan-for-companies-house

#opendata #uk #reports #laws #aml
Вдогонку к новости от ИПП про датасет российского законодательства, не могу не порадоваться его появлению, ИПП одни из немногих кто создаёт качественные датасеты и публикует их ещё и в parquet формате. Реально ценный датасет для исследователей и моя любимая тема - измерение качества баз нормативных документов и законотворческой деятельности. Раз 5 я подступался к запуску публичного проекта в этой области, но каждый раз убеждался что политизации избежать сложно (невозможно!) и единственный способ подачи материалов, это вот такие датасеты.

А я покажу Вам живой пример как его использовать с помощью DuckDB. Благо пример у меня был уже готов по другой базе, тоже законов, и его надо было лишь слегка адаптировать.

Итак, скачиваете все parquet файлы, запускаете DuckDB в одной с ними папке и выполняете вот такой, не самый сложный SQL Запрос:
select count(num) as n_open, max(num) as n_total, (n_total-n_open) as n_closed, (n_open*100.0/n_total) as percent_open, year(parsed_date) as y from (select CAST(split_part(docNumberIPS, '-', 1) as INTEGER) a
s num, strptime(docdateIPS, '%d.%m.%Y') as parsed_date from 'ruslawod_*.parquet' where issuedByIPS = 'Распоряжение Правительства Российской Федерации' order by parsed_date) group by y order by y desc;

-
Результат будет как на картинке. По этой таблице можно построить графики:
- общего числа принятых распоряжений Правительства РФ по годам
- числа распоряжений которые были опубликованы
- числа распоряжений которые не были опубликованы (секретны)
- доля открытых текстов распоряжений.

Можно увидеть что:
1. Доля распоряжений резко нарастает в последние 2 года
2. Число закрытых/секретных распоряжений значительно выросло, в 2.1 раза с 2020 г.
3. Доля открытых распоряжений снизилась с 81% в 2020 году до 63% в 2023 г.

По другим типам НПА можно проделать такой же фокус и увидеть много интересного. Например, измеряя рост нормативной нагрузки по объёмам опубликованных НПА определённого типа.

В добавок, в качестве добрых пожеланий, датасет можно улучшить если изменить его типы данных внутри с varchar на более естественные для формата parquet. Превратить поля docdateIPS и actual_datetimeIPS в датувремя, поля classifierByIPS и keywordsByIPS в списки varchar, is_widely_used в boolean.

Впрочем и без этого с данными можно работать.

#opendata #datasets #russia #laws