Ivan Begtin
7.98K subscribers
1.78K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Многие сейчас пишут о том что страны G7 приняли кодекс для разработчиков ИИ, не читайте советских газет (с), читайте первоисточники. Документ G7 это результат так называемого [1] the Hiroshima AI Process и оригиналы текстов на английском и японском языках на сайте МИД Японии [1]. Почему на японском языке? Потому что в 2023 году председателем G7 является Япония, у G8 изначально, и у G7 в итоге никогда не было отдельного сайта. Это неформальное объединение стран с ежегодной сменой председательства и под каждый год и каждое председательство создают отдельные сайты и публикуют анонсы на сайтах МИДов и Правительств входящих стран.

Полезно, также, почитать текст на сайте Еврокомиссии приветствующей это соглашение [2] и упоминающий что завершается подготовка EU AI Act [3].

Ссылки:
[1] https://www.mofa.go.jp/ecm/ec/page5e_000076.html
[2] https://ec.europa.eu/commission/presscorner/detail/en/ip_23_5379
[3] https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX:52021PC0206

#ai #regulation #g7 #laws #ethics
В том что касается всеобщей сдачи бизнесом персональных данных государству всё идет по пессимистичному сценарию, в Ведомостях статья (жаль под пэйволом) [1], о том что крупный бизнес будет обезличивать данные сам, малый бизнес будет обязан сдавать данные о клиентах на обезличивание в принудительном порядке, а заниматься всем этим обезличивание будет НИИ Восход (подвед Минцифры РФ). Я не удивлюсь что после этого сам НИИ Восход переведут какой-то из закрытых городов или ядерных бункеров, сотрудникам запретят выезд за пределы места проживания и работы и запретят доступ в интернет плюс ещё что-то из этого. Потому что такая сверхконцентрация персональных данных - это, ммм, просто вкусняшка для всех хакеров, инсайдеров и пробивщиков. В общем я ребятам не завидую вообще ни в каком виде.

Но дело не только в этом. Хотя всё пока и выглядит так что крупный бизнес смог увернуться от принудительной сдачи данных, радоваться не стоит.
Во первых история знает слишком много случаев когда поправки в законы ужесточающие нормы принимаются быстро и почти скрыто, будучи спрятанными в совершенно не связанные законопроекты.
Во вторых ничто не помешает регуляторам вводить ограничения и против крупняка, обосновав, например, крупной утечкой данных. Особенно если компания негосударственная и регулятору её надо о чём то просить, а не просто приказать.

Ссылки:
[1] https://www.vedomosti.ru/technology/articles/2023/12/05/1009333-mintsifri-predusmotrelo-dva-varianta-dlya-obezlichivaniya-personalnih-dannih

#privacy #data #regulation #laws #russia
Так уж сложилось что я уже лет десять мониторю и иногда выкладываю [1] цифры по legislative burden нормативной нагрузке нарастающей с ростом принимаемых законов и других НПА ежегодно. Так в 2022 году в России было принято 645 федеральных законов из которых 180 было принято в декабре 2022 года, а 55 было принято в ноябре 2022 года. Все эти цифры это абсолютные рекорды. Последний номер закона подписанного в ноябре 2022 года был 465-ФЗ. А вот в 2023 году за ноябрь уже принято 57 законов и номер последнего 564-ФЗ. А то есть есть хорошие шансы что до конца декабря общее число принятых законов составит 750, а это +16% к аналогичному периоду прошлого года (простите что срываюсь на этот бюрократический язык). А ещё можно и нужно замерить число указов Президента РФ, распоряжений и постановлений Правительства РФ и так далее.

Подводить итоги этого бюрократического забега и выбирать победителей по доле прироста макулатуры можно будет в январе 2024 года. Так что ожидайте, примерно в середине января всё прояснится.

P.S. Для сравнения: в Казахстане нумерация законов не внутри года, а от начала работы созывов депутатов. Например, VII созыв меджлиса принимал законы с 1 февраля 2021 года по 20 апреля 2023 года и успел принять всего 227 законов, это примерно по 8.4 закона в месяц, примерно по по 101 закон в год.

Ссылки:
[1] https://t.iss.one/begtin/3511

#laws #lawburden #data #statistics
Вдогонку к числу законов принятых в России [1], можно не дожидаться января, в 2023 году всего принято 694 закона, чуть чуть недотянули до 700. Для сравнения в 2022 году было принято 645 законов. Итого, выражаясь в терминах "палочной" статистики МВД рост составил 7,6% АППГ (к аналогичному периоду прошлого года). Можно было бы подумать как хорошо законодатели поработали в этом году, но реальность такова что больше законов - больше нормативная нагрузка на людей и бизнес. Выигрывают от них только госорганы и то не все.

Всё это напрямую относится и к регулированию данных, персональных данных, ИИ, информационной безопасности и других технологических областей. И судя по всему нет признаков того что этот тренд на рост листажа бумаги закончится.

Я хорошо помню как много лет назад когда я работал на больших ИТ проектах государственных информационных систем приёмка осуществлялась буквально килограммами бумаги. Я был свидетелем лично случая когда один начальник отдела в российском министерстве экономического хаоса указывал подрядчику показывая стопки бумаги. "Вот смотри", говорил он, "это проект на 2 миллиона и тут 200 листов, а у ты сдаёшь проект на 10 миллионов, а у тебя всего 40 листов. Надо хотя бы 400, а лучше 1000, тогда прокуроры точно утомятся читать при проверке".

Конечно, законодатели, это несколько другой случай и другая мотивация, а 99% принимаемых законов это изменения в существующие законы, но бюрократическая культура общая, в отсутствии осознания вреда от подобного нормативного "бешенства".

Ссылки։
[1] https://t.iss.one/begtin/5257

#laws #regulation #russia
Совершенно какой-то уникальный российский законопроект о создании государственной информационной системы "Национальный словарный фонд") [1] буквально только недавно внесённый правительством.

Во первых он определяет появление такой ФГИС как Национальный словарный фонд, а во вторых и это совсем редко, к нему приложено настоящее техническое обоснование и ФЭО. Из них, кстати, есть ощущение что всё это работа под "национализацию" корпуса русского языка который создавался не только за счёт бюджетных ресурсов, но, не совсем и не точно, потому что неизвестно соответствие этих продуктов.

Из нюансов - там на создание системы заложено 182 миллиона рублей и, конечно же, никакой открытости данных или API явным образом не упоминается. Есть только упоминание что "Информация, содержащаяся в Национальном словарном фонде, является общедоступной." в 3-м пункте законопроекта, а то есть хотя бы не под копирайтом.

Из нюансов, если это создаётся для проектов по машинному обучению и ИИ то делать его к 2026 году - это совсем неспешно.

А для чего тогда? Хочется надеяться что не для "языкового контроля". Но хотя бы не как замену Википедии.

Ссылки:
[1] https://sozd.duma.gov.ru/bill/538215-8

#government #russia #russianlang #laws
Читать нормативные документы дело неблагодарное и пока непонятно как это интерпретировать как рост закрытости или как халатность, но на сайте Минцифры России не публикуются приложения ко многим приказам ведомства.

Например, *Приказ Минцифры России № 296 О составе Экспертного совета при Министерстве цифрового развития, связи и массовых коммуникаций Российской Федерации по вопросам развития и цифровой трансформации книжной индустрии* [1] в тексте содержит *...изложить в новой редакции согласно приложению к настоящему приказу.* Но самого приложения нет. В "текстовой версии" приказа тоже нет приложения [2] и даже в "графической версии" (скане) [3] приложения нет. Аналогично с приказом N287 [4]

И, похожим образом по всем приказам касающихся сервитутов [5]

В то же время, другие приказы приложения содержат, в виде ссылок правда, но хоть так [6]

И отдельная история про то почему не все приказы федеральных органов власти публикуются на портале правовых актов и в системе регистрации НПА Минюста.

Ссылки:
[1] https://digital.gov.ru/ru/documents/9542/
[2] https://digital.gov.ru/uploaded/files/prikaz-o-vnesenii-izmenenij-v-sostav-es-po-izd-deyatelnosti-yur2sispr.docx
[3] https://digital.gov.ru/uploaded/files/296_PfRi2Gh.pdf
[4] https://digital.gov.ru/ru/documents/9541/
[5] https://digital.gov.ru/ru/documents/9531/
[6] https://digital.gov.ru/ru/documents/9333/

#closeddata #opendata #legaldocs #russia #laws #russia
В рубрике интересных наборов данных QuantGov [1] исследовательский проект по сбору законов и других регуляторных документов, превращению их в данные и последующий анализ с построением графиков и интерактивных инструментов. Основной посыл в измерении регуляторной нагрузки, охватывают, при этом, не только США и отдельные штаты, но и Канаду, Австралию, Индию, Великобританию. Всё доступно в виде датасетов в CSV, интерактивного выгрузчика документов и API.

Ключевое - это активное научное применение, эти датасеты активно цитируют исследователи и пишут про них экономические СМИ.

P.S. Префикс Quant в данном случае не имеет никакого отношения к квантовым технологиям, а часть слова Quantification, количественная оценка.

Ссылки:
[1] https://www.quantgov.org

#opendata #datasets #laws #regulations #policy
Я, кстати, в очередной раз могу сказать что открытые данные - это, в первую очередь, культура и систематизация работы с данными. Так сложилось что я регулярно работаю с большими базами документов порождённых органами власти. Не с отдельными файлами, а прям с копиями банков документов законов и других НПА. И огромная часть этих НПА - это, безусловно, то что должно быть доступно в виде данных, а не в виде отсканированных PDF документов.

Если бы официальные документы все и всеми публиковались бы с приложениями, хотя бы в виде Excel файлов, то доступных данных было бы гораздо больше.

Например из десятков тысяч документов опубликованных органами власти г. Москвы на оф сайте mos.ru, как минимум несколько тысяч - это очень большие таблицы, в сотни и тысячи страниц опубликованные как сканы. Если бы их публиковали иначе, то то же Правительство Москвы могло бы публиковать не несколько сотен, а несколько тысяч наборов данных, потенциально весьма востребованных к тому же.

Это просто пример, он справедлив к отношении практически всех органов власти, особенно крупных стран и территорий.

А я об этом задумался ещё давно в контексте того что поиск по данным может начинаться как поиск по каталогам данных и индексированием того что уже машиночитаемо, а продолжаться охватывая то что ещё не машиночитаемо, но может стать таковым. Чтобы проиндексировать каталог данных, надо сделать этот каталог данных (с).

#opendata #datasets #laws #datacatalogs
В рубрике недокументированных API ещё один пример, реестр НПА Казахстана zan.gov.kz [1]. Хотя на сайте нет документации на это API, но оно существует и все материалы оттуда доступны в машиночитаемой форме.

- https://zan.gov.kz/api/documents/search - пример запроса поиска (требует POST запрос)
- https://zan.gov.kz/api/documents/200655/rus?withHtml=false&page=1&r=1726577683880 - пример запроса получения конкретного документа

Как Вы наверняка уже догадываетесь ни на портале данных Казахстана нет описания этого API и тем более на других ресурсах. Тем временем могу сказать что в одном только Казахстане под сотню недокументированных API, просто потому что разработчикам удобнее делать приложения используя Ajax, динамическую подгрузку контента и тд.

Каталоги API которые делаются в мире - это не такая уж странная штука, это один из способов предоставлять данные разработчикам.

Я завел отдельный тег #undocumentedapi и время от времени буду приводить примеры по разным странам.

Ссылки:
[1] https://zan.gov.kz

#opendata #data #kazakhstan #laws #api #undocumentedapi
Свежий доклад The value of corporate transparency in tackling crime [1] от британского Department for Business and Trade (DBT) о ценности сведений о регистре компаний для рынка после реформы ведения реестра. Что интересно, в докладе упоминаются оценки рынка пользователей информации о прозрачности реестра компаний, сравнивается измерение ценности этих сведений до и после реформ.

А реформы, напомню были вызваны Economic Crime and Corporate Transparency Act 2023 [2], законом в соответствии с которым изменились требования к верификации сведений в реестре компаний в Великобритании, началась чистка реестра от недостоверных сведений и появились новые принципы раскрытия данных, в том числе в машиночитаемой форме.

Собственно этот отчёт - это продолжение внедрения этого закона и оценка экономического эффекта от доступности данных.

Текст полезный, в первую очередь, тем кто оценивает экономические эффекты от доступности данных.

Ссылки:
[1] https://www.gov.uk/government/publications/the-value-of-corporate-transparency-in-tackling-crime
[2] https://www.gov.uk/government/publications/economic-crime-and-corporate-transparency-act-outline-transition-plan-for-companies-house/economic-crime-and-corporate-transparency-act-outline-transition-plan-for-companies-house

#opendata #uk #reports #laws #aml