Ivan Begtin
7.99K subscribers
1.88K photos
3 videos
101 files
4.58K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В блоге статистического ведомства ООН о том как государства получают доступ к данным частных компаний [1] с акцентом на свежее регулирование Евросоюза The Data Act [2].

Краткие тезисы:
— некоторые данные есть только у крупных компаний и они не спешат делиться ими с госорганами
— попытки государств установить партнерства с компаниями в период пандемии сработали в 9 случаях из 41, из отчета Мирового Банка
— Евросоюз в The Data Act установил условия при которых компании обязаны предоставлять данные органам власти по запросу:
* реакция на чрезвычайную ситуацию, например, пандемию или природный катаклизм
* предупреждение чрезвычайной ситуации или восстановление
* ситуации предполагающие "исключительную необходимость" и отсутствие возможности или затруднение в приобретении данных.

Всё это к свежему российскому регулированию в котором российское гос-во также хочет получить доступ к данным коммерческих компаний.

Разница с Евросоюзом у российского регулирования, в недоверии способности органов власти сохранить эти данные, и в этическом дискомфорте поскольку не было даже видимости публичного обсуждения всех последствий этого законопроекта и в расплывчатости российского нормативного регулирования.

Тем не менее, я предскажу что рынок продажи данных государствам со стороны крупных цифровых монополий будет сжиматься. Неизбежно, либо ценовое регулирование, либо предоставление данных крупными компаниями на бесплатной основе.

Причём как раз модель регулирования ЕС, с высокой вероятностью, будут применять в других юрисдикциях.


Ссылки:
[1] https://unstats.un.org/unsd/undataforum/blog/the-eu-data-act-regulating-public-sector-access-to-privately-held-data/
[2] https://digital-strategy.ec.europa.eu/en/library/data-act-proposal-regulation-harmonised-rules-fair-access-and-use-data

#data #datasharing #legislation #laws #eu
Тем кто следит за российским и не только законодательством по регулированию данных будет интересна научная статья Does South Africa's Proposed State Ownership of Data Make Any Sense? [1] разбор черновика регулирования данных в Южной Африке который правительство страны публиковало в 2021 году для общественного обсуждения.

Там немало того что хорошо знакомо в России и других странах, например, требований по локализации данных. Но есть и одна немаловажная особенность: де-факто национализация всех данных создаваемых в Южной Африке.

Это звучит как:
10.4.1 All data classified/identified as critical Information Infrastructure shall be processed and stored within the borders of South Africa.
10.4.2 Cross-border transfer of citizen data shall only be carried out in adherence with South African privacy protection policies and legislation (POPIA), the provisions of the Constitution, and in compliance with international best practice.
10.4.3 Notwithstanding the policy intervention above, a copy of such data must be stored in South Africa for the purposes of
law enforcement.
10.4.4 To ensure ownership and control:
Data generated in South Africa shall be the property of South Africa, regardless of where the technology company is domiciled.
• Government shall act as a trustee for all government data generated within the borders of South Africa.
• All research data shall be governed by the Research Big Data Strategy of the Department of Science and Innovation (DSI).

Там же ещё много всего, а в научной статье аргументируется почему такой подход не работает и не может работать в принципе.

Но совершенно точно правительства многих стран думают и предпринимают шаги в том же направлении, признании данных аналогом [не]возобновляемого ресурса и вплоть до конституционного признания владения ими государством напрямую или государством через "владение народом".

Что будет если это произойдет? Давайте перенесем на российские реалии. Представьте себе что интернет сервисы будут работать только по концессии и лицензии. Не как сейчас, когда собираешь данные и регистрируешься в реестре операторов перс данных, а так что если ты хочешь собирать те или иные данные, то вначале на это получаешь разрешение с указанием что и как собираешь и где хранишь и только после этого ты можешь сбор и обработку данных начинать.

Кажется фантастикой? А ведь так работают многие отрасли. Так думают многие регуляторы. И только высокая динамика рынка труда ИТ специалистов, венчурного рынка и цифрового бизнеса сдерживает регуляторов от ужесточения контроля.

Ссылки:
[1] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4238027
[2] https://www.gov.za/sites/default/files/gcis_document/202104/44389gon206.pdf

#data #regulation #laws #southafrica
Про электронные повестки в России я буду краток.

– Однако, мистер Дент, маршрут был выставлен для всеобщего ознакомления в местном бюро планирования и висел там девять месяцев.
– Ага, как только я узнал, то сразу же помчался прямо в бюро. Это было вчера в полдень. Вы ведь не особенно утруждали себя предупреждениями? Я имею в виду: никому ни слова, ни одной душе, правда?
– Но маршрут был обнародован для…
– Обнародован? В конце концов мне пришлось спуститься в подвал, чтобы отыскать его!
– Верно, там у нас находится отдел информации.
– С фонариком!
– Наверное, света не было.
– И ступенек тоже!
– Но послушайте, вы ведь нашли план!
– Да, – сказал Артур,
– нашел. На дне запертого шкафа в заколоченном туалете. А на двери табличка висела: «Осторожно, леопард!»

Адам Дуглас, "Автостопом по галактике", 1979 г.

А в остальном меня вот уже второй день журналисты осаждают вопросами реально ли сделать такую информационную систему в короткие сроки. Лично у меня никакого желания комментировать по этой теме нет. И не только потому что и так всем всё понятно (с), но и предмета обсуждения нет. Автоматизация решений законов сложна тогда когда эти законы долго пишут, интенсивно обсуждают, принимают как сочетание тяжелых компромиссов, а архитекторы и инженеры реализуют проклиная этих юристов за то что они напридумывали всякого невозможного. А тут всё предельно просто, если приняли за пару дней то и изменить могут также, в любой момент. Вопроса возможности-невозможности тут не стоит, внутри государства достаточно команд способных реализовать такие проекты и даже если текущую команду Минцифры расформируют за сопротивление Гостеху (в чём они молодцы), а кого-то из вице-премьеров отправят куда-нибудь в новую/старую госкорпорацию, а Грефа назначат вице-премьером по Гостеху (большая зелёная танцующая шутка), то даже в этом случае такую систему смогут сделать. Даже на таком унылом стеке как Гостех, даже если не очень стараться.

Технологии довольно давно позволяют построить системы любой степени людоедскости, Российское государство в его текущей инкарнации тут догоняющий игрок, но темп взят хороший, а марафон долгий.

#government #regulation #laws
Многие сейчас пишут о том что страны G7 приняли кодекс для разработчиков ИИ, не читайте советских газет (с), читайте первоисточники. Документ G7 это результат так называемого [1] the Hiroshima AI Process и оригиналы текстов на английском и японском языках на сайте МИД Японии [1]. Почему на японском языке? Потому что в 2023 году председателем G7 является Япония, у G8 изначально, и у G7 в итоге никогда не было отдельного сайта. Это неформальное объединение стран с ежегодной сменой председательства и под каждый год и каждое председательство создают отдельные сайты и публикуют анонсы на сайтах МИДов и Правительств входящих стран.

Полезно, также, почитать текст на сайте Еврокомиссии приветствующей это соглашение [2] и упоминающий что завершается подготовка EU AI Act [3].

Ссылки:
[1] https://www.mofa.go.jp/ecm/ec/page5e_000076.html
[2] https://ec.europa.eu/commission/presscorner/detail/en/ip_23_5379
[3] https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX:52021PC0206

#ai #regulation #g7 #laws #ethics
В том что касается всеобщей сдачи бизнесом персональных данных государству всё идет по пессимистичному сценарию, в Ведомостях статья (жаль под пэйволом) [1], о том что крупный бизнес будет обезличивать данные сам, малый бизнес будет обязан сдавать данные о клиентах на обезличивание в принудительном порядке, а заниматься всем этим обезличивание будет НИИ Восход (подвед Минцифры РФ). Я не удивлюсь что после этого сам НИИ Восход переведут какой-то из закрытых городов или ядерных бункеров, сотрудникам запретят выезд за пределы места проживания и работы и запретят доступ в интернет плюс ещё что-то из этого. Потому что такая сверхконцентрация персональных данных - это, ммм, просто вкусняшка для всех хакеров, инсайдеров и пробивщиков. В общем я ребятам не завидую вообще ни в каком виде.

Но дело не только в этом. Хотя всё пока и выглядит так что крупный бизнес смог увернуться от принудительной сдачи данных, радоваться не стоит.
Во первых история знает слишком много случаев когда поправки в законы ужесточающие нормы принимаются быстро и почти скрыто, будучи спрятанными в совершенно не связанные законопроекты.
Во вторых ничто не помешает регуляторам вводить ограничения и против крупняка, обосновав, например, крупной утечкой данных. Особенно если компания негосударственная и регулятору её надо о чём то просить, а не просто приказать.

Ссылки:
[1] https://www.vedomosti.ru/technology/articles/2023/12/05/1009333-mintsifri-predusmotrelo-dva-varianta-dlya-obezlichivaniya-personalnih-dannih

#privacy #data #regulation #laws #russia
Так уж сложилось что я уже лет десять мониторю и иногда выкладываю [1] цифры по legislative burden нормативной нагрузке нарастающей с ростом принимаемых законов и других НПА ежегодно. Так в 2022 году в России было принято 645 федеральных законов из которых 180 было принято в декабре 2022 года, а 55 было принято в ноябре 2022 года. Все эти цифры это абсолютные рекорды. Последний номер закона подписанного в ноябре 2022 года был 465-ФЗ. А вот в 2023 году за ноябрь уже принято 57 законов и номер последнего 564-ФЗ. А то есть есть хорошие шансы что до конца декабря общее число принятых законов составит 750, а это +16% к аналогичному периоду прошлого года (простите что срываюсь на этот бюрократический язык). А ещё можно и нужно замерить число указов Президента РФ, распоряжений и постановлений Правительства РФ и так далее.

Подводить итоги этого бюрократического забега и выбирать победителей по доле прироста макулатуры можно будет в январе 2024 года. Так что ожидайте, примерно в середине января всё прояснится.

P.S. Для сравнения: в Казахстане нумерация законов не внутри года, а от начала работы созывов депутатов. Например, VII созыв меджлиса принимал законы с 1 февраля 2021 года по 20 апреля 2023 года и успел принять всего 227 законов, это примерно по 8.4 закона в месяц, примерно по по 101 закон в год.

Ссылки:
[1] https://t.iss.one/begtin/3511

#laws #lawburden #data #statistics
Вдогонку к числу законов принятых в России [1], можно не дожидаться января, в 2023 году всего принято 694 закона, чуть чуть недотянули до 700. Для сравнения в 2022 году было принято 645 законов. Итого, выражаясь в терминах "палочной" статистики МВД рост составил 7,6% АППГ (к аналогичному периоду прошлого года). Можно было бы подумать как хорошо законодатели поработали в этом году, но реальность такова что больше законов - больше нормативная нагрузка на людей и бизнес. Выигрывают от них только госорганы и то не все.

Всё это напрямую относится и к регулированию данных, персональных данных, ИИ, информационной безопасности и других технологических областей. И судя по всему нет признаков того что этот тренд на рост листажа бумаги закончится.

Я хорошо помню как много лет назад когда я работал на больших ИТ проектах государственных информационных систем приёмка осуществлялась буквально килограммами бумаги. Я был свидетелем лично случая когда один начальник отдела в российском министерстве экономического хаоса указывал подрядчику показывая стопки бумаги. "Вот смотри", говорил он, "это проект на 2 миллиона и тут 200 листов, а у ты сдаёшь проект на 10 миллионов, а у тебя всего 40 листов. Надо хотя бы 400, а лучше 1000, тогда прокуроры точно утомятся читать при проверке".

Конечно, законодатели, это несколько другой случай и другая мотивация, а 99% принимаемых законов это изменения в существующие законы, но бюрократическая культура общая, в отсутствии осознания вреда от подобного нормативного "бешенства".

Ссылки։
[1] https://t.iss.one/begtin/5257

#laws #regulation #russia
Совершенно какой-то уникальный российский законопроект о создании государственной информационной системы "Национальный словарный фонд") [1] буквально только недавно внесённый правительством.

Во первых он определяет появление такой ФГИС как Национальный словарный фонд, а во вторых и это совсем редко, к нему приложено настоящее техническое обоснование и ФЭО. Из них, кстати, есть ощущение что всё это работа под "национализацию" корпуса русского языка который создавался не только за счёт бюджетных ресурсов, но, не совсем и не точно, потому что неизвестно соответствие этих продуктов.

Из нюансов - там на создание системы заложено 182 миллиона рублей и, конечно же, никакой открытости данных или API явным образом не упоминается. Есть только упоминание что "Информация, содержащаяся в Национальном словарном фонде, является общедоступной." в 3-м пункте законопроекта, а то есть хотя бы не под копирайтом.

Из нюансов, если это создаётся для проектов по машинному обучению и ИИ то делать его к 2026 году - это совсем неспешно.

А для чего тогда? Хочется надеяться что не для "языкового контроля". Но хотя бы не как замену Википедии.

Ссылки:
[1] https://sozd.duma.gov.ru/bill/538215-8

#government #russia #russianlang #laws
Читать нормативные документы дело неблагодарное и пока непонятно как это интерпретировать как рост закрытости или как халатность, но на сайте Минцифры России не публикуются приложения ко многим приказам ведомства.

Например, *Приказ Минцифры России № 296 О составе Экспертного совета при Министерстве цифрового развития, связи и массовых коммуникаций Российской Федерации по вопросам развития и цифровой трансформации книжной индустрии* [1] в тексте содержит *...изложить в новой редакции согласно приложению к настоящему приказу.* Но самого приложения нет. В "текстовой версии" приказа тоже нет приложения [2] и даже в "графической версии" (скане) [3] приложения нет. Аналогично с приказом N287 [4]

И, похожим образом по всем приказам касающихся сервитутов [5]

В то же время, другие приказы приложения содержат, в виде ссылок правда, но хоть так [6]

И отдельная история про то почему не все приказы федеральных органов власти публикуются на портале правовых актов и в системе регистрации НПА Минюста.

Ссылки:
[1] https://digital.gov.ru/ru/documents/9542/
[2] https://digital.gov.ru/uploaded/files/prikaz-o-vnesenii-izmenenij-v-sostav-es-po-izd-deyatelnosti-yur2sispr.docx
[3] https://digital.gov.ru/uploaded/files/296_PfRi2Gh.pdf
[4] https://digital.gov.ru/ru/documents/9541/
[5] https://digital.gov.ru/ru/documents/9531/
[6] https://digital.gov.ru/ru/documents/9333/

#closeddata #opendata #legaldocs #russia #laws #russia
В рубрике интересных наборов данных QuantGov [1] исследовательский проект по сбору законов и других регуляторных документов, превращению их в данные и последующий анализ с построением графиков и интерактивных инструментов. Основной посыл в измерении регуляторной нагрузки, охватывают, при этом, не только США и отдельные штаты, но и Канаду, Австралию, Индию, Великобританию. Всё доступно в виде датасетов в CSV, интерактивного выгрузчика документов и API.

Ключевое - это активное научное применение, эти датасеты активно цитируют исследователи и пишут про них экономические СМИ.

P.S. Префикс Quant в данном случае не имеет никакого отношения к квантовым технологиям, а часть слова Quantification, количественная оценка.

Ссылки:
[1] https://www.quantgov.org

#opendata #datasets #laws #regulations #policy
Я, кстати, в очередной раз могу сказать что открытые данные - это, в первую очередь, культура и систематизация работы с данными. Так сложилось что я регулярно работаю с большими базами документов порождённых органами власти. Не с отдельными файлами, а прям с копиями банков документов законов и других НПА. И огромная часть этих НПА - это, безусловно, то что должно быть доступно в виде данных, а не в виде отсканированных PDF документов.

Если бы официальные документы все и всеми публиковались бы с приложениями, хотя бы в виде Excel файлов, то доступных данных было бы гораздо больше.

Например из десятков тысяч документов опубликованных органами власти г. Москвы на оф сайте mos.ru, как минимум несколько тысяч - это очень большие таблицы, в сотни и тысячи страниц опубликованные как сканы. Если бы их публиковали иначе, то то же Правительство Москвы могло бы публиковать не несколько сотен, а несколько тысяч наборов данных, потенциально весьма востребованных к тому же.

Это просто пример, он справедлив к отношении практически всех органов власти, особенно крупных стран и территорий.

А я об этом задумался ещё давно в контексте того что поиск по данным может начинаться как поиск по каталогам данных и индексированием того что уже машиночитаемо, а продолжаться охватывая то что ещё не машиночитаемо, но может стать таковым. Чтобы проиндексировать каталог данных, надо сделать этот каталог данных (с).

#opendata #datasets #laws #datacatalogs
В рубрике недокументированных API ещё один пример, реестр НПА Казахстана zan.gov.kz [1]. Хотя на сайте нет документации на это API, но оно существует и все материалы оттуда доступны в машиночитаемой форме.

- https://zan.gov.kz/api/documents/search - пример запроса поиска (требует POST запрос)
- https://zan.gov.kz/api/documents/200655/rus?withHtml=false&page=1&r=1726577683880 - пример запроса получения конкретного документа

Как Вы наверняка уже догадываетесь ни на портале данных Казахстана нет описания этого API и тем более на других ресурсах. Тем временем могу сказать что в одном только Казахстане под сотню недокументированных API, просто потому что разработчикам удобнее делать приложения используя Ajax, динамическую подгрузку контента и тд.

Каталоги API которые делаются в мире - это не такая уж странная штука, это один из способов предоставлять данные разработчикам.

Я завел отдельный тег #undocumentedapi и время от времени буду приводить примеры по разным странам.

Ссылки:
[1] https://zan.gov.kz

#opendata #data #kazakhstan #laws #api #undocumentedapi
Свежий доклад The value of corporate transparency in tackling crime [1] от британского Department for Business and Trade (DBT) о ценности сведений о регистре компаний для рынка после реформы ведения реестра. Что интересно, в докладе упоминаются оценки рынка пользователей информации о прозрачности реестра компаний, сравнивается измерение ценности этих сведений до и после реформ.

А реформы, напомню были вызваны Economic Crime and Corporate Transparency Act 2023 [2], законом в соответствии с которым изменились требования к верификации сведений в реестре компаний в Великобритании, началась чистка реестра от недостоверных сведений и появились новые принципы раскрытия данных, в том числе в машиночитаемой форме.

Собственно этот отчёт - это продолжение внедрения этого закона и оценка экономического эффекта от доступности данных.

Текст полезный, в первую очередь, тем кто оценивает экономические эффекты от доступности данных.

Ссылки:
[1] https://www.gov.uk/government/publications/the-value-of-corporate-transparency-in-tackling-crime
[2] https://www.gov.uk/government/publications/economic-crime-and-corporate-transparency-act-outline-transition-plan-for-companies-house/economic-crime-and-corporate-transparency-act-outline-transition-plan-for-companies-house

#opendata #uk #reports #laws #aml
Вдогонку к новости от ИПП про датасет российского законодательства, не могу не порадоваться его появлению, ИПП одни из немногих кто создаёт качественные датасеты и публикует их ещё и в parquet формате. Реально ценный датасет для исследователей и моя любимая тема - измерение качества баз нормативных документов и законотворческой деятельности. Раз 5 я подступался к запуску публичного проекта в этой области, но каждый раз убеждался что политизации избежать сложно (невозможно!) и единственный способ подачи материалов, это вот такие датасеты.

А я покажу Вам живой пример как его использовать с помощью DuckDB. Благо пример у меня был уже готов по другой базе, тоже законов, и его надо было лишь слегка адаптировать.

Итак, скачиваете все parquet файлы, запускаете DuckDB в одной с ними папке и выполняете вот такой, не самый сложный SQL Запрос:
select count(num) as n_open, max(num) as n_total, (n_total-n_open) as n_closed, (n_open*100.0/n_total) as percent_open, year(parsed_date) as y from (select CAST(split_part(docNumberIPS, '-', 1) as INTEGER) a
s num, strptime(docdateIPS, '%d.%m.%Y') as parsed_date from 'ruslawod_*.parquet' where issuedByIPS = 'Распоряжение Правительства Российской Федерации' order by parsed_date) group by y order by y desc;

-
Результат будет как на картинке. По этой таблице можно построить графики:
- общего числа принятых распоряжений Правительства РФ по годам
- числа распоряжений которые были опубликованы
- числа распоряжений которые не были опубликованы (секретны)
- доля открытых текстов распоряжений.

Можно увидеть что:
1. Доля распоряжений резко нарастает в последние 2 года
2. Число закрытых/секретных распоряжений значительно выросло, в 2.1 раза с 2020 г.
3. Доля открытых распоряжений снизилась с 81% в 2020 году до 63% в 2023 г.

По другим типам НПА можно проделать такой же фокус и увидеть много интересного. Например, измеряя рост нормативной нагрузки по объёмам опубликованных НПА определённого типа.

В добавок, в качестве добрых пожеланий, датасет можно улучшить если изменить его типы данных внутри с varchar на более естественные для формата parquet. Превратить поля docdateIPS и actual_datetimeIPS в датувремя, поля classifierByIPS и keywordsByIPS в списки varchar, is_widely_used в boolean.

Впрочем и без этого с данными можно работать.

#opendata #datasets #russia #laws