Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Forwarded from Инфокультура
Готовим новый очень интересный и важный проект! Скоро расскажем подробности ⚡️
В парламент Австралии внесен законопроект Data Availability and Transparency Bill 2020 [1] в котором много всего того что старательно игнорируют отечественные законодатели, достаточно лишь увидеть структуру законопроекта, причём что характерно, так законы в Австралии пишутся с обязательным изложением их понятным языком. Это вписывается в пункт "Simplified outline of this Act" где изложено, например, следующее

Законопроект вводит такое понятие как data custodians (хранители данных) и определяет регламент предоставления данных ограниченного доступа так называемым аккредитованным пользователям (прошедшим специальную верификацию), в том числе через аккредитованных поставщиков услуг.

Если подробнее то:
- Хранители данных (data custodians) в государственном секторе могут обмениваться данными с аккредитованными пользователями в соответствии с требованиями по контролю, предусмотренного настоящим Законом. Хранители данных могут обмениваться данными с аккредитованными пользователями напрямую, или косвенно через ADSP (сокращенно от аккредитованного поставщика услуг передачи данных).

- Данные государственного сектора определяются как данные, законно созданные, собранные или хранящиеся органами Содружества или от их имени. Орган Содружества, который контролирует такие данные и имеет право иметь с ними дело, является хранителем данных и, следовательно, уполномочен делиться ими контролируемым образом.

- Существуют соответствующие разрешения для аккредитованных организаций на сбор и использование общих данных.

- Национальный уполномоченный по данным является регулирующим органом для схем обмена данными, а также выполняет функцию пропаганды обмена данными государственного сектора и их обнародования в более общем плане. Комиссару помогают сотрудники APS в департаменте и консультации Национального консультативного совета по данным.

- Субъекты должны быть аккредитованы уполномоченным, чтобы иметь возможность обмениваться данными государственного сектора с ними или через них.

- Субъекты схемы данных (т. е. хранители данных и аккредитованные субъекты) несут ответственность в соответствии с законом. субъекты схемы данных могут жаловаться уполномоченному на нарушения закона другими субъектами схемы данных. Уполномоченный также имеет полномочия запрашивать информацию и оценивать, контролировать и расследовать объекты схемы данных. Комиссару доступен целый ряд вариантов правоприменения.


Это и есть та модель регулирования о которой я неоднократно писал - организация доступа к непубличным государственным данным регламентированным образом согласно одному регламенту. В России нет ничего подобного, даже обсуждения не ведется, хотя и существует множество самых разных механизмов регламентации доступа отдельных видов организаций к госданным, например, через СМЭВ.

Ссылки:
[1] https://parlinfo.aph.gov.au/parlInfo/search/display/display.w3p;query=Id%3A"legislation%2Fbills%2Fr6649_first-reps%2F0000";rec=0

#opendata #data #regulation
Вышла моя колонка "Надзорное государство. Как новые технологии и пандемия сняли ограничения для российского Большого брата"[1] в Republic на основе большого текста в моей рассылке на begtin.substack.com которую я ранее размещал в канале.

С этой колонки можно начинать серию итогов 2020 года с точки зрения открытости и приватности.

Ссылки:
[1] https://republic.ru/posts/98869

#articles #privacy
На фоне того что российское правительство решило начать снова процесс выстраивания диалога с ОЭСР, я напомню что у ОЭСР есть большое число инициатив связанных с открытость данных, с digital government как продолжением open government и не только. И тут хорошо бы вспомнить российские инициативы по открытости и чем они закончились.

Что-то излагалось в докладах по открытости государства от Счетной палаты [1], но есть многое оставшееся за рамками докладов, просто потому что требуется много времени чтобы расписывать это подробно и нейтрально. Я поделюсь тезисно воспоминаниями более чем 11 летней давности.


Открытый диалог
- Российская общественная инициатива roi.ru - сделана была по аналогии петиций администрации Барака Обамы в США и петиций Правительства Великобритании. В отличие от них процедура принятия решений по петициям была организована через комиссию Открытого Правительства. Ни одна серьёзная петиция эту комиссию не прошла. Сейчас, де-факто, проект в малоосмысленном состоянии
- Обсуждение законопроектов на специальных сайтах: закон об образовании, закон о полиции и проект zakon.government.ru. Позволяли не просто прокомментировать что-то, а переписать часть документа по своему и голосовать за другие редакции. Так граждане полностью переписали закон о рыболовстве. Все проекты были закрыты, вместо них был создан regulation.gov.ru по форме и логике организованный так что можно проигнорировать любое число публичных отзывов.
- Экспертный совет при Правительстве. Начиналось всё красиво, выглядел этот экспертный совет как "расширенная группа поддержки Дмитрия Медведева". Де факто диалога на его базе не возникло, он довольно быстро разделился на тех кому был важен статус нахождения в совете, и те чьими именами подписывали письма лоббисты в "Открытом пр-ве".
- Многочисленные блоги в Livejournal, потом Twitter'ы, потом блоги на собственных сайтах у губернаторов, мэров, министров и так далее. Всплеск был когда блог появился у Дмитрия Медведева. По факту к 2013 году их число стало сокращаться и довольно скоро и сам блог Медведева выродился в безжизненную сводку новостей и то же самое произошло с большинством блогов более менее публичных персон лиц принимающих решения.

Открытые данные
- первый портал начало делать Правительство Москвы и он даже был довольно приличный для своего времени, но через несколько лет завис в своём развитии
- изначально регулирование открытых данных пошло по обязательному белому списку совпадавшему со списком сведений обязательных к раскрытию по 8-ФЗ и требованиями к раскрытию данных на сайтах органов власти. Это привело к безумной бессмысленной нагрузке на пресс-службы органов власти по публикации мелкий наборов данных вакансий, подведов и контактов которые никому не были нужны
- на самом старте федеральный портал открытых данных должно было делать Минкомсвязи, но в последний момент Минэкономразвития его перехватило и сразу же задало очень низкую планку качества и очень странную архитектуру со сбором данных с сайтов ФОИВов и региональных органов власти. При этом ключевые данные из государственных информационных систем там почти не публиковались.
- в итоге федеральный портал оказался забит бесконечным объёмом "мусора", мелких бессмысленных, неиспользуемых никогда наборов данных
- региональные порталы стали деградировать после 2014 года, когда повестка открытых данных отошла в стороны и из-за смены внешней политики планы России по вступлению ОЭСР отменились. В ряде регионов порталы были закрыты, в других их просто перестали обновлять.
- не удалось добиться никакого прогресса в раскрытии данных о качестве жизни на гиперлокальном (хотя бы муниципальном) уровне: уровень преступности, качество образования, качество медицинской помощи, уровень загрязнения окружающей среды и так далее.
- при этом остались органы власти с довольно сильной работой с данными в том числе публикацией их: Федеральное казначейство, Минфин России, Минкультуры России, ФНС России и ещё ряд органов власти и субъектов.
Международные обязательства и национальные стратегии
- Россия должна была вступить в Open Government Partnership в 2012 году, но это получалось буквально за месяц до окончания президентского срока Д. Медведева. В итоге заявление о вступлении было отозвано в самый последний момент и более к нему не возвращались
- Хартия открытых данных G8 была подписана Владимиром Путиным летом 2013 года, а в 2014 году должна была пройти сверка результатов по обязательствам в Хартии. В 2018 году G8 превратилось в G7, а обязательства России по этой хартии перестали исполняться
- Хартия открытых данных созданная Тимом Бернерсом Ли 2015 года на основе хартии открытых данных G8, охватывает десятки стран и территорий. В России ни один регион, город или федерально правительство её не подписали.
- ФОИВы должны были готовить свои планы по открытости и делали это, в последнее время для галочки
- де-факто на 2020 год нет высшего должностного лица ответственного за открытость государства.

В качестве послесловия тут хорошо бы написать какие-нибудь выводы. Главный вывод, пожалуй, что вся тема открытости государства сейчас требует полного перезапуска. Но кто это будет делать? И будет ли?

Ссылки:
[1] https://ach.gov.ru/page/government-openness

#opendata #opengov
Где читать про технологии в государстве? В России практически негде, а если говорить про то что происходит в мире, то далее подборка ресурсов, в первую очередь блогов на английском языке.

Блоги в Великобритании
- Home Office Digital, Data and Technology https://hodigital.blog.gov.uk/
- Centre for Data Ethics and Innovation Blog https://cdei.blog.gov.uk/
- Data in government https://dataingovernment.blog.gov.uk
- Defra digital https://defradigital.blog.gov.uk
- Government Data Architecture https://dataarchitecture.blog.gov.uk/
- Technology in government https://technology.blog.gov.uk/
- Digital and Data Wales https://digitalanddata.blog.gov.wales/
- Digital Scottish government https://blogs.gov.scot/digital/


Блоги по гостехнологиям в США
-18F blog https://18f.gsa.gov/blog/
- Healthdata.gov blog https://healthdata.gov/blog
- Data.gov blog https://www.data.gov/meta/
- Cancer Data Science Pulse https://datascience.cancer.gov/news-events/blog
- National data strategy news https://strategy.data.gov/news/

Блоги по гостехнологиям в Австралии
- digital.nsw https://www.digital.nsw.gov.au/blog
- DTA News and blogs https://www.dta.gov.au/news-blogs/all


Блоги во Франции
- Le blog d’Etalab https://www.etalab.gouv.fr/blog
- Beta.gouv.fr blog https://blog.beta.gouv.fr/

Международные блоги
- OECD the AI wonk https://oecd.ai/wonk/
- OECD blogs https://www.oecd.org/blogs/
- UN World data forum blog https://unstats.un.org/unsd/undataforum/blog/
- Open Government Partnership Learning blog https://www.opengovpartnership.org/learning/blog/

#opendata #data #govtech #blogs
В рамках национальной стратегии данных в США опубликованы финальные версии каталога навыков по работе с данными и этический фреймворк по работе с данными [1].

Конечно, весьма бюрократизированные, но интересные документы. В отличие от российских они создавались непосредственно теми кто занимается наймом людей с этими навыками и их обучением в органы власти США. То есть теория уже после практики и это разумно.

Ссылки:
[1] https://strategy.data.gov/news/2020/12/01/data-skills-catalog-and-data-ethics-framework/

#data #ethics #usa
Для тех кто следит за мобильной приватностью и мобильными приложениями. В блоге исследователей приватности AppCensus вышла заметка Proximity Tracing in an Ecosystem of Surveillance Capitalism [1]

Где они подробно разбирают то как устроено API контроля за уведомлениями о COVID-19 Google-Apple Exposure Notifications (GAEN) и о том что есть возможность обходить его ограничения. Поскольку API использует информацию о находящихся рядом bluetooth устройствах то можно идентифицировать конкретного человека в конкретное время по "bluetooth отпечатку" устройств вокруг. И делается это через такой сервис как X-mode [2], тот самый который засветился в продаже данных из приложений военным в США [3]

Ссылки:
[1] https://blog.appcensus.io/2020/12/04/proximity-tracing-in-an-ecosystem-of-surveillance-capitalism/
[2] https://xmode.io
[3] https://9to5mac.com/2020/11/20/us-military-buys-location-data-from-muslim-prayer-app-and-more/

#privacy #covid-19 #xmode
Для тех кто давно хочет поэкспериментировать с машинным переводом, Translator API [1] полностью с открытым кодом на Github, легко модифицируется, поддерживает 150 языков и работает на основе языковой модели Language Technology Research Group at the University of Helsinki [2].
Всё вместе работает на основе Cortex [3], решения с открытым кодом по развертыванию моделей машинного обучения.

Очень интересно было бы сравнить с автоматизированными облачными переводчиками.

Ссылки:
[1] https://github.com/cortexlabs/cortex/tree/translator-example/examples/model-caching/python/translator
[2] https://huggingface.co/Helsinki-NLP
[3] https://www.cortex.dev/

#ml #machinelearning #datascience #cooltools #data
Весьма показательная история именно в европейской практике государственных и общественных дискуссий - это публичные консультации. Например, вот публичная консультация в Великобритании по использованию академических идентификаторов DOI для материалов опубликованных на GOV.UK [1] [2].

Сама идея очень любопытная, действительно, наличие постоянной ссылки даёт гарантию что документ не исчезнет и что его всегда можно найти по конкретному адресу. Для академических публикаций это норма, для государственных - редкость.

Но важнее именно сам факт публичной консультации и с весьма подробными ответами участников.

Ссылки:
[1] https://dataingovernment.blog.gov.uk/2020/11/10/we-want-your-feedback-on-using-the-doi-standard-in-government/
[2] https://github.com/alphagov/open-standards/issues/75

#data #doi #opengov
Для тех кто ищет наборы данных побольше, команда Clickhouse обработала данных из Github'а собранные в проекте GHArchive и превратила в большую базу для Clickhouse [1].

Её также можно скачать в виде цельной базы данных для Clickhouse, 71ГБ в сжатом виде [2]

Конечно, это уже существующие данные, нового раскрытия тут нет, но есть удобный формат для работы. Переупакованные данные также имеют большую ценность поскольку по такой базе проще делать сложные запросы, тем более что примеры там приведены неплохие.

Всем кто изучает сложные структуры, большие графы и тд. это всё будет более чем полезный набор данных.

Ссылки:
[1] https://gh.clickhouse.tech/explorer/
[2] https://gh.clickhouse.tech/explorer/#download-the-dataset

#opendata #bigdata #github #clickhouse
Правительство РФ анонсировало большую работу по инвентаризации ИТ систем [1].

Мне так много что есть сказать об этом что я даже не знаю с чего начать. Поэтому буду краток.

Хорошее: это назрело и собственные ИТ ресурсы не знают до сих пор в большинстве органов власти

Плохое: инвентаризация данных - это не инвентаризация баз данных. Базы смешаны с ИТ ресурсами.

Хуже:
- всё меняется постоянно, без постоянной актуализации сведения устареют за год.
- слишком многое не находится в органах власти, а сокрыто в подведах разной степени подведности.

Итого: это инвентаризация последствий информатизации и автоматизации за последние лет 20. Закончить в заявленные сроки ее нереально, надеюсь это только первый шаг в этом направлении.

Ссылки:
[1] https://government.ru/news/41104/

#government #data #digital
Общепринято считать что открытость - это продолжение или следствие демократии, но с оговоркой, что демократии да, а вот капитализма не всегда. Давним примером была приватизация Ordnance Survey, госпредприятия аналога Росреестра в Великобритании которое финансировалось из бюджета страны и Правительство Великобритании решило сократить расходы через его приватизацию [1].

А вот и свежий пример. В США законодатели решили сделать открытую, бесплатную и общедоступную федеральную базу всех судебных решений, против, совершенно неожиданно, оказались судьи. В статье в Washington Post [2] о том что судейское сообщество приводит следующие аргументы:
- ведение картотек судебных дел сейчас в США на 87% оплачивают юридические фирмы и крупные клиенты
- неизвестно насколько вырастет нагрузка на аппараты судов
- в некоторых штатах такие базы уже создаются и возникает дублирование работы и финансирования

Юридическая сторона, в принципе, одна из самых сложных именно в США. Если сравнивать по открытости законотворческого процесса, то прозрачность законотворческого процесса в США высокая, а вот общефедеральной базы законов никогда не было, по тем же самым причинам что сейчас сопротивляются судьи.

Ещё 11 лет назад Карл Маламуд, известный активист по открытию общественно значимых юридических текстов, выдвигал инициативу по созданию базы law.gov [3], но, видимо, 10 лет недостаточно.

Это, кстати, и вопрос про то почему в международных рейтингах открытость обычно лидируют скандинавские страны или Австралия и Новая Зеландия, иногда Сингапур. В странах со сложившимся с развитым, даже если и демократическим капитализмом, некоторые решения ломают или сильно трансформируют рынки. А у крупных лоббистов слишком много влияния чтобы откладывать необходимые решения или сильно их ослаблять.

Поэтому когда я, например, пишу про опыт открытости в США и Великобритании, я всегда держу в голове что даже у очень хорошего опыта и стран сильными сообществами по открытости, есть свои ограничения.

Ссылки:
[1] https://en.wikipedia.org/wiki/Ordnance_Survey#Data_access_and_criticisms
[2] https://www.washingtonpost.com/local/legal-issues/judiciary-opposes-free-online-court-records-database/2020/12/03/02b10a3c-357f-11eb-b59c-adb7153d10c2_story.html
[3] https://law.resource.org/index.law.gov.html

#opendata #opengov #data
Приводить в пример США или Великобританию в части того что происходит в цифровизации с каждым годом всё сложнее, политика, санкции и так далее. Я регулярно привожу примеры из других стран, главные же ограничения по тому чтобы привести их опыт в том что английский язык в России знают многие, а вот другие языки не так много кто.

В этот раз и на фоне инвентаризации информационных систем в России, приведу итальянский опыт.

В Италии действует портал разработчиков developers.italia.it [1] (кстати, отвлекусь, в Италии как и во многих странах есть национальный туристический портал italia.it [2]).

На портале для разработчиков ПО приведён каталог [3] из 226 продуктов из которых:
- 15 платформ
- 145 решений с открытым кодом сделанных органами власти для повторного использования
- 66 решений с открытым кодом третьих сторон используемые органами власти

По ним доступны:
- исходный код, всегда на Github в открытом доступе
- документация
- обсуждение в канале в Slack для разработчиков для гос-ва в Италии
- обсуждение на форуме
- для платформ также приведены ресурсы в виде: API, SDK и возможность обсудить прототипы

Что характерно, этот и другие цифровые порталы, создаются в Италии в рамках трёхлетнего плана информатизации государства Piano Triennale per l’informatica nella Pubblica Amministrazione 2020 - 2022 [4]
Это краткий, чётко изложенный план из 8 пунктов:
1. Сервисы
2. Данные
3. Платформы
4. Инфраструктура
5. Интеграция
6. Кибербезопасность
7. Инструменты и модель инновации
8. Управление цифровой трансформацией

Кстати, обратите внимание что первое что сделали в Италии это сделали систему публикации государственных документов в понятном виде docs.italia.it [5] и об этом они писали ещё в 2018 году, все документы там редактируются через Github [6]

Ссылки:
[1] https://developers.italia.it/
[2] https://www.italia.it
[3] https://developers.italia.it/it/search?page=0&sort=relevance
[4] https://docs.italia.it/italia/piano-triennale-ict/pianotriennale-ict-doc/it/2020-2022/index.html
[5] https://docs.italia.it/
[6] https://medium.com/team-per-la-trasformazione-digitale/docs-italia-open-government-collaborazione-pubblica-amministrazione-progetti-linguaggio-b89ff330e21b

#opengov #opendata #opensource #italy
Открытость данных по испански - это когда на национальном портале данных datos.gob.es публикуются данные не только органов власти, но и университетов [1] и других исследовательских центров. А также университеты объединяются [2] и создают негосударственный проект UniversiDATA [3] посвящённый прозрачности университетов и предназначенный для раскрытия ими информации об их деятельности: бюджеты, состав преподавателей, исследовательские центры и программы,

Фактически открытые данные используются как часть инфраструктуры прозрачности как государства в целом, так и в частных случаях требований к организациям.

Ссылки:
[1] https://datos.gob.es/en/catalogo?administration_level=U&_res_format_label_limit=0
[2] https://datos.gob.es/es/noticia/nace-universidata-el-portal-colaborativo-de-datos-abiertos-especializado-en-el-sector-de-la
[3] https://www.universidata.es/

#opendata #data #spain
Не все знают, Интернет-архив, archive.org, помимо возможности найти архивную копию страницы также вот уже какое-то время в режиме бета предоставляет возможность:
- сравнить архивные копии одной страницы, в сравнении синим цветом подкрашивается удалённое и жёлным измененное/добавленное
- увидеть в каких коллекциях есть выбранная веб-страница (да, одну и ту же страницу могут проинтексировать десятки роботов, и она будет в разных коллекциях)

Для журналистов расследователей это может быть просто находка, например можно посмотреть изменения в составе экспертного совета Фонда Кино [1] за этот год.

Ссылки:
[1] https://web.archive.org/web/diff/20200427153240/20200201180534/https://www.fond-kino.ru/about/expert-council/

#opendata #archives #digitalpreservation #archives
Для тех кто ищет большие (особенно большие) открытые данные для экспериментов, анализа и тренировки навыков, не всегда связанных с практическими задачами, подборка крупнейших источников открытых данных.

- Открытые данные CERN https://opendata.cern.ch/ - более 2 петабайт данных физики частиц. В виду их объёма доступ к ним открыт, но через специальные инструменты
- Common Crawl https://commoncrawl.org/ - огромный поисковый индекс по всем веб-сайтам в Интернете. Аналог поисковых индексов Google, Bing или Яндекс, но без веб интерфейса и доступный в виде гигантских слепков в формате WARC. Особенно удобно тем кто работает с данными через облако Amazon, поскольку сейчас весь ресурс хостится именно там
- Archive.org collections https://archive.org/ - коллекции медиа и данных на Archive.org, практически бесконечные объёмы данных на самые разные темы
- многочисленные наборы данных по COVID-19 https://t.iss.one/begtin/2066 - в облаках Amazon, Google BigQuery и Azure и других
- Awesome Public Datasets https://github.com/awesomedata/awesome-public-datasets - один из наиболее популярных репозиториев на Github с каталогом общедоступных данных большого объёма
- DataCatalogs https://datacatalogs.org/ - каталог порталов открытых данных, около 599 порталов всего (очень неполный, на самом деле)
- Re3Data https://re3data.org - каталог научных репозиториев содержащих данные по результатам исследований, включает, в том числе, репозитории с большими данными

Важно помнить что, как правило, только на общедоступных данных сложно сделать востребованный продукт. Как правило на них отрабатывают технологии, а продукты создают уже в другой среде и на других данных.

#opendata #data #bigdata #datasource
Сервисы Google: Gmail, Google Диск и Youtube недоступны. Пока не было сообщений о причинах сбоя