Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Где читать про технологии в государстве? В России практически негде, а если говорить про то что происходит в мире, то далее подборка ресурсов, в первую очередь блогов на английском языке.

Блоги в Великобритании
- Home Office Digital, Data and Technology https://hodigital.blog.gov.uk/
- Centre for Data Ethics and Innovation Blog https://cdei.blog.gov.uk/
- Data in government https://dataingovernment.blog.gov.uk
- Defra digital https://defradigital.blog.gov.uk
- Government Data Architecture https://dataarchitecture.blog.gov.uk/
- Technology in government https://technology.blog.gov.uk/
- Digital and Data Wales https://digitalanddata.blog.gov.wales/
- Digital Scottish government https://blogs.gov.scot/digital/


Блоги по гостехнологиям в США
-18F blog https://18f.gsa.gov/blog/
- Healthdata.gov blog https://healthdata.gov/blog
- Data.gov blog https://www.data.gov/meta/
- Cancer Data Science Pulse https://datascience.cancer.gov/news-events/blog
- National data strategy news https://strategy.data.gov/news/

Блоги по гостехнологиям в Австралии
- digital.nsw https://www.digital.nsw.gov.au/blog
- DTA News and blogs https://www.dta.gov.au/news-blogs/all


Блоги во Франции
- Le blog d’Etalab https://www.etalab.gouv.fr/blog
- Beta.gouv.fr blog https://blog.beta.gouv.fr/

Международные блоги
- OECD the AI wonk https://oecd.ai/wonk/
- OECD blogs https://www.oecd.org/blogs/
- UN World data forum blog https://unstats.un.org/unsd/undataforum/blog/
- Open Government Partnership Learning blog https://www.opengovpartnership.org/learning/blog/

#opendata #data #govtech #blogs
В рамках национальной стратегии данных в США опубликованы финальные версии каталога навыков по работе с данными и этический фреймворк по работе с данными [1].

Конечно, весьма бюрократизированные, но интересные документы. В отличие от российских они создавались непосредственно теми кто занимается наймом людей с этими навыками и их обучением в органы власти США. То есть теория уже после практики и это разумно.

Ссылки:
[1] https://strategy.data.gov/news/2020/12/01/data-skills-catalog-and-data-ethics-framework/

#data #ethics #usa
Для тех кто следит за мобильной приватностью и мобильными приложениями. В блоге исследователей приватности AppCensus вышла заметка Proximity Tracing in an Ecosystem of Surveillance Capitalism [1]

Где они подробно разбирают то как устроено API контроля за уведомлениями о COVID-19 Google-Apple Exposure Notifications (GAEN) и о том что есть возможность обходить его ограничения. Поскольку API использует информацию о находящихся рядом bluetooth устройствах то можно идентифицировать конкретного человека в конкретное время по "bluetooth отпечатку" устройств вокруг. И делается это через такой сервис как X-mode [2], тот самый который засветился в продаже данных из приложений военным в США [3]

Ссылки:
[1] https://blog.appcensus.io/2020/12/04/proximity-tracing-in-an-ecosystem-of-surveillance-capitalism/
[2] https://xmode.io
[3] https://9to5mac.com/2020/11/20/us-military-buys-location-data-from-muslim-prayer-app-and-more/

#privacy #covid-19 #xmode
Для тех кто давно хочет поэкспериментировать с машинным переводом, Translator API [1] полностью с открытым кодом на Github, легко модифицируется, поддерживает 150 языков и работает на основе языковой модели Language Technology Research Group at the University of Helsinki [2].
Всё вместе работает на основе Cortex [3], решения с открытым кодом по развертыванию моделей машинного обучения.

Очень интересно было бы сравнить с автоматизированными облачными переводчиками.

Ссылки:
[1] https://github.com/cortexlabs/cortex/tree/translator-example/examples/model-caching/python/translator
[2] https://huggingface.co/Helsinki-NLP
[3] https://www.cortex.dev/

#ml #machinelearning #datascience #cooltools #data
Весьма показательная история именно в европейской практике государственных и общественных дискуссий - это публичные консультации. Например, вот публичная консультация в Великобритании по использованию академических идентификаторов DOI для материалов опубликованных на GOV.UK [1] [2].

Сама идея очень любопытная, действительно, наличие постоянной ссылки даёт гарантию что документ не исчезнет и что его всегда можно найти по конкретному адресу. Для академических публикаций это норма, для государственных - редкость.

Но важнее именно сам факт публичной консультации и с весьма подробными ответами участников.

Ссылки:
[1] https://dataingovernment.blog.gov.uk/2020/11/10/we-want-your-feedback-on-using-the-doi-standard-in-government/
[2] https://github.com/alphagov/open-standards/issues/75

#data #doi #opengov
Для тех кто ищет наборы данных побольше, команда Clickhouse обработала данных из Github'а собранные в проекте GHArchive и превратила в большую базу для Clickhouse [1].

Её также можно скачать в виде цельной базы данных для Clickhouse, 71ГБ в сжатом виде [2]

Конечно, это уже существующие данные, нового раскрытия тут нет, но есть удобный формат для работы. Переупакованные данные также имеют большую ценность поскольку по такой базе проще делать сложные запросы, тем более что примеры там приведены неплохие.

Всем кто изучает сложные структуры, большие графы и тд. это всё будет более чем полезный набор данных.

Ссылки:
[1] https://gh.clickhouse.tech/explorer/
[2] https://gh.clickhouse.tech/explorer/#download-the-dataset

#opendata #bigdata #github #clickhouse
Правительство РФ анонсировало большую работу по инвентаризации ИТ систем [1].

Мне так много что есть сказать об этом что я даже не знаю с чего начать. Поэтому буду краток.

Хорошее: это назрело и собственные ИТ ресурсы не знают до сих пор в большинстве органов власти

Плохое: инвентаризация данных - это не инвентаризация баз данных. Базы смешаны с ИТ ресурсами.

Хуже:
- всё меняется постоянно, без постоянной актуализации сведения устареют за год.
- слишком многое не находится в органах власти, а сокрыто в подведах разной степени подведности.

Итого: это инвентаризация последствий информатизации и автоматизации за последние лет 20. Закончить в заявленные сроки ее нереально, надеюсь это только первый шаг в этом направлении.

Ссылки:
[1] https://government.ru/news/41104/

#government #data #digital
Общепринято считать что открытость - это продолжение или следствие демократии, но с оговоркой, что демократии да, а вот капитализма не всегда. Давним примером была приватизация Ordnance Survey, госпредприятия аналога Росреестра в Великобритании которое финансировалось из бюджета страны и Правительство Великобритании решило сократить расходы через его приватизацию [1].

А вот и свежий пример. В США законодатели решили сделать открытую, бесплатную и общедоступную федеральную базу всех судебных решений, против, совершенно неожиданно, оказались судьи. В статье в Washington Post [2] о том что судейское сообщество приводит следующие аргументы:
- ведение картотек судебных дел сейчас в США на 87% оплачивают юридические фирмы и крупные клиенты
- неизвестно насколько вырастет нагрузка на аппараты судов
- в некоторых штатах такие базы уже создаются и возникает дублирование работы и финансирования

Юридическая сторона, в принципе, одна из самых сложных именно в США. Если сравнивать по открытости законотворческого процесса, то прозрачность законотворческого процесса в США высокая, а вот общефедеральной базы законов никогда не было, по тем же самым причинам что сейчас сопротивляются судьи.

Ещё 11 лет назад Карл Маламуд, известный активист по открытию общественно значимых юридических текстов, выдвигал инициативу по созданию базы law.gov [3], но, видимо, 10 лет недостаточно.

Это, кстати, и вопрос про то почему в международных рейтингах открытость обычно лидируют скандинавские страны или Австралия и Новая Зеландия, иногда Сингапур. В странах со сложившимся с развитым, даже если и демократическим капитализмом, некоторые решения ломают или сильно трансформируют рынки. А у крупных лоббистов слишком много влияния чтобы откладывать необходимые решения или сильно их ослаблять.

Поэтому когда я, например, пишу про опыт открытости в США и Великобритании, я всегда держу в голове что даже у очень хорошего опыта и стран сильными сообществами по открытости, есть свои ограничения.

Ссылки:
[1] https://en.wikipedia.org/wiki/Ordnance_Survey#Data_access_and_criticisms
[2] https://www.washingtonpost.com/local/legal-issues/judiciary-opposes-free-online-court-records-database/2020/12/03/02b10a3c-357f-11eb-b59c-adb7153d10c2_story.html
[3] https://law.resource.org/index.law.gov.html

#opendata #opengov #data
Приводить в пример США или Великобританию в части того что происходит в цифровизации с каждым годом всё сложнее, политика, санкции и так далее. Я регулярно привожу примеры из других стран, главные же ограничения по тому чтобы привести их опыт в том что английский язык в России знают многие, а вот другие языки не так много кто.

В этот раз и на фоне инвентаризации информационных систем в России, приведу итальянский опыт.

В Италии действует портал разработчиков developers.italia.it [1] (кстати, отвлекусь, в Италии как и во многих странах есть национальный туристический портал italia.it [2]).

На портале для разработчиков ПО приведён каталог [3] из 226 продуктов из которых:
- 15 платформ
- 145 решений с открытым кодом сделанных органами власти для повторного использования
- 66 решений с открытым кодом третьих сторон используемые органами власти

По ним доступны:
- исходный код, всегда на Github в открытом доступе
- документация
- обсуждение в канале в Slack для разработчиков для гос-ва в Италии
- обсуждение на форуме
- для платформ также приведены ресурсы в виде: API, SDK и возможность обсудить прототипы

Что характерно, этот и другие цифровые порталы, создаются в Италии в рамках трёхлетнего плана информатизации государства Piano Triennale per l’informatica nella Pubblica Amministrazione 2020 - 2022 [4]
Это краткий, чётко изложенный план из 8 пунктов:
1. Сервисы
2. Данные
3. Платформы
4. Инфраструктура
5. Интеграция
6. Кибербезопасность
7. Инструменты и модель инновации
8. Управление цифровой трансформацией

Кстати, обратите внимание что первое что сделали в Италии это сделали систему публикации государственных документов в понятном виде docs.italia.it [5] и об этом они писали ещё в 2018 году, все документы там редактируются через Github [6]

Ссылки:
[1] https://developers.italia.it/
[2] https://www.italia.it
[3] https://developers.italia.it/it/search?page=0&sort=relevance
[4] https://docs.italia.it/italia/piano-triennale-ict/pianotriennale-ict-doc/it/2020-2022/index.html
[5] https://docs.italia.it/
[6] https://medium.com/team-per-la-trasformazione-digitale/docs-italia-open-government-collaborazione-pubblica-amministrazione-progetti-linguaggio-b89ff330e21b

#opengov #opendata #opensource #italy
Открытость данных по испански - это когда на национальном портале данных datos.gob.es публикуются данные не только органов власти, но и университетов [1] и других исследовательских центров. А также университеты объединяются [2] и создают негосударственный проект UniversiDATA [3] посвящённый прозрачности университетов и предназначенный для раскрытия ими информации об их деятельности: бюджеты, состав преподавателей, исследовательские центры и программы,

Фактически открытые данные используются как часть инфраструктуры прозрачности как государства в целом, так и в частных случаях требований к организациям.

Ссылки:
[1] https://datos.gob.es/en/catalogo?administration_level=U&_res_format_label_limit=0
[2] https://datos.gob.es/es/noticia/nace-universidata-el-portal-colaborativo-de-datos-abiertos-especializado-en-el-sector-de-la
[3] https://www.universidata.es/

#opendata #data #spain
Не все знают, Интернет-архив, archive.org, помимо возможности найти архивную копию страницы также вот уже какое-то время в режиме бета предоставляет возможность:
- сравнить архивные копии одной страницы, в сравнении синим цветом подкрашивается удалённое и жёлным измененное/добавленное
- увидеть в каких коллекциях есть выбранная веб-страница (да, одну и ту же страницу могут проинтексировать десятки роботов, и она будет в разных коллекциях)

Для журналистов расследователей это может быть просто находка, например можно посмотреть изменения в составе экспертного совета Фонда Кино [1] за этот год.

Ссылки:
[1] https://web.archive.org/web/diff/20200427153240/20200201180534/https://www.fond-kino.ru/about/expert-council/

#opendata #archives #digitalpreservation #archives
Для тех кто ищет большие (особенно большие) открытые данные для экспериментов, анализа и тренировки навыков, не всегда связанных с практическими задачами, подборка крупнейших источников открытых данных.

- Открытые данные CERN https://opendata.cern.ch/ - более 2 петабайт данных физики частиц. В виду их объёма доступ к ним открыт, но через специальные инструменты
- Common Crawl https://commoncrawl.org/ - огромный поисковый индекс по всем веб-сайтам в Интернете. Аналог поисковых индексов Google, Bing или Яндекс, но без веб интерфейса и доступный в виде гигантских слепков в формате WARC. Особенно удобно тем кто работает с данными через облако Amazon, поскольку сейчас весь ресурс хостится именно там
- Archive.org collections https://archive.org/ - коллекции медиа и данных на Archive.org, практически бесконечные объёмы данных на самые разные темы
- многочисленные наборы данных по COVID-19 https://t.iss.one/begtin/2066 - в облаках Amazon, Google BigQuery и Azure и других
- Awesome Public Datasets https://github.com/awesomedata/awesome-public-datasets - один из наиболее популярных репозиториев на Github с каталогом общедоступных данных большого объёма
- DataCatalogs https://datacatalogs.org/ - каталог порталов открытых данных, около 599 порталов всего (очень неполный, на самом деле)
- Re3Data https://re3data.org - каталог научных репозиториев содержащих данные по результатам исследований, включает, в том числе, репозитории с большими данными

Важно помнить что, как правило, только на общедоступных данных сложно сделать востребованный продукт. Как правило на них отрабатывают технологии, а продукты создают уже в другой среде и на других данных.

#opendata #data #bigdata #datasource
Сервисы Google: Gmail, Google Диск и Youtube недоступны. Пока не было сообщений о причинах сбоя
Статистическое ведомство Канады внедрило сервис виртуальной лаборатории для данных связанных с COVID-19 [1]. Лаборатория представлена в виде дистанционного рабочего места в которое включены такие продукты как Jupiter Notebook, R Studio, Kubeflow, Seldon, Shiny и другие. Подробнее в презентации [2] и в документации [3]

Все инструменты приведены с исходным кодом [4].

Все вместе они формируют Data analytics as a Platform (DaaP).

Ссылки:
[1] https://analytics-platform.statcan.gc.ca/covid19
[2] https://govcloud.blob.core.windows.net/docs/daaas-cncf.pdf
[3] https://statcan.github.io/daaas/en/
[4] https://github.com/StatCan

#data #canada #analytics
Многие тезисы которые я пишу в этом канале и в текстах докладов которые готовлю или в которых участвую написаны ещё довольно давно. Чтобы не повторятся по многу раз, привожу тут ссылки на предыдущие публикации

Например, за вот уже много лет у меня накопилось очень много колонок в СМИ в которых они изложены.

Ведомости
- Прозрачность госзакупок в России не означает достоверности публикуемой информации https://www.vedomosti.ru/politics/articles/2011/06/23/prozrachnost_goszakupok_v_rossii_ne_oznachaet_dostovernosti
- Пространственные данные: Надо открываться https://www.vedomosti.ru/newspaper/articles/2013/09/13/nado-otkryvatsya
- От общественного контроля к общественному аудиту https://www.vedomosti.ru/opinion/articles/2016/02/11/628492-ot-obschestvennogo-kontrolya-obschestvennomu-auditu
- Генетическая дискриминация https://www.vedomosti.ru/opinion/articles/2016/08/08/652204-geneticheskaya-diskriminatsiya
- Право знать о преступлениях https://www.vedomosti.ru/opinion/articles/2016/10/17/661144-pravo-znat
- Несознательная информатизация https://www.vedomosti.ru/opinion/articles/2017/05/18/690333-nesoznatelnaya-informatizatsiya
- Плохой ответ на мнимые угрозы https://www.vedomosti.ru/opinion/articles/2017/06/14/694228-otvet-ugrozi

РБК
- Открытые данные против коррупции: в чем Россия перегнала Запад https://www.rbc.ru/opinions/society/27/01/2016/56a869f19a7947c257896897
- Apple против ФБР: что важнее — безопасность или частная жизнь? https://www.rbc.ru/opinions/technology_and_media/25/02/2016/56cee4949a79476d29c67c10
- Темная сторона открытости: почему не все данные стоит раскрывать https://www.rbc.ru/opinions/technology_and_media/16/05/2016/5739b2639a79474f9a96e10f
- Неприкосновенный реестр: почему не получится закрыть данные госорганов https://www.rbc.ru/opinions/politics/30/08/2016/57c542999a7947542d3df910
- Профилактика преступлений: какое будущее ждет правоохранительную систему https://www.rbc.ru/opinions/technology_and_media/08/06/2017/593911d19a7947bd6ab766ef
- Блокировка смысла: о чем говорит решение суда по делу Telegram https://www.rbc.ru/opinions/politics/13/04/2018/5ad0782e9a79470a8e5fa03d
- Поиск виновного: почему стала возможной утечка данных из Google Docs https://www.rbc.ru/opinions/technology_and_media/09/07/2018/5b3f505e9a794748ac73914f
- Сокровища для Alibaba: почему Россия готова поделиться данными с Китаем https://www.rbc.ru/opinions/technology_and_media/12/09/2018/5b98b7ba9a7947152b7b4073
- Тихие омуты: как распределяются субсидии и субвенции российского бюджета https://www.rbc.ru/opinions/economics/18/01/2019/5c407c0f9a7947e05b486207
- Информационный барьер: как нацпроекты сделали бюджет менее прозрачным https://www.rbc.ru/opinions/economics/20/09/2019/5d81e9f99a7947a59b1f7cea
- Потеря связи: чем плох законопроект о почтовых сервисах https://www.rbc.ru/opinions/politics/14/10/2019/5da033ea9a79478f25ca783c
- Данные неверны: почему российские госсайты вводят граждан в заблуждение https://www.rbc.ru/opinions/society/20/12/2019/5dfb4e169a79470b46b4f98c
- Некоммерческий бюджет: как чиновники стали использовать НКО в своих целях https://www.rbc.ru/opinions/politics/13/03/2020/5e69e70a9a7947737fc79cf3
- Незачет по НКО: чем плох реестр социально ориентированных организаций https://www.rbc.ru/opinions/society/17/06/2020/5ee8ce139a79479edce77585

Republic
- Бизнес против гражданина. Как правильно торговать персональными данными? https://republic.ru/posts/91866
- Цифровой профиль и анфас. Будет ли в России свой Синьцзян? https://republic.ru/posts/92148
- Страшная экономика. Законопроект об изоляции рунета и административный рынок угроз https://republic.ru/posts/92720
- Надзорное государство. Как новые технологии и пандемия сняли ограничения для российского Большого брата https://republic.ru/posts/98869

+ ещё было много текстов написанных для Полит.ру
+ какое-то количество текстов в моём блоге begtin.tech

#writings