Ivan Begtin
8.04K subscribers
1.94K photos
3 videos
102 files
4.65K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
На сайте MIT Technology Review [1] публикация о том что теперь в Сингапуре отслеживание контактов является обязательным и обзор и сравнение мобильных приложений, их технологий и их прозрачность по странам.

У них же там весьма интересная таблица [2] в которой больше информации чем то что показывается в статье.

P.S. России в списке стран и приложений ещё нет

Ссылки:
[1] https://www.technologyreview.com/2020/11/23/1012491/contact-tracing-mandatory-singapore-covid-pandemic/
[2] https://docs.google.com/spreadsheets/d/1ATalASO8KtZMx__zJREoOvFh0nmB-sAqJ1-CjVRSCOw/edit#gid=0

#privacy #mobile
Хотя я всё время и говорю о том что открытость государственных финансов в России высокая, но она не без "нюансов".

Вот несколько примеров:
1. Не могу нигде найти в удобном формате данные об исполнении федерального бюджета за 2019 год. Закон об исполнении бюджета был принят в 30 сентября 2020 года, утверждён Советом Федерации 7 октября 2020 года [1], но на сайте ЕПБС отсутствует [2] и на сайте Минфина тоже нет. Есть он на сайтах официального опубликования pravo.gov.ru и других справочно-правовых системах, но там только текст из которого ещё надо вычленять таблицы. Хорошо хоть не сканом, но для непытливого ума - это то ещё испытание.

2. В Республике Татарстан закон об исполнении бюджета данные к закону об исполнении бюджета публикуют без ключевого документа детальной ведомственной структуры расходов [4], а сам закон об исполнении бюджета (не буду даже догадываться почему), но публикуется в виде скана.
А если всё таки заглянуть в ведомственную структуру расходов в этом законе, то она будет приведена с детализацией только до 1-го уровня вида расходов, для сравнения, в отчётах Федерального казначейства детализация до 3-го уровня видов расходов, а в отчетах об исполнении бюджета Москвы как минимум до 2-го уровня видов расходов. Каждый уровень даёт возможность конкретизировать то на что пошли деньги. Например без детализации до 3-го уровня невозможно идентифицировать объёмы средств идущие на ИТ (242 вид расходов) в ведомственном разрезе по субъекту федерации.

Ссылки:
[1] https://pravo.gov.ru/proxy/ips/?docbody=&firstDoc=1&lastDoc=1&nd=102887899
[2] https://budget.gov.ru/epbs/faces/p/%D0%91%D1%8E%D0%B4%D0%B6%D0%B5%D1%82/%D0%97%D0%B0%D0%BA%D0%BE%D0%BD%20%D0%BE%20%D0%B1%D1%8E%D0%B4%D0%B6%D0%B5%D1%82%D0%B5/%D0%97%D0%B0%D0%BA%D0%BE%D0%BD%20%D0%BE%D0%B1%20%D0%B8%D1%81%D0%BF%D0%BE%D0%BB%D0%BD%D0%B5%D0%BD%D0%B8%D0%B8%20%D0%B1%D1%8E%D0%B4%D0%B6%D0%B5%D1%82%D0%B0?_adf.ctrl-state=1invsu6rd_77&regionId=45
[3] https://minfin.gov.ru/ru/perfomance/budget/federal_budget/budgeti/2020/
[4] https://minfin.tatarstan.ru/godovoy-otchet-ob-ispolnenii-byudzheta.htm?pub_id=2362274
[5] https://minfin.tatarstan.ru/godovoy-otchet-ob-ispolnenii-byudzheta.htm?pub_id=2373238

#budget #data #finances
Forwarded from data.csv (Alexey Smagin)
Журналисты «Медиазоны» и «Медузы» получили доступ к закрытой базе ИЦК — Информационного центра по мониторингу ситуации с коронавирусом. В этой базе содержатся сведения о свободных койках, количестве пациентов на аппаратах ИВЛ и о количестве умерших в коронавирусных больницах.

Из данных в этой базе следует, что в официальной статистике Роспотребнадзора данные о смертности в России занижены в два раза.

Подробнее здесь:
https://zona.media/article/2020/11/30/itsk-covid
Вышел доклад The State of Open Data 2020 [1] от Figshare, с акцентом на доступность данных исследователям. Состоит скорее из нескольких статей, актуальных с точки зрения измерения социологии и практик исследователей обменивающихся данными. Там же любопытные рассуждения о новой роли научных библиотек и, в принципе, короткое, но небесполезное чтение.

Можно также обратить внимание что авторы доклада используют термин "открытые данные" как автоматически относящийся к открытым данным для исследователей. Точно также как общественные активисты обычно его упоминают в контексте открытых государственных данных. Это, пожалуй, одно из важнейших различий между академическим и общественным подходом к этой теме.

FigShare - это один из продуктов, ориентированном на обмен данными между исследованиями, созданным в компании Digital Science, дочернего подразделения медиахолдинга Holtzbrinck [2]

Ссылки:
[1] https://digitalscience.figshare.com/articles/report/The_State_of_Open_Data_2020/13227875
[2] https://www.holtzbrinck.com/

#opendata #openaccess
Какие темы поднять в первую очередь в следующих темах рассылки?
anonymous poll

Экосистема государственной и негосударственной слежки через мобильные устройства и интернет вещей – 45
👍👍👍👍👍👍👍 47%

Форматы, стандарты и протоколы публикации данных – 22
👍👍👍 23%

Государственные закупки и контракты – 12
👍👍 13%

Эволюция порталов данных от каталогов к доставке данных – 10
👍👍 10%

Технические аспекты веб-архивации – 7
👍 7%

👥 96 people voted so far.
Под конец года очень много работы с текстами и я уже две недели не делал еженедельную рассылку будучи заваленным этой текстовой работой. Но планы к следующей рассылке уже есть (кстати напоминаю где её можно прочитать и подписаться https://begtin.substack.com ).

Поэтому выношу на голосование о том о чём прочитать было бы интереснее. Эту тему я приоритетно разберу максимально подробно
В блоге Airbnb Engineering & Data Science описание их процесса сертификации качества данных [1] любопытное их детальностью и фокусом на многоуровневую проверку: спецификаций, данных и кода.

Ссылки:
[1] https://medium.com/airbnb-engineering/data-quality-at-airbnb-870d03080469

#data #dataquality
Я регулярно пишу про такой класс инструментов как git для данных и про платформы претендующие стать аналогом Github'а для данных. Пока нет лидера ни в том ни в том, но есть хорошие попытки.

Новый-старый инструмент управлению версионностью данных для задач data science - это replicate [1] [2]
Утилита и библиотека на Python с открытым кодом, единственная фактическая альтернатива dvc [3] если говорить про применение к data science. А если говорить про другие dolt, quilt, noms, hub и sno, то практически все они работают с данными относительно небольшого объёма

Ссылки:
[1] https://github.com/replicate/replicate
[2] https://replicate.ai/
[3] https://github.com/iterative/dvc

#bigdata #data #data-science #data-version-control
У Счетной палаты РФ появился официальный телеграм канал @auditgov, обязательно подписывайтесь, читайте, делитесь и не стесняйтесь давать обратную связь о том чего не хватает и что хотелось бы видеть там чаще.

#accountingchamber
Немодерируемые сайты приводят к спаму и рекламе порнографии (с)

Росприроднадзор использует продукт Gitlab для работы с исходным кодом, но в виду кривых настроек портала общедоступная его часть общедоступна не только для просмотра, но и для регистрации. Как следствие, там уже создано около десятка репозиториев состоящих исключительно из спама [1].

Думаю все мы ждали совсем другого открытого кода от Росприроднадзора;)

P.S. Хочется добавить какую то мораль, но не могу придумать такую.

Ссылки:
[1] https://gitlab.rpn.gov.ru/explore/projects
#9. Экосистема государственной и негосударственной слежки через мобильные устройства и интернет вещей

Пандемия COVID-19 оказалась тем удивительным природным явлением когда следящие за потребителями корпорации big tech и государства выстраивающие инфраструктуру слежки за гражданами нашли веское основание того зачем они это делают.
При этом в обществе существуют очень разные мнения о происходящем. От убеждённости в скором появлении полноценного большого брата до мнения что государство и корпорации и так знают о нас столько, что новые знания не добавляют уже новых рисков.
В этом тексте я постарался описать экосистему государственной слежки основанной на уже сложившейся слежке за потребителями.

Текст полностью в рассылке https://begtin.substack.com/p/9-

#privacy #surveillance
Архивация сайтов институтов развития - это уже около 100 гигабайт в сжатом виде и не менее 100 гигабайт ещё осталось.
При этом нет 100% гарантии что выгружается всё, потому что в некоторых случаях действуют "поисковые ловушки", это когда при выгрузке сайта есть блоки которые могут выгружаться бесконечно, например, когда установлены ошибочные ссылки или когда есть календарь с бесконечным пролистыванием до скончания времен в прошлом и будущем.
Другая объективная проблема в том что многие данные и материалы могут не индексироваться поскольку отдаются через Ajax, закрыты каптчей или поисковой строкой.
Поэтому все задачи по фокусированной архивации сводятся к стадиям:
- discovery - идентификация ресурсов для архивации
- crawl - сбор данных через веб-краулер или специфические краулеры для API или соцсетей
- storage - складирование данных для долгосрочного сохранения, обычно с георезервированием
- access - предоставление доступа к архивам через веб-интерфейс или в виде файловых архивов

#archives
Forwarded from Roskomsvoboda
ОГФ’2020: «Умные люди занимаются не слежкой, а аналитикой»

28 ноября мы совместно с «Информационной культурой» @infoculture провели экспертную площадку «Право на приватность и открытость» в рамках Общероссийского гражданского форума.

Собрали в текст главные тезисы и экспертные комментарии из дискуссии «Открытость и приватность: дисбаланс между правами граждан и действиями государства в эпоху пандемии коронавируса».

Участники дискуссии поговорили об эффективности слежки государства за гражданами во время пандемии, шагах к доверию по отношению к государству, «вируспруденции», а также попытались ответить на два главных вопроса — есть ли баланс между интересами государства и общества и, если нет, как его достигнуть.

➡️ Читать на сайте
➡️ Смотреть на YouTube
А также все сессии с ОГФ можно просмотреть в записи
Forwarded from Инфокультура
Мы опубликовали видео и презентации всех мероприятий площадки «Право на приватность и открытость», которую проводили совместно с РосКомСвободой на ОГФ-2020.

Смотрите видео на нашем ютуб-канале:

🔹 Секция «Открытые данные как инструмент общественного контроля борьбы с пандемией»: https://youtu.be/W9HP2e2knog
🔹 Дискуссия «Открытость и приватность: дисбаланс между правами граждан и действиями государства в эпоху пандемии»: https://youtu.be/fKWkh3N2m9M
🔹 Дискуссия: «Ответственные алгоритмы: как открытость способна повлиять на легитимность технологий в обществе?»: https://youtu.be/OL-cUJ7rRkI
🔹 Секция «Гражданские инициативы по приватности и открытости в период пандемии коронавируса»: https://youtu.be/_V_3LeD6UXA

Времени было совсем немного, чтобы охватить всю глубину и масштабность этих проблем, поэтому мы обязательно продолжим их обсуждение в разных форматах и на разных площадках. Присоединяйтесь, подписывайтесь на наш ютуб-канал и следите за анонсами!
Вопрос к знатокам, а Яндекс точно российская компания, а не швейцарская? В форме заявлений о нарушении авторских прав в Яндекс Дзен вот такая вот замечательная пометка про
«Яндекс Сервисиз АГ» Верфтештрассе 4, CH 6005 Люцерн, Швейцария (Werftestrasse 4, CH 6005 Lucerne, Switzerland)

https://yandex.ru/support/abuse/troubleshooting/zen/personal.html

#yandex #notrussiancompany
Enslaved. Большой проект с данными и историческими материалами по рабовладению в США с базой всех кто был рабами, их родственниками, рабовладельцами и так далее [1]. Более 384 тысяч записей через веб интерфейс и как открытые данные и связанные данные [2], а также историями о судьбах отдельных людей.

Интересный проект, современная форма, акцент на повторном использовании данных. Если делать подобное в России то как бы его называли, "Закрепощённые?" или "Крепостные?"

Ссылки:
[1] https://enslaved.org/
[2] https://enslaved.org/data

#data #culture
Для тех кто интересуется открытостью статистических данных вышел свежий отчет от Open Data Watch за 2020 год [1]. В отчете приведено сравнение стран и оценка текущей открытости и покрытия статистических систем стран.
Россия на 58 месте из 187 с оценкой в 59 баллов [2]. Лучше всего у нас со статистикой финансов, балансов и госфинансов. Хуже всего со статистикой здравоохранения, образования, гендера и международной торговли.

Что характерно, исследователи ссылаются на данные в системе ЕМИСС [3] и на статсборники и публикации на сайте Росстата [4]. Все вперемешку потому что, нормальной систематизированной "библиографии" / каталога показателей у Росстата нет.

Интересен и контекст и рекомендации. Рекомендации Росстату там вполне конкретны [5], я бы даже сказал очевидны. А контекст указывает [6] ещё и на то что:
- у России нет государственной стратегии данных (и статистики)
- Россия не приняла хартию открытых данных
- Россия не является членом партнерства Открытых государств
- Россия предоставляет данные IMF в формате SDDS [7]

А по рейтингу, на первом месте, ожидаемо, Сингапур, а на последнем, неожиданно, Туркменистан [8]

Ссылки:
[1] https://odin.opendatawatch.com/Downloads/otherFiles/ODIN-2020-ExecutiveSummary.pdf
[2] https://odin.opendatawatch.com/Report/countryProfileUpdated/RUS?year=2020
[3] https://fedstat.ru
[4] https://gks.ru
[5] https://odin.opendatawatch.com/Report/countryProfileUpdated/RUS?year=2020
[6] https://odin.opendatawatch.com/Report/countryProfileUpdated/RUS?year=2020
[7] https://dsbb.imf.org/sdds/country/RUS/category
[8] https://odin.opendatawatch.com/Report/rankings

#opendata #data #statistics
ОЭСР выпустили третью редакцию обзора цифровой экономики OECD Digital Economy Outlook 2020 [1]

И, хотя Россия уже и не стремится в ОЭСР, и в обзор цифровой экономики не попадает, тем не менее там много интересного и необходимого для "сверки часов" того что происходит в мире

Ссылки:
[1] https://www.oecd.org/digital/oecd-digital-economy-outlook-2020-bb167041-en.htm

#digital #polict #oecd
В Бразилии масштабнейшая утечка персональных данных о гражданах [1], утекли сведения о доступе к информации о 243 миллионах бразильцев через систему e-SUS-Notificia [2]

А я хочу напомнить что в России сейчас параллельно существуют и создаются сразу несколько федеральных государственных информационных систем содержащих информацию о гражданах:
- Портал Госуслуг
- ЕГР ЗАГС
- Единая государственная информационная система в сфере здравоохранения
- Цифровой профиль
- Единый реестр населения

Главный критерий риска которых можно измерить в ответе на вопрос "О скольки гражданах в информационной системе сведения могут утечь одномоментно?". Можно даже индекс риска систем составлять по масштабу охвата граждан.

Ссылки:
[1] https://tjournal.ru/tech/244359-dannye-243-millionov-zhiteley-brazilii-popali-v-set-iz-za-parolya-v-ishodnom-kode-gosudarstvennogo-sayta
[2] https://notifica.saude.gov.br/

#privacy #leaks
Для тех кто ищет открытые данные и побольше, новые наборы данных большого объёма, большая часть про нормативные документы, основной продукт государственных органов.

- Метаданные нормативно-правовых документов с сайта publication.pravo.gov.ru [1] - 580 тысяч документов, с идентификаторами документа на pravo.gov.ru для последующей выгрузки
- Нормативные документы подписанные Президентом РФ [2] - 44 тысячи НПА подписанных Президентом РФ с сайта kremlin.ru и их полные тексты с pravo.gov.ru
- Документы стратегического планирования [3] - метаданные документов стратегического планирования из ГАС Управление. Более 68 тысяч документов , более 3ГБ метаданных. Через какое-то время там же появится ссылка на дамп копии всех документов
- Нормативно-правовые документы города Москвы на сентябрь 2020 года [4] - 39 тысяч документов НПА от Мэрии Москвы со всеми текстами и опубликованными документами. Ссылка на архив в 96Gb
- Метаданные всех официальных документов на сайте Мэрии Москвы [5] - метаданные более чем 238 тысяч документов опубликованных на сайте www.mos.ru включая НПА, письма, рекомендации и иные официально опубликованные документы

А также дополнительно:
- база организаций в подчинении Мэрии Москвы с сайта мэрии mos.ru [6] (более 2700 организаций)
- обработанные данные отчётов по переписи населения 2002 года [7]
- архивные данные по получателям президентских грантов за 2013 год [8] (до появления фонда президентских грантов)

Ссылки:
[1] https://ngodata.ru/dataset/ppgrmeta2020
[2] https://ngodata.ru/dataset/kremlinlaws
[3] https://ngodata.ru/dataset/gasustratdocs
[4] https://ngodata.ru/dataset/mosnormdocs
[5] https://ngodata.ru/dataset/mosdocs
[6] https://ngodata.ru/dataset/mosorgs
[7] https://ngodata.ru/dataset/refined-perepis-2002
[8] https://ngodata.ru/dataset/prgrants2013

#datasets #data