Ivan Begtin
9.3K subscribers
2.07K photos
3 videos
102 files
4.8K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Forwarded from Roskomsvoboda
📌Прямо сейчас на нашей площадке «Право на приватность и открытость» дискуссия об ответственных алгоритмах.

Участники постараются выяснить и ответить на вопрос, как открытость информации способна повлиять на легитимность технологий в обществе.

Спикеры секции:
▪️Елена Брызгалина, заведующая кафедрой философии образования философского факультета МГУ, член локального этического комитета НЦЗД Минздрава РФ;
▪️Саркис Дарбинян, глава юридической практики РосКомСвободы и управляющий партнёр Digital Rights Center;
▪️Иван Бегтин, директор АНО «Инфокультура»;
▪️Алексей Раевский, генеральный директор Zecurion;
▪️Андрей Устюжанин, заведующий научно-учебной лабораторией LAMBDA Факультета компьютерных наук НИУ ВШЭ.

Модератор:
▪️Василий Буров, соучредитель АНО «Инфокультура», советник директора МИЭМ НИУ ВШЭ.

❗️Подключайтесь к трансляции и задавайте свои вопросы спикерам!
Британский The Open Data Institute раздаёт до 4-х грантов до 15 тысяч фунтов (примерно 1.5 миллиона рублей) [1] на инструменты с открытым кодом по работе с данными. Можно подавать как инструменты новые, так и доработку существующих, главное чтобы у него были пользователи и можно было бы подтвердить востребованность инструмента.

Что характерно, они дают 30% аванса и 70% после принятия работы в середине марта. Можно сказать что это грант по модели подтверждения результата. Или закупка со свободой творчества у исполнителя.

Ссылки:
[1] https://theodi.org/article/call-for-proposals-funding-to-develop-open-source-tools-for-data-institutions

#opendata #grants #tools
На ОГФ на нашем треке всплыла тема прогнозов, того что нас ждёт с точки зрения открытости и приватности в будущем на фоне эпидемии COVID-19.

У меня есть свой набор предсказаний на ближайшие 5 лет:
1. Усиление big tech корпораций и их всё большая конкуренция с национальными правительствами.

Пример: мониторинг контактов при COVID-19 в итоге реализован на API Apple и Google и по их правилам.

Почему может произойти: Страны тяжело договариваются между собой, текущие структуры при ООН погрязли в бюрократии, политика безусловно доминирует над кооперацией.

Почему может не произойти: Национальные правительства ощущают эти ограничения и риски, но, по прежнему субъектами своего влияния считают правительства стран где big tech корпорации находятся.

2. Активное внедрение интернета вещей для мониторинга органами власти в странах с наиболее допускающим регулирование

Пример: Сингапур внедряющий браслеты для жителей для мониторинга при COVID-19

Почему может произойти: В отличие от экосистем мобильных устройств платформы для интернета-вещей пока не имеют олигопольного доминирования 2-3 платформ, ускоренное регулирование и введение ограничений может дать национальным правительствам больший контроль

Почему может не произойти: big tech корпорации значительно гибче, мобильнее, быстрее и осознаннее используют пробелы в регулировании и могут взять этот рынок под полный контроль в течение пары лет.


3. Сохранение всех созданных информационных систем и мобильных приложений для слежки во время COVID-19

Почему может произойти: Обоснование инвестиций и продолжение эксплуатации в соответствии с прогнозами новых эпидений (от 3 до 10 лет в ближайшем будущем) и в использовании механизмов социального контроля к легально дискриминируемым группам (отпущенным на поруки, болеющим заразными заболеваниями, находящимся под домашним арестом, подозреваемым в преступлениях и так далее). С высокой вероятностью подготовка общественного мнения начнётся ещё до окончания пандемии COVID-19

Почему это может не произойти: резкое усиление общественной озабоченности слежкой, масштабные, не прекращающиеся утечки персональных данных собранных во время слежки

4. Усиление тренда на саморегулирование алгоритмов искусственного интеллекта и усиление роли корпораций big tech в этой области

Почему это может произойти: текущее регулирование ИИ архаично и не поспевает с развитием технологий, у государственных органов нет экспертов в этой области. Неизбежно появление цифровых центров экспертизы через консорциумы университетов и big tech корпораций которые и будут помогать государственным органам в аудите и проверке алгоритмов

Почему это может не произойти: усиление регуляторного давления, рост недоверия к корпорациям big tech

#privacy #foresight #ai
На сайте MIT Technology Review [1] публикация о том что теперь в Сингапуре отслеживание контактов является обязательным и обзор и сравнение мобильных приложений, их технологий и их прозрачность по странам.

У них же там весьма интересная таблица [2] в которой больше информации чем то что показывается в статье.

P.S. России в списке стран и приложений ещё нет

Ссылки:
[1] https://www.technologyreview.com/2020/11/23/1012491/contact-tracing-mandatory-singapore-covid-pandemic/
[2] https://docs.google.com/spreadsheets/d/1ATalASO8KtZMx__zJREoOvFh0nmB-sAqJ1-CjVRSCOw/edit#gid=0

#privacy #mobile
Хотя я всё время и говорю о том что открытость государственных финансов в России высокая, но она не без "нюансов".

Вот несколько примеров:
1. Не могу нигде найти в удобном формате данные об исполнении федерального бюджета за 2019 год. Закон об исполнении бюджета был принят в 30 сентября 2020 года, утверждён Советом Федерации 7 октября 2020 года [1], но на сайте ЕПБС отсутствует [2] и на сайте Минфина тоже нет. Есть он на сайтах официального опубликования pravo.gov.ru и других справочно-правовых системах, но там только текст из которого ещё надо вычленять таблицы. Хорошо хоть не сканом, но для непытливого ума - это то ещё испытание.

2. В Республике Татарстан закон об исполнении бюджета данные к закону об исполнении бюджета публикуют без ключевого документа детальной ведомственной структуры расходов [4], а сам закон об исполнении бюджета (не буду даже догадываться почему), но публикуется в виде скана.
А если всё таки заглянуть в ведомственную структуру расходов в этом законе, то она будет приведена с детализацией только до 1-го уровня вида расходов, для сравнения, в отчётах Федерального казначейства детализация до 3-го уровня видов расходов, а в отчетах об исполнении бюджета Москвы как минимум до 2-го уровня видов расходов. Каждый уровень даёт возможность конкретизировать то на что пошли деньги. Например без детализации до 3-го уровня невозможно идентифицировать объёмы средств идущие на ИТ (242 вид расходов) в ведомственном разрезе по субъекту федерации.

Ссылки:
[1] https://pravo.gov.ru/proxy/ips/?docbody=&firstDoc=1&lastDoc=1&nd=102887899
[2] https://budget.gov.ru/epbs/faces/p/%D0%91%D1%8E%D0%B4%D0%B6%D0%B5%D1%82/%D0%97%D0%B0%D0%BA%D0%BE%D0%BD%20%D0%BE%20%D0%B1%D1%8E%D0%B4%D0%B6%D0%B5%D1%82%D0%B5/%D0%97%D0%B0%D0%BA%D0%BE%D0%BD%20%D0%BE%D0%B1%20%D0%B8%D1%81%D0%BF%D0%BE%D0%BB%D0%BD%D0%B5%D0%BD%D0%B8%D0%B8%20%D0%B1%D1%8E%D0%B4%D0%B6%D0%B5%D1%82%D0%B0?_adf.ctrl-state=1invsu6rd_77&regionId=45
[3] https://minfin.gov.ru/ru/perfomance/budget/federal_budget/budgeti/2020/
[4] https://minfin.tatarstan.ru/godovoy-otchet-ob-ispolnenii-byudzheta.htm?pub_id=2362274
[5] https://minfin.tatarstan.ru/godovoy-otchet-ob-ispolnenii-byudzheta.htm?pub_id=2373238

#budget #data #finances
Forwarded from data.csv (Alexey Smagin)
Журналисты «Медиазоны» и «Медузы» получили доступ к закрытой базе ИЦК — Информационного центра по мониторингу ситуации с коронавирусом. В этой базе содержатся сведения о свободных койках, количестве пациентов на аппаратах ИВЛ и о количестве умерших в коронавирусных больницах.

Из данных в этой базе следует, что в официальной статистике Роспотребнадзора данные о смертности в России занижены в два раза.

Подробнее здесь:
https://zona.media/article/2020/11/30/itsk-covid
Вышел доклад The State of Open Data 2020 [1] от Figshare, с акцентом на доступность данных исследователям. Состоит скорее из нескольких статей, актуальных с точки зрения измерения социологии и практик исследователей обменивающихся данными. Там же любопытные рассуждения о новой роли научных библиотек и, в принципе, короткое, но небесполезное чтение.

Можно также обратить внимание что авторы доклада используют термин "открытые данные" как автоматически относящийся к открытым данным для исследователей. Точно также как общественные активисты обычно его упоминают в контексте открытых государственных данных. Это, пожалуй, одно из важнейших различий между академическим и общественным подходом к этой теме.

FigShare - это один из продуктов, ориентированном на обмен данными между исследованиями, созданным в компании Digital Science, дочернего подразделения медиахолдинга Holtzbrinck [2]

Ссылки:
[1] https://digitalscience.figshare.com/articles/report/The_State_of_Open_Data_2020/13227875
[2] https://www.holtzbrinck.com/

#opendata #openaccess
Какие темы поднять в первую очередь в следующих темах рассылки?
anonymous poll

Экосистема государственной и негосударственной слежки через мобильные устройства и интернет вещей – 45
👍👍👍👍👍👍👍 47%

Форматы, стандарты и протоколы публикации данных – 22
👍👍👍 23%

Государственные закупки и контракты – 12
👍👍 13%

Эволюция порталов данных от каталогов к доставке данных – 10
👍👍 10%

Технические аспекты веб-архивации – 7
👍 7%

👥 96 people voted so far.
Под конец года очень много работы с текстами и я уже две недели не делал еженедельную рассылку будучи заваленным этой текстовой работой. Но планы к следующей рассылке уже есть (кстати напоминаю где её можно прочитать и подписаться https://begtin.substack.com ).

Поэтому выношу на голосование о том о чём прочитать было бы интереснее. Эту тему я приоритетно разберу максимально подробно
В блоге Airbnb Engineering & Data Science описание их процесса сертификации качества данных [1] любопытное их детальностью и фокусом на многоуровневую проверку: спецификаций, данных и кода.

Ссылки:
[1] https://medium.com/airbnb-engineering/data-quality-at-airbnb-870d03080469

#data #dataquality
Я регулярно пишу про такой класс инструментов как git для данных и про платформы претендующие стать аналогом Github'а для данных. Пока нет лидера ни в том ни в том, но есть хорошие попытки.

Новый-старый инструмент управлению версионностью данных для задач data science - это replicate [1] [2]
Утилита и библиотека на Python с открытым кодом, единственная фактическая альтернатива dvc [3] если говорить про применение к data science. А если говорить про другие dolt, quilt, noms, hub и sno, то практически все они работают с данными относительно небольшого объёма

Ссылки:
[1] https://github.com/replicate/replicate
[2] https://replicate.ai/
[3] https://github.com/iterative/dvc

#bigdata #data #data-science #data-version-control
У Счетной палаты РФ появился официальный телеграм канал @auditgov, обязательно подписывайтесь, читайте, делитесь и не стесняйтесь давать обратную связь о том чего не хватает и что хотелось бы видеть там чаще.

#accountingchamber
Немодерируемые сайты приводят к спаму и рекламе порнографии (с)

Росприроднадзор использует продукт Gitlab для работы с исходным кодом, но в виду кривых настроек портала общедоступная его часть общедоступна не только для просмотра, но и для регистрации. Как следствие, там уже создано около десятка репозиториев состоящих исключительно из спама [1].

Думаю все мы ждали совсем другого открытого кода от Росприроднадзора;)

P.S. Хочется добавить какую то мораль, но не могу придумать такую.

Ссылки:
[1] https://gitlab.rpn.gov.ru/explore/projects
#9. Экосистема государственной и негосударственной слежки через мобильные устройства и интернет вещей

Пандемия COVID-19 оказалась тем удивительным природным явлением когда следящие за потребителями корпорации big tech и государства выстраивающие инфраструктуру слежки за гражданами нашли веское основание того зачем они это делают.
При этом в обществе существуют очень разные мнения о происходящем. От убеждённости в скором появлении полноценного большого брата до мнения что государство и корпорации и так знают о нас столько, что новые знания не добавляют уже новых рисков.
В этом тексте я постарался описать экосистему государственной слежки основанной на уже сложившейся слежке за потребителями.

Текст полностью в рассылке https://begtin.substack.com/p/9-

#privacy #surveillance
Архивация сайтов институтов развития - это уже около 100 гигабайт в сжатом виде и не менее 100 гигабайт ещё осталось.
При этом нет 100% гарантии что выгружается всё, потому что в некоторых случаях действуют "поисковые ловушки", это когда при выгрузке сайта есть блоки которые могут выгружаться бесконечно, например, когда установлены ошибочные ссылки или когда есть календарь с бесконечным пролистыванием до скончания времен в прошлом и будущем.
Другая объективная проблема в том что многие данные и материалы могут не индексироваться поскольку отдаются через Ajax, закрыты каптчей или поисковой строкой.
Поэтому все задачи по фокусированной архивации сводятся к стадиям:
- discovery - идентификация ресурсов для архивации
- crawl - сбор данных через веб-краулер или специфические краулеры для API или соцсетей
- storage - складирование данных для долгосрочного сохранения, обычно с георезервированием
- access - предоставление доступа к архивам через веб-интерфейс или в виде файловых архивов

#archives
Forwarded from Roskomsvoboda
ОГФ’2020: «Умные люди занимаются не слежкой, а аналитикой»

28 ноября мы совместно с «Информационной культурой» @infoculture провели экспертную площадку «Право на приватность и открытость» в рамках Общероссийского гражданского форума.

Собрали в текст главные тезисы и экспертные комментарии из дискуссии «Открытость и приватность: дисбаланс между правами граждан и действиями государства в эпоху пандемии коронавируса».

Участники дискуссии поговорили об эффективности слежки государства за гражданами во время пандемии, шагах к доверию по отношению к государству, «вируспруденции», а также попытались ответить на два главных вопроса — есть ли баланс между интересами государства и общества и, если нет, как его достигнуть.

➡️ Читать на сайте
➡️ Смотреть на YouTube
А также все сессии с ОГФ можно просмотреть в записи
Forwarded from Инфокультура
Мы опубликовали видео и презентации всех мероприятий площадки «Право на приватность и открытость», которую проводили совместно с РосКомСвободой на ОГФ-2020.

Смотрите видео на нашем ютуб-канале:

🔹 Секция «Открытые данные как инструмент общественного контроля борьбы с пандемией»: https://youtu.be/W9HP2e2knog
🔹 Дискуссия «Открытость и приватность: дисбаланс между правами граждан и действиями государства в эпоху пандемии»: https://youtu.be/fKWkh3N2m9M
🔹 Дискуссия: «Ответственные алгоритмы: как открытость способна повлиять на легитимность технологий в обществе?»: https://youtu.be/OL-cUJ7rRkI
🔹 Секция «Гражданские инициативы по приватности и открытости в период пандемии коронавируса»: https://youtu.be/_V_3LeD6UXA

Времени было совсем немного, чтобы охватить всю глубину и масштабность этих проблем, поэтому мы обязательно продолжим их обсуждение в разных форматах и на разных площадках. Присоединяйтесь, подписывайтесь на наш ютуб-канал и следите за анонсами!
Вопрос к знатокам, а Яндекс точно российская компания, а не швейцарская? В форме заявлений о нарушении авторских прав в Яндекс Дзен вот такая вот замечательная пометка про
«Яндекс Сервисиз АГ» Верфтештрассе 4, CH 6005 Люцерн, Швейцария (Werftestrasse 4, CH 6005 Lucerne, Switzerland)

https://yandex.ru/support/abuse/troubleshooting/zen/personal.html

#yandex #notrussiancompany
Enslaved. Большой проект с данными и историческими материалами по рабовладению в США с базой всех кто был рабами, их родственниками, рабовладельцами и так далее [1]. Более 384 тысяч записей через веб интерфейс и как открытые данные и связанные данные [2], а также историями о судьбах отдельных людей.

Интересный проект, современная форма, акцент на повторном использовании данных. Если делать подобное в России то как бы его называли, "Закрепощённые?" или "Крепостные?"

Ссылки:
[1] https://enslaved.org/
[2] https://enslaved.org/data

#data #culture
Для тех кто интересуется открытостью статистических данных вышел свежий отчет от Open Data Watch за 2020 год [1]. В отчете приведено сравнение стран и оценка текущей открытости и покрытия статистических систем стран.
Россия на 58 месте из 187 с оценкой в 59 баллов [2]. Лучше всего у нас со статистикой финансов, балансов и госфинансов. Хуже всего со статистикой здравоохранения, образования, гендера и международной торговли.

Что характерно, исследователи ссылаются на данные в системе ЕМИСС [3] и на статсборники и публикации на сайте Росстата [4]. Все вперемешку потому что, нормальной систематизированной "библиографии" / каталога показателей у Росстата нет.

Интересен и контекст и рекомендации. Рекомендации Росстату там вполне конкретны [5], я бы даже сказал очевидны. А контекст указывает [6] ещё и на то что:
- у России нет государственной стратегии данных (и статистики)
- Россия не приняла хартию открытых данных
- Россия не является членом партнерства Открытых государств
- Россия предоставляет данные IMF в формате SDDS [7]

А по рейтингу, на первом месте, ожидаемо, Сингапур, а на последнем, неожиданно, Туркменистан [8]

Ссылки:
[1] https://odin.opendatawatch.com/Downloads/otherFiles/ODIN-2020-ExecutiveSummary.pdf
[2] https://odin.opendatawatch.com/Report/countryProfileUpdated/RUS?year=2020
[3] https://fedstat.ru
[4] https://gks.ru
[5] https://odin.opendatawatch.com/Report/countryProfileUpdated/RUS?year=2020
[6] https://odin.opendatawatch.com/Report/countryProfileUpdated/RUS?year=2020
[7] https://dsbb.imf.org/sdds/country/RUS/category
[8] https://odin.opendatawatch.com/Report/rankings

#opendata #data #statistics