Ivan Begtin
8.09K subscribers
1.99K photos
3 videos
102 files
4.71K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
По поводу актуальных историй про то что Московское правительство создаёт очередную систему слежки за горожанами, МВД создаёт базу биометрических паспортов и нового приложения Минкомсвязи "Стопкоронавирус контакты" мне есть много что сказать, но я что-то так много и так часто комментировал это журналистам последнюю неделю и даже, перекрестившись, ходил на передачу на НТВ в качестве одного из экспертов за что меня уже троллят все коллеги что это видели.

Я сформулирую тезисно и сразу с нескольких точек зрения которые мне удаётся пока что удерживать одновременно в моей голове.

Общественная позиция
1. Новые инструменты слежки за гражданами неподотчетны, непрозрачны, неизмеримы поскольку закрыты и не предусматривают прав граждан на запрет слежки за собой. Да и даже на то чтобы узнать что о тебе собрано.
2. Сейчас отсутствуют публичные инструменты противодействия таким инициативам, они не согласуются с законодательными властями или же законодательные власти не прислушиваются к опасениям граждан.
3. Вместо регулирования big tech органы власти воспроизводят их худшие практики и сами пытаются стать цифровыми монополиями.

Государственная позиция
1. Создание информационных систем одними органами власти усиливает их в отношении других и создает возможности для злоупотреблений. Злоупотребления могут пресекаться ведением цифрового надзора за создаваемыми информационными системами.
2. Такой надзор должны осуществлять, и Роскомнадзор и Роспотребнадзор, которые активно проверяют коммерческие компании и почти полностью игнорируют государственные организации и органы власти.
3. Это также требует введение цифровой повестки в деятельность этих надзорных органов поскольку сейчас они всё ещё мыслят категориями физических объектов.
4. Основной надзор за государственными структурами в России осуществляют органы прокуратуры. Без возможности технической и кадровой по надзору за цифровой повесткой: информационными системами, мобильными приложениями и тд. нарушения там продолжаться.

Взгляд со стороны бизнеса
1. Практически все эти инициативы технологические, но происходят неконкурентным образом.
2. Бизнес давно имеет платформы для отслеживания потребителей с гораздо более серьёзным и широким охватом устройств/людей.
3. Бизнес хотя бы _пытается_ саморегулироваться и реагирует или понимает что будет реагировать в ближайшее время на запрос на этическое использование данных со стороны граждан.

#privacy #surveillance
Я продолжу цикл про государственные информационные системы о которых мало кто знает, несмотря на наличие там вполне полезных данных.

- ЕСИМО [1] Единая государственная система информации об обстановке в мировом океане. Разработана Минэкономразвития, участвуют в ней более десятка органов власти. Включает базу более чем 3300 показателей/наборов данных/цифровых материалов. Можно сказать что это был один из первых порталов данных.
- СГРИР «Автоматизированная информационная система государственной регистрации информационных ресурсов» [2] по логике своего существования должна была включить все сведения о базах данных (информационных ресурсах) регистрируемых государством, по факту это каталоги электронных изданий
- ГАС Управления, документы стратегического планирования в рамках [3] мало кому известных за пределами ряда органов власти реестр документов стратегического планирования. Для тех кто изучает работу муниципальных образований там есть немало интересного.

Ссылки:
[1] https://esimo.ru
[2] https://catalog.inforeg.ru/
[3] https://gasu.gov.ru/stratdocuments

#data #government #gis
Оказывается ещё в сентябре Bloomberg расширили их платформу альтернативных данных [1] и добавили туда предложения от 60 провайдеров данных [2] включая данные по отслеживанию судов, передаче нефти, цепочках поставок и так далее, ещё довольно много всего. Это чем-то напоминает ранее купленную Nasdaq платформу Quandl [3] чуть ли не главным достоинством которой было как раз огромное число источников альтернативных данных.

При этом модель, что Quandl, что сервиса альтернативных данных Bloomberg, что, например, маркетплейса данных внутри Factset [4] показывают что бизнес модель маркетплейса данных работает когда есть большой пул потребителей которые докупают их в добавление к основному продукту, по крайней мере в той части которая касается данных для анализа рынка, оценки компаний и их показателей.

Ссылки:
[1] https://www.tradersmagazine.com/am/bloomberg-expands-alt-data-offering/
[2] https://www.bloomberg.com/professional/product/alternative-data/
[3] https://www.quandl.com/
[4] https://www.factset.com/marketplace

#alternativedata
В Бразилии утечка данных о 16 миллионах пациентах с COVID-19 [1] причём не через взлом, а "криворукость" сотрудника госпиталя в Сан-Пауло. Затронуло президента страны и 17 губернаторов.

А в Intertrust выпустили отчёт о безопасности приложений используемых для слежки при COVID-19, у 85% есть риски утечки данных [2].

Не болейте, болезнь создает новые риски слежки.

Ссылки:
[1] https://www.zdnet.com/article/personal-data-of-16-million-brazilian-covid-19-patients-exposed-online/
[2] https://www.intertrust.com/news/intertrust-releases-2020-security-report-on-global-mhealth-app-threats/

#privacy #covid19
Я напоминаю что завтра Общероссийский гражданский форум [1] и совместно с @roskomsvoboda мы ведем большой блок по открытости и приватности.

В программе можно найти подробности [2].

Обязательно посмотрите трансляцию, а заодно не стесняйтесь подбросить интересные вопросы.

Ссылки:
[1] https://civil-forum.ru/
[2] https://2020.civil-forum.ru/#!/topics

#opendata #privacy
Forwarded from Екатерина Шульман (Ekaterina Schulmann)
Поговорили с Иваном Бегтиным, апостолом открытых данных, о заявленной административной реформе им. премьера Мишустина, о так называемых "институтах развития", лукавстве бюрократической статистики, сходстве и различии между Сколково и Сириусом, новой монополизации и иных увлекательных сторонах госуправления. Граждане комментирующие жалуются на ведущего, который мешает, и на частые рекламные паузы (не на моем канале, а в радиоэфире). Но, надо сказать, комментаторы хронически ругают любых ведущих, кроме всенародного любимца Максима Курникова, а этот ведущий зато после каждой паузы так вдохновенно рассказывает о подвигах Екатерины Енгалычевой в Мосгордуме, как будто у них взаимный договор о продвижении подписан (на самом деле нет). В общем, вышло живенько, мне лично удалось узнать кое-что новое о повадках бюрократии, её защитной окраске и меняющихся пищевых привычках.
С приближением конца года я всё более чувствую себя "медиаживотным", слишком много комментариев журналистам, публичных мероприятий и выступлений. Видимо, всё из-за пандемии, но вот же в продолжение повестки моё интервью для Znak.com [1]

В принципе, я там ничего нового не сказал, просто повторил то о чём говорю лет 10.

Ссылки:
[1] https://www.znak.com/2020-11-27/pochemu_gosudarstvo_skryvaet_vse_bolshe_dannyh_ot_grazhdan_i_chto_s_etim_delat_intervyu

#opendata #government
Forwarded from Roskomsvoboda
📌Прямо сейчас на нашей площадке «Право на приватность и открытость» дискуссия об ответственных алгоритмах.

Участники постараются выяснить и ответить на вопрос, как открытость информации способна повлиять на легитимность технологий в обществе.

Спикеры секции:
▪️Елена Брызгалина, заведующая кафедрой философии образования философского факультета МГУ, член локального этического комитета НЦЗД Минздрава РФ;
▪️Саркис Дарбинян, глава юридической практики РосКомСвободы и управляющий партнёр Digital Rights Center;
▪️Иван Бегтин, директор АНО «Инфокультура»;
▪️Алексей Раевский, генеральный директор Zecurion;
▪️Андрей Устюжанин, заведующий научно-учебной лабораторией LAMBDA Факультета компьютерных наук НИУ ВШЭ.

Модератор:
▪️Василий Буров, соучредитель АНО «Инфокультура», советник директора МИЭМ НИУ ВШЭ.

❗️Подключайтесь к трансляции и задавайте свои вопросы спикерам!
Британский The Open Data Institute раздаёт до 4-х грантов до 15 тысяч фунтов (примерно 1.5 миллиона рублей) [1] на инструменты с открытым кодом по работе с данными. Можно подавать как инструменты новые, так и доработку существующих, главное чтобы у него были пользователи и можно было бы подтвердить востребованность инструмента.

Что характерно, они дают 30% аванса и 70% после принятия работы в середине марта. Можно сказать что это грант по модели подтверждения результата. Или закупка со свободой творчества у исполнителя.

Ссылки:
[1] https://theodi.org/article/call-for-proposals-funding-to-develop-open-source-tools-for-data-institutions

#opendata #grants #tools
На ОГФ на нашем треке всплыла тема прогнозов, того что нас ждёт с точки зрения открытости и приватности в будущем на фоне эпидемии COVID-19.

У меня есть свой набор предсказаний на ближайшие 5 лет:
1. Усиление big tech корпораций и их всё большая конкуренция с национальными правительствами.

Пример: мониторинг контактов при COVID-19 в итоге реализован на API Apple и Google и по их правилам.

Почему может произойти: Страны тяжело договариваются между собой, текущие структуры при ООН погрязли в бюрократии, политика безусловно доминирует над кооперацией.

Почему может не произойти: Национальные правительства ощущают эти ограничения и риски, но, по прежнему субъектами своего влияния считают правительства стран где big tech корпорации находятся.

2. Активное внедрение интернета вещей для мониторинга органами власти в странах с наиболее допускающим регулирование

Пример: Сингапур внедряющий браслеты для жителей для мониторинга при COVID-19

Почему может произойти: В отличие от экосистем мобильных устройств платформы для интернета-вещей пока не имеют олигопольного доминирования 2-3 платформ, ускоренное регулирование и введение ограничений может дать национальным правительствам больший контроль

Почему может не произойти: big tech корпорации значительно гибче, мобильнее, быстрее и осознаннее используют пробелы в регулировании и могут взять этот рынок под полный контроль в течение пары лет.


3. Сохранение всех созданных информационных систем и мобильных приложений для слежки во время COVID-19

Почему может произойти: Обоснование инвестиций и продолжение эксплуатации в соответствии с прогнозами новых эпидений (от 3 до 10 лет в ближайшем будущем) и в использовании механизмов социального контроля к легально дискриминируемым группам (отпущенным на поруки, болеющим заразными заболеваниями, находящимся под домашним арестом, подозреваемым в преступлениях и так далее). С высокой вероятностью подготовка общественного мнения начнётся ещё до окончания пандемии COVID-19

Почему это может не произойти: резкое усиление общественной озабоченности слежкой, масштабные, не прекращающиеся утечки персональных данных собранных во время слежки

4. Усиление тренда на саморегулирование алгоритмов искусственного интеллекта и усиление роли корпораций big tech в этой области

Почему это может произойти: текущее регулирование ИИ архаично и не поспевает с развитием технологий, у государственных органов нет экспертов в этой области. Неизбежно появление цифровых центров экспертизы через консорциумы университетов и big tech корпораций которые и будут помогать государственным органам в аудите и проверке алгоритмов

Почему это может не произойти: усиление регуляторного давления, рост недоверия к корпорациям big tech

#privacy #foresight #ai
На сайте MIT Technology Review [1] публикация о том что теперь в Сингапуре отслеживание контактов является обязательным и обзор и сравнение мобильных приложений, их технологий и их прозрачность по странам.

У них же там весьма интересная таблица [2] в которой больше информации чем то что показывается в статье.

P.S. России в списке стран и приложений ещё нет

Ссылки:
[1] https://www.technologyreview.com/2020/11/23/1012491/contact-tracing-mandatory-singapore-covid-pandemic/
[2] https://docs.google.com/spreadsheets/d/1ATalASO8KtZMx__zJREoOvFh0nmB-sAqJ1-CjVRSCOw/edit#gid=0

#privacy #mobile
Хотя я всё время и говорю о том что открытость государственных финансов в России высокая, но она не без "нюансов".

Вот несколько примеров:
1. Не могу нигде найти в удобном формате данные об исполнении федерального бюджета за 2019 год. Закон об исполнении бюджета был принят в 30 сентября 2020 года, утверждён Советом Федерации 7 октября 2020 года [1], но на сайте ЕПБС отсутствует [2] и на сайте Минфина тоже нет. Есть он на сайтах официального опубликования pravo.gov.ru и других справочно-правовых системах, но там только текст из которого ещё надо вычленять таблицы. Хорошо хоть не сканом, но для непытливого ума - это то ещё испытание.

2. В Республике Татарстан закон об исполнении бюджета данные к закону об исполнении бюджета публикуют без ключевого документа детальной ведомственной структуры расходов [4], а сам закон об исполнении бюджета (не буду даже догадываться почему), но публикуется в виде скана.
А если всё таки заглянуть в ведомственную структуру расходов в этом законе, то она будет приведена с детализацией только до 1-го уровня вида расходов, для сравнения, в отчётах Федерального казначейства детализация до 3-го уровня видов расходов, а в отчетах об исполнении бюджета Москвы как минимум до 2-го уровня видов расходов. Каждый уровень даёт возможность конкретизировать то на что пошли деньги. Например без детализации до 3-го уровня невозможно идентифицировать объёмы средств идущие на ИТ (242 вид расходов) в ведомственном разрезе по субъекту федерации.

Ссылки:
[1] https://pravo.gov.ru/proxy/ips/?docbody=&firstDoc=1&lastDoc=1&nd=102887899
[2] https://budget.gov.ru/epbs/faces/p/%D0%91%D1%8E%D0%B4%D0%B6%D0%B5%D1%82/%D0%97%D0%B0%D0%BA%D0%BE%D0%BD%20%D0%BE%20%D0%B1%D1%8E%D0%B4%D0%B6%D0%B5%D1%82%D0%B5/%D0%97%D0%B0%D0%BA%D0%BE%D0%BD%20%D0%BE%D0%B1%20%D0%B8%D1%81%D0%BF%D0%BE%D0%BB%D0%BD%D0%B5%D0%BD%D0%B8%D0%B8%20%D0%B1%D1%8E%D0%B4%D0%B6%D0%B5%D1%82%D0%B0?_adf.ctrl-state=1invsu6rd_77&regionId=45
[3] https://minfin.gov.ru/ru/perfomance/budget/federal_budget/budgeti/2020/
[4] https://minfin.tatarstan.ru/godovoy-otchet-ob-ispolnenii-byudzheta.htm?pub_id=2362274
[5] https://minfin.tatarstan.ru/godovoy-otchet-ob-ispolnenii-byudzheta.htm?pub_id=2373238

#budget #data #finances
Forwarded from data.csv (Alexey Smagin)
Журналисты «Медиазоны» и «Медузы» получили доступ к закрытой базе ИЦК — Информационного центра по мониторингу ситуации с коронавирусом. В этой базе содержатся сведения о свободных койках, количестве пациентов на аппаратах ИВЛ и о количестве умерших в коронавирусных больницах.

Из данных в этой базе следует, что в официальной статистике Роспотребнадзора данные о смертности в России занижены в два раза.

Подробнее здесь:
https://zona.media/article/2020/11/30/itsk-covid
Вышел доклад The State of Open Data 2020 [1] от Figshare, с акцентом на доступность данных исследователям. Состоит скорее из нескольких статей, актуальных с точки зрения измерения социологии и практик исследователей обменивающихся данными. Там же любопытные рассуждения о новой роли научных библиотек и, в принципе, короткое, но небесполезное чтение.

Можно также обратить внимание что авторы доклада используют термин "открытые данные" как автоматически относящийся к открытым данным для исследователей. Точно также как общественные активисты обычно его упоминают в контексте открытых государственных данных. Это, пожалуй, одно из важнейших различий между академическим и общественным подходом к этой теме.

FigShare - это один из продуктов, ориентированном на обмен данными между исследованиями, созданным в компании Digital Science, дочернего подразделения медиахолдинга Holtzbrinck [2]

Ссылки:
[1] https://digitalscience.figshare.com/articles/report/The_State_of_Open_Data_2020/13227875
[2] https://www.holtzbrinck.com/

#opendata #openaccess
Какие темы поднять в первую очередь в следующих темах рассылки?
anonymous poll

Экосистема государственной и негосударственной слежки через мобильные устройства и интернет вещей – 45
👍👍👍👍👍👍👍 47%

Форматы, стандарты и протоколы публикации данных – 22
👍👍👍 23%

Государственные закупки и контракты – 12
👍👍 13%

Эволюция порталов данных от каталогов к доставке данных – 10
👍👍 10%

Технические аспекты веб-архивации – 7
👍 7%

👥 96 people voted so far.
Под конец года очень много работы с текстами и я уже две недели не делал еженедельную рассылку будучи заваленным этой текстовой работой. Но планы к следующей рассылке уже есть (кстати напоминаю где её можно прочитать и подписаться https://begtin.substack.com ).

Поэтому выношу на голосование о том о чём прочитать было бы интереснее. Эту тему я приоритетно разберу максимально подробно
В блоге Airbnb Engineering & Data Science описание их процесса сертификации качества данных [1] любопытное их детальностью и фокусом на многоуровневую проверку: спецификаций, данных и кода.

Ссылки:
[1] https://medium.com/airbnb-engineering/data-quality-at-airbnb-870d03080469

#data #dataquality
Я регулярно пишу про такой класс инструментов как git для данных и про платформы претендующие стать аналогом Github'а для данных. Пока нет лидера ни в том ни в том, но есть хорошие попытки.

Новый-старый инструмент управлению версионностью данных для задач data science - это replicate [1] [2]
Утилита и библиотека на Python с открытым кодом, единственная фактическая альтернатива dvc [3] если говорить про применение к data science. А если говорить про другие dolt, quilt, noms, hub и sno, то практически все они работают с данными относительно небольшого объёма

Ссылки:
[1] https://github.com/replicate/replicate
[2] https://replicate.ai/
[3] https://github.com/iterative/dvc

#bigdata #data #data-science #data-version-control
У Счетной палаты РФ появился официальный телеграм канал @auditgov, обязательно подписывайтесь, читайте, делитесь и не стесняйтесь давать обратную связь о том чего не хватает и что хотелось бы видеть там чаще.

#accountingchamber
Немодерируемые сайты приводят к спаму и рекламе порнографии (с)

Росприроднадзор использует продукт Gitlab для работы с исходным кодом, но в виду кривых настроек портала общедоступная его часть общедоступна не только для просмотра, но и для регистрации. Как следствие, там уже создано около десятка репозиториев состоящих исключительно из спама [1].

Думаю все мы ждали совсем другого открытого кода от Росприроднадзора;)

P.S. Хочется добавить какую то мораль, но не могу придумать такую.

Ссылки:
[1] https://gitlab.rpn.gov.ru/explore/projects