Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Чуть меньше чем год назад я писал о реформе институтов развития в нашей стране о том что главное при любоей реформе - это сохранять архивы [1] Потому что помните как в пьесе Шварца "Дракон" и фильме по мотивам пьесы "Убить дракона" главный антагонист говорил "Папа всегда говорил: Уничтожай архивы!" [2]

Тогда было заархивировано 54 веб-сайта организаций институтов развития и сайты их проектов.
Что произошло за это время.
Более недоступны следующие сайты:
- www.investvostok.ru (Агентство дальнего востока по привлечению инвестиций) - организация ликвидируется
- www.madeinrussia.com (Проект Сделано в России) - выдаёт ошибку 500, возможно временно
- grant.rfbr.ru (Система Грант-экспоесс РФФИ) - сайт более не открывается
- monitoring.russez.ru (Камеры РосОЭЗ) - сайт более не открывается
- sprgm.ru (Гранты РНФ на реализацию комплексных научных программ организаций) - домен потерян, теперь продается

Скорее всего скоро исчезнут:
- hcfe.ru (Агентство по развитию человеческого капитала на Дальнем Востоке) - организация ликвидируется

Итого 5 сайтов исчезло и ещё один скорее всего исчезнет. Полный список можно посмотреть тут [3] Сохранило ли ликвидированные сайты Пр-во при реформе или головная организация ВЭБ.РФ ? Нет, конечно. Единственный государственный институт России сохраняющий сайты поглощённых им структур с 2003 года - это ЦБ РФ [4].

Нами все сайты институтов развития сохранены на конец декабря 2020 года в Национальный цифровой архив [5] и доступны всем желающим работать с ними в исследовательских целях.

Ссылки:
[1] https://t.iss.one/begtin/2464
[2] https://www.youtube.com/watch?v=Mp5LIAoKLx8
[3] https://docs.google.com/spreadsheets/d/1YIwLeSBJ3WqR4nvsPq50rLkX2Z_4uHpW2q9ni8hw8x0/edit?usp=sharing
[4] https://cbr.ru/archive/archive_fkcb/
[5] https://ruarxive.org

#webarchival #digitalpreservation #archives
К вопросу о приватности приложений по отслеживанию заболевших COVID-19, в сентябре U.S. Government Accountability Office (GAO), орган высшего парламентского аудита США, в каких-то функциях аналог российской Счетной палаты. Они выпустили доклад Exposure Notification: Benefits and Challenges of Smartphone Applications to Augment Contact Tracing [1] с анализом того какие приложения создавались властями штатов США и какие основные проблемы с ними возникали.

Весь ключевой акцент на приватности, безопасности и технических ограничениях этих приложений. И, в принципе, это хорошо составленный доклад с объяснением того как может осуществляться парламентский контроль и надзор за технологическими инструментами в подобных ситуациях.

Здесь надо оговориться что GAO в США часто выступает в роли мозгового центра. Увы, в России его аналога нет и неизвестно кто такой анализ может проделать.

Ссылки:
[1] https://www.gao.gov/products/gao-21-104622
[2] https://www.gao.gov/assets/gao-21-104622.pdf

#privacy #covid19 #gao #usa
У коалиции по цифровым архивам (Digital Preservation Coalition, DPC) с 2017 года публикуется перечень "видов информации под угрозой вымирания", так называемый The Bit List [1] of Digitally Endangered Species. Его совсем недавно, 4 ноября, во Всемирный день цифровой архивации этот список обновили и на него стоит взглянуть чтобы знать какие человеческие знания и информационные артефакты сейчас наиболее уязвимы и могут исчезнуть:

Наиболее критичная ситуация с [2]:
- веб приложения и апплеты на технологии Adobe Flash
- унаследованные интерфейсы и сервисы предоставляемые онлайн крупными компаниями
- нестандартные способы публикации официальной информации (public records)
- архивные источники данных для open source intelligence
- сервисы данных, бордов и тд. эпохи до WWW (Fidonet, BBS, Videotex) и другие
- неопубликованные данные исследователей (остаются только на их компьютерах или в лабораторных бумажных журналах)

И это только список того что находится в наибольшем риске, а есть и много других рисков и просто отсутствие требований по публикации или архивации данных.

Например, данные организаций которые я упоминаю как "ГосНКО", в мире чаще называют ALEO (Arms Length Executive Organizations) - организации на расстоянии руки от исполнительной власти или QuaNGO (Quasi non-governmental organization) - "квази-НКО". У таких организаций нет требований по раскрытию и архивации данных, при их ликвидации все материалы чаще всего уничтожаются [3] и их материалы DPC упоминают как находящиеся под высоким риском (critically endangered).

Отчасти и я потому придаю 'госНКО' такое внимание. Не только вопрос финансирования, но и целостности того что находится в их ведении.

Ссылки:
[1] https://www.dpconline.org/digipres/champion-digital-preservation/bit-list
[2] https://www.dpconline.org/digipres/champion-digital-preservation/bit-list/practically-extinct
[3] https://www.dpconline.org/digipres/champion-digital-preservation/bit-list/critically-endangered/bitlist2021-records-of-quangos

#digitalpreservation #archives
Среди приложений по улучшению написанных текстов много лет выделялся Grammarly [1], стартап основанный в кремниевой долине в 2009 году несколькими выходцами из Украины и поднявший 200М инвестиций за эти 12 лет. Его особенность была в понимании контекста и эффективных подсказках по замене слов, конструкций, замене пунктуации под разные стили написания текстов и даже виды английского языка.

Те кто сталкивался с образованием в зарубежных университетах знают что многие из них заключают большой корпоративный договор с Grammarly и предоставляют его своим студентам бесплатно.

И вот 2020 году появился стартап Writer.com [2], со многими похожими на Grammarly свойствами, опять же заточенный под английский язык и в буквально совсем недавно они получили второй раунд финансирования в 20 миллионов долларов [3] под автоматизацию проверки текстов по корпоративным руководствам стилей адаптированным под их бренды. Идея, с одной стороны оригинальная, а с другой как раз под ожидания клиентов и адаптацию практики аутсорсинга подготовки пресс-релизов, контента для сайтов и много чего ещё связанного с текстами. Крупные компании отдают пресс-релизы на аутсорс, но хотят контролировать их качество, гендерную нейтральность и ещё много чего, актуального как минимум в США.

Впрочем Writer.com появился не на пустом месте, до него основатели делали стартап Qordoba в котором совмещали сервисы управления контентом, перевода и упрощения языка. Далее, по видимому, упрощение языка оказалось наиболее перспективной темой для развития и инвестиций.

Это довольно сильный уход от модели существования большинства сервисов по проверки грамматики. Большая их часть развивались как продукты для тех для кого язык не родной и проверка грамматики позволяет избежать основных ошибок. Поэтому так много клиентов у Grammarly среди университетов, для студентов кому английский язык не родной. А у Writer.com модель основанная на улучшении контроле текстов которые могут быть написаны и носителями языка, но под решение корпоративных задач.

Ссылки:
[1] https://www.crunchbase.com/organization/grammarly
[2] https://www.crunchbase.com/organization/writer
[3] https://techcrunch.com/2021/11/15/writers-automated-style-guide-for-web-based-publishing-brings-in-21m-a-round/

#plainlanguage #startups #language
В рубрике "интересные наборы данных" база в 7 гигабайт о 7 миллионах транзакций с токенами NFT [1] на базе Ethereum. Данные собраны за период с апреля по сентябрь 2021 года. Команда опубликовавшая этот набор данных занимается разработкой инструментов с открытым кодом для работы с NFT и они разместили свой анализ этих транзакций [2]. Согласно этому анализу рынок NFT похож на классические рынки с тем же уровнем финансового неравенства.

Ссылки:
[1] https://www.kaggle.com/simiotic/ethereum-nfts
[2] https://github.com/bugout-dev/moonstream/blob/main/datasets/nfts/papers/ethereum-nfts.pdf

#opendata #opensource #cryptocurrencies #nft
Написал в рассылку большой текст со скучным названием "18. Как правильно архивировать цифровые ресурсы при архивационных кампаниях" [1] о том как устроена веб архивация и цифровая архивация на практике архивации сайтов институтов развития и Мемориала. Первые исчезают из-за реформы, вторые могут исчезнуть из-за ликвидации юр. лица / юр. лиц Мемориала. Позиция любого архивиста в такой ситуации в том что сохранение знания стоит на первом месте.

Таких архивационных кампаний я проводил довольно много и могу сказать что важнейшее вовлечение широкой публики в них - это стадия поиска и обнаружения того что надо хранить. Как отделить значимое от незначимого, вот в чём вопрос, а сам сбор, обработка и хранение данных - это задача куда более техническая и решаемая наличием ресурсов финансовых и технических.

Ссылки:
[1] https://begtin.substack.com/p/18

#digitalpreservsation #archives
Hекоторые факты из публичных следов госинформатизации которые вы можете ещё не знать:
- 100+ недокументированных общедоступных API доступны из государственных информационных систем. От очень простых вроде поиска по сайту госоргана, до весьма сложных с системой доступа к объектам внутри информационной системы, интеграционный контур информационной системы. По ним чаще всего нет документации или её совсем мало, эти API бывают самого разного вида, на базе REST API, GraphQL, SOAP, API на базе XML и так далее. О некоторых из этих API я писал ранее и ещё напишу в будущем.

- Битрикс использует зарубежную ИТ инфраструктуру. Де-факто Битрикс: самая популярная автономная CMS у госорганизаций. Не возьмусь утверждать что это показатель качества именно этой CMS, но она точно наиболее популярна для автономных сайтов госучреждений и госорганов. В то же время в битрикс встроеа система сбора статистики привязанная к домену bitrix.info (ссылка https://bitrix.info/ba.js) хостящемуся в датацентре Amazon в Ирландии. Роскомнадзору стоит об этом не забывать когда в следующий раз начнут массово блокировать подсети у облачных провайдеров.

- ГАС Правосудие крупнейший конструктор сайтов. Де факто на сегодняшний день больше всего сайтов создано на системе ГАС Правосудие. Это несколько тысяч сайто судов всех уровней юрисдикции. Стилистически сейчас они выглядят жутковато, не работают на мобильных устройствах удобным образом и тд., но по факту это пока крупнейший конструктор для специализированных госсайтов.

- Госвеб для школ. Оказывается история с Госвебом никуда не исчезла и на платформе gosweb.gosuslugi.ru где-то с сентября 2020 года появляются сайты школ. Например, МБОУ СОШ с. Ивановка или МОУ СОШ №3 г. Звенигород. У сайтов школ пока что чрезмерно длинные доменные имена вроде "school-3-zven-mos.gosweb.gosuslugi.ru" и непонятно сколько их реально переведено, как это происходит и тд. Внутри технически CMS Netcat, а в поиске гугла находится всего около 100 страниц с сайтов на этой платформе.

- Система доставки контента Cloudflare одна из наиболее популярных у разработчиков госсайтов. Даже если она не используется напрямую, на госпорталах как и на коммерческих используются сервисы вроде fontawesome.com или fonts.net для подгрузки шрифтов. А также как CDN хостинг для популярных библиотек Javascript и типовых CSS файлов.

#government #it #govtech
В блоге AppCensus, стартапа занимающегося анализом приватности приложений для Android, появился весьма подробный и полезный разбор [1] сервиса Huq в котором собирается до нескольких миллиардов событий ежесуточно [2].

Стартап Huq предоставляется разработчикам в виде SDK и после установки приложения с этим SDK оно собирает все сведения о геопозиции, BSID у сетей WiFi, факты подключения пользователя к сети Wifi и ещё много чего. Всё это каждый 9 минут загружается на сервер Huq'а.

Причём инсталляций с ним много, в особенности в самых что ни на есть массовых бесплатных мобильных приложениях [3]

Об этом Huq и сборе данных без согласия бользователей BBC написали в конце октября [4], по мотивам статьи в Vice [5] где также обратили внимание на это расследование AppCensus и на то что Huq собирает данные не уведомляя об этом пользователей.

Google обещают что проводят расследование по этому поводу, поскольку это нарушает их собственные правила в экосистеме Android'а.

История показательная, разумеется, Huq далеко не единственные кто собирает столь много данных и использует подобную бизнес модель и такие истории будут повторятся. Нам же стоит помнить что любое бесплатное приложение - не бесплатное, мы расплачиваемся сбором информации о себе, всегда.

Ссылки:
[1] https://blog.appcensus.io/2021/10/25/what-the-huq/
[2] https://web.archive.org/web/20211001150723/https://huq.io/data/
[3] https://reports.exodus-privacy.eu.org/en/trackers/408/
[4] https://www.bbc.com/news/technology-59063766
[5] https://www.vice.com/en/article/5dgmqz/huq-location-data-opt-out-no-consent

#privacy #huq #android
Для тех кто интересуется последними инициативами социально-экономического характера, я обновил таблицу сравнения ФЦП, госпрограмм, нац. проектов и теперь ещё и инициатив. Всё это можно посмотреть в табличке в Google Docs [1]. Наверное, эти инициативы уже можно сократить до ИСЭРов. Что нужно о них знать? В том что их непрозрачность и неподотчетность даже выше чем по национальным проектам. Обязательное раскрытие данных, по прежнему, присутствует только по ФЦП/Госпрограммам со многими вопросами к качеству этого раскрытия. Но по нац проектам и теперь и ИСЭРам нет даже этого.

По нацпроектам единственным официальным контуром раскрытия сведений является медийный портал futurerussia.gov.ru [2], а остальные материалы если где и всплывают, то рассеяно по другим ресурсам органов власти и в [анонимных] телеграм-каналах.

Сведения явно собираются, но не раскрываются.

Ссылки:
[1] https://tinyurl.com/2vunudnd
[2] https://futurerussia.gov.ru

#opendata #spending #budgets #government
Минцифры подвело итоги аукциона на 873 млн. руб. по использованию Гостеха для ФФОМС. Электронный аукцион N 0173100007521000107 завершился победой [1] ООО "Облачные технологии" (входит в группу компаний Сбер). Собственно только их заявка и подавалась на этот аукцион [2].

На что стоит обратить внимание:
1. За чуть более 1 месяц 2021 года поставщик получит 86 млн. рублей. Это чуть менее 10% всей суммы и не вполне понятно за что потому что структура контракта поэтапно описана неподробно.
2. На портале госзакупок размещены неполные сведения о предмете закупок на 370 тысяч, а не на 873 млн. руб. Это как-то совсем вызывающе странно и позиции закупки не описаны.

А самый главный вопрос который я до сих пор не могу понять, так это если Сбер уже выбран оператором Гостех'а, то зачем конкурсы и аукционы? Почему не ед. исполнитель или почему вообще не создали АО по модели ГЧП и не дали ему прямую субсидию?

Ссылки:
[1] https://tinyurl.com/ye8hesex
[2] https://tinyurl.com/f6pjsku4

#spending #government #govtech
unesco_ai_etic_16-11-2021.pdf
456.3 KB
В ЮНЕСКО приняли Проект Рекомендации об этических аспектах искусственного интеллекта [1]. Документ рамочный, с одной стороны, а с другой довольно четко дающий установки для мониторинга этического внедрения ИИ в странах. О его содержании я хочу написать отдельно и подробно большой лонгрид, а пока обращу внимание на пункт: Прозрачность и объяснимость.

На 13 странице рекомендаций очень недвусмысленно написано о праве на оспаривание решений ИИ, о необходимости аудита и мониторинга, о необходимости контроля соответствия. Эти вопросы можно задавать уже сейчас всем тем кто активно декларирует применение ИИ в чувствительных областях. Соответствуют ли их системы рекомендациям ЮНЕСКО? Что делается обеспечения права гражданина на оспаривание решений ИИ? Какие механизмы правовой защиты предусмотрены? И многое другое.

Спасибо коллегам из @DigitalRightsCenter [2] за наводку

Ссылки:
[1] https://www.unesco.org/en/general-conference/41/commissions/shs
[2] https://t.iss.one/DigitalRightsCenter

#ai #ethics #regulation #un
Forwarded from ministryofpoems
Правительство XXX рассматривает вопрос предоставления IQ-кодов людям с высоким уровнем IQ – успешно сдавшим тест на коэффициент интеллекта. Сдавшие тест получат право свободного передвижения на общественном транспорте, поездах и самолетами.
...
Правительство XXX приняло постановление о снижении обязательной сдачи крови с 3х до 2.5 литров ежемесячно для физических лиц и с 30 до 27 литров для юридических лиц. Эти правила распространяются только для тех кто воспользовался новой программой мониторинга качества крови и установил ее на свой телефон. Эти и другие меры были закреплены в программе инициатив снижения повышения эффективности налогового администрирования.
...
Правительство XXX приняло постановление о 50% компенсации владельцам ИИ призванных на военную службу. Эти выплаты будут осуществляться из резервного фонда компенсации потери кормильцев. Напомним, что в весеннюю призывную кампанию было призвано 5641 роботов пылесосов, 10673 умных колонок и 297 умных домашних помощников. Совокупная расчетная мощность в 2 петафлопса была направлена на военные и гражданские проекты нашей страны.
...
Правительство XXX озвучило планы строительства 4х метавселенных комбинированного типа. Эксперименты будут проводится на базе Госкорпорации Исполнения наказания, Министерства принудительного образования, Федеральной службы поддержания жизни и Министерства координации противодействия пандемиям.
...
Правительство XXX поддержало позицию экспертов рекомендовавших введение обязательного лицензирования виртуального строительства и производства в метавселенных Minecraft. В то же время вопрос саморегулирования все еще обсуждается в профильной комиссии.
Я регулярно рассказываю о том что веду реестр государственных доменов для архивации госсайтов. Доменов там сейчас более 7700 привязанных к 215 "корневым" доменам. Например, многие учреждения имеют поддомены в доменных зонах mvd.ru, sudrf.ru, msudrf.ru и других, а в "корневом" домене .gov.ru всего 977 доменов и их поддоменов с веб-сайтами. На самом деле этот список куда больше, потому что есть более 50 тысяч госучреждений и их сайты рассеяны по всем доменным зонам, но, с другой стороны, для архивационных целей они мне не очень то и нужны.

Много лет мне кажется что про госсайты я знал/знаю не то чтобы всё, но многое. Слишком уж часто приходится читать регуляторные материалы, изучать информационные системы и так далее. Но вот недавно обнаружил что совсем не всё. Оказывается в 2018-2019 годах ФСО России наплодило множество порталов с доменными именами pravo01.gov.ru, pravo02.gov.ru, ... и так далее. Как вы уже догадались - это сайты с кодом региона и по региональной тематике. Вдруг там что-то интересное? Хотелось бы, но нет. Эти сайты - это сайты визитки к порталу правовой информации pravo.gov.ru. Технологически они сделаны каким-то совершенно древним образом на старой версии CMS Joomla с отличиями только в виде новостной ленты, всё остальное практически идентично и контента там практически ноль. Ссылок на эти порталы на других ресурсах также практически нет, лично я нашёл их случайно.

Вердикт - архивировать там нечего по содержанию. Остаётся только один вопрос как и в рамках какого госпроекта такое вообще могли сделать ? Они ведь обновляются, в том смысле что новости там публикуются, значит кто-то тратит время, хотя и очень небольшое, на то чтобы новости там писать. Но об этих сайтах никто не знает, на них нет ссылок даже на pravo.gov.ru, за исключением портала созданного для Приморского края [1].

Другая, уже не курьёзная, а интересная-интересность - это, оказывается, ДИТ Москвы когда-то создали каталог API apistore.mos.ru [2] где есть прототипы 15 API, но как-то они уже 2019 года не обновлялись и непонятно работает ли. Любопытно что вместо инвентаризации систем с API они пошли по пути создания новых (или прокси для имеющихся), но, всё равно без инвентаризации существующих API которых у информационных систем города Москвы довольно много.

Например, API инсталляции ArcGIS [3] на сайте apieatlas.mos.ru или, также, API к ArcGIS [4] на портале КИС Санкт-Петербурга и таких инсталляций у региональных и муниципальных властей в России от десятков до сотен, сколько всего никто не знает. Откуда это API? Оно является неотъемлимой частью каждой установки ArcGIS и есть много других продуктов где также есть открытые API по умолчанию.

В США похожая история, нет единого госкаталога геоAPI и один активист собирает гигантский PDF файл с каталогом [5] из 3500+ API к ArcGIS.

От себя могу добавить и повториться что API ко многим госсистемам - это важный источник наполнения нашего каталога данных Datacrafter [6]. А о том как автоматически собирать данные из API я регулярно рассказываю на конференциях.

Ссылки:
[1] https://pravo.gov.ru/news/o_prezentatsii_internet_sayta_pravovoy_informatsii_primorskogo_kraya_090618/
[2] https://apistore.mos.ru
[3] https://apieatlas.mos.ru/arcgis/rest/services
[4] https://gis.toris.kis.gov.spb.ru/arccod1031/rest/services/
[5] https://mappingsupport.com/p/surf_gis/list-federal-state-county-city-GIS-servers.pdf
[6] https://data.apicrafter.ru

#opendata #api #archives #govdomains
Тем временем на сайте Росреестра новость [1] о том что Правительство Российской Федерации разработало проект закона «О публично-правовой компании «Роскадастр». Текст законопроекта пока что не видать, но что можно узнать из текста на сайте Росреестра так это то что это будет первая ППК связанная с государственными данными. И, внебюджетом, поскольку в одну ППК объединяются фактически подведы Росреестры оказывавшие услуги и работы для Росреестра, бизнеса и граждан.

Звучит это в новости Росреестра вот так Объединение четырёх организаций в публично-правовую компанию будет способствовать реализации ключевых проектов отрасли, в том числе созданию «Национальной системы пространственных данных» (НСПД), которая распоряжением Правительства РФ включена в перечень инициатив социально-экономического развития РФ до 2030 года.

Хорошо это или плохо? Надо читать законопроект когда он появится. Что я могу сказать точно так то что уровень открытости Госкорпораций и ППК заведомо ниже чем у госорганов или бюджетных учреждений.

Как это ППК будет регулироваться? Какие услуги будет оказывать ? Вопросов довольно много, на самом деле. Но, ещё раз подчеркну, важно то что это госкомпания про данные. Заметны отличия госполитики в области госинформатизации. Например, Гостех создаётся как ГКУ, а инфраструктура НСПД на базе ППК. В чём принципиальные отличия разного регулирования в схожих областях? Вот в чём вопрос.

Ссылки:
[1] https://rosreestr.gov.ru/press/archive/pravitelstvo-rf-odobrilo-zakonoproekt-o-sozdanii-publichno-pravovoy-kompanii-roskadastr/

#government #regulation #data #geodata
OpenAI, разработчики языковой модели GPT-3 о которой так много писали и пишут и которую активно используют в многочисленных демо проектах и экспериментах основанных на понимании языка, убрали лист ожидания к своему API [1] для списка поддерживаемых или стран. Это хорошая новость. Плохая новость в том что России в этом списке стран нет [2]. Вернее даже что из всего постсоветского пространства там нет России, Украины, Киргизстана, Таджикистана, Туркменистана и Беларуси, но есть Казахстан и Армения, к примеру. Китая, кстати, тоже нет в списке.

Чем вызван такой выбор стран непонятно.

Ссылки:
[1] https://openai.com/blog/api-no-waitlist/
[2] https://beta.openai.com/docs/supported-countries

#ai #openapi #openai