Ivan Begtin
7.99K subscribers
1.87K photos
3 videos
101 files
4.58K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Посыпаю голову пеплом за поздний анонс, но сегодня с 16:00 по 18:00 Инфокультура проводит вебинар о публикации открытых данных с большим числом коллег отрасли работающих в этой тема довольно давно.

Описание есть в Facebook [1] и регистрация на Timepad [2].

Ссылки:
[1] https://www.facebook.com/events/310008623500991/
[2] https://infoculture.timepad.ru/event/1346090/

#opendata #opengov #infoculture
В качестве напоминания, один из небольших проектов в Инфокультуре, как часть национального цифрового архива [1], я веду реестр всех доменов органов власти в репозитории на Github [2].

Сейчас в репозитории два больших обновления:
1. В папку refined [3] выложена рабочая версия обогащённых и очищенных данных по 7500 доменам в зоне .gov.ru и иным корневым доменам федеральных органов власти.
Это включает следующие сведения:
* feddomains.csv - домены в ведении федеральных органов власти
* organizations.csv - организации управляющие доменами федеральных органов власти
* govsystems.csv - государственные информационные системы к которым домены привязаны
* asn.csv - подсети (ASN) с привязкой к ним доменов
* regions.csv - регионы к которым привязаны домены федеральных органов власти

2. В папку "regional/77" выложен обновлённый список доменов связанных с Правительством Москвы (большая часть это поддомены домена mos.ru), всего 2265 доменов. Эти пока нерассортированная, неверифицированная куча доменов каждый из которых необходимо будет верифицировать в будущем. Большая часть систем города Москвы делается через "прокладку" в лице ДИТ Москвы и точки выхода API, контентных сайтов и т.д. не всегда локализованы в конкретных поддоменах. За полтора года поддоменов домена mos.ru стало значительно больше, весьма, весьма больше.

Я очень давно хотел эту работу проделать чтобы систематизировать стратегию архивацию сведений с официальных сайтов. В последнее время появилось слишком много сайтов внутри которых есть те или иные ограничения из-за которых веб-архивация не работает. Кстати, сам сайт Мэрии Москвы www.mos.ru устроен именно так, значительная часть сведений на страницах отдаются через API и JSON, в результате веб архивация не работает, поиск по документам внешний поиск тоже работает не очень.

Поэтому сейчас каждому веб-сайту в экспортированном списке feddomains.csv указывается стратегия архивации, факт архивации и, в будущем, факты наличия архивов. Следующим, непростым шагом, задача по сопоставлению огромной свалки архивов которая хранится на серверах национального цифрового архива со списком доменов чтобы понять по каким сайтам архивы есть, а по каким нужно срочно запускать процесс архивации.

Обратите внимание что все приведенные выше материалы являются рабочими. Далеко не по всем сайтам определена их региональная привязка, не все информационные системы привязаны и далеко не все метаданные заполнены. Более менее полными можно считать пока сам список доменов, типизацию сайтов, список организаций и ASN.

Если хотите помочь в этом, то пожелания и предложения доменов/сайтов для каталогизации направляйте в репозиторий через механизм issues [5].

P.S.
Вообще лично я надеялся много лет что Минцифра или Минэкономразвития сама рано или поздно сделают нормальный реестр госдоменов, вместо убогого Gosmonitor'а [6], но не дождался и уже много лет делаю сводный реестр самостоятельно в рамках Инфокультуры @infoculture.

Ссылки:
[1] https://ruarxive.org
[2] https://github.com/infoculture/govdomains
[3] https://github.com/infoculture/govdomains/tree/master/refined
[4] https://github.com/infoculture/govdomains/tree/master/regional/77
[5] https://github.com/infoculture/govdomains/issues
[6] https://gosmonitor.ru

#government #govdomains #infoculture
Наконец-то можно анонсировать. Аналитический доклад "Работа с открытыми данными: особенности публикации и использования в российском правовом поле" [1] он завершён и доступен. Читайте, распространяйте, задавайте вопросы и предлагайте примеры.

Ссылки:
[1] https://opendatareview.infoculture.ru/

#opendata #infoculture
Приватность государственных мобильных приложений в России [1] - свежее исследование от команды @infoculture. Мы проверили 44 государственных мобильных приложения в которых 39 из них содержат код сторонних трекеров и 38 из них содержат код сторонних трекеров с юрисдикциями в США и Японии. Почитайте подробнее там, много интересного.

Об этом я сегодня буду говорить на Privacy Day, презентацию можно посмотреть по ссылке [2], а также вышла статья в РБК с комментариями представителей Минцифры и ДИТ Москвы [3]

И здесь мне тоже есть что добавить:
1. Конечно же речь идёт не только о "технических сервисах" вроде Google Firebase и Firebase Crashlytics. Многие трекеры являются совершенно необязательными и более похоже что их включили не по злому умыслу, а для удобства разработки и аналитики. Не подумав, в общем, что, впрочем, ответственных за них не оправдывает. Это такие сервисы как HockeyApp, Estimote, Flurry, AltBeacon и другие.
2. Если верить коллегам что без сервисов Google в экосистеме Android работать невозможно, то мы же понимаем что импортозамещение в этой области это просто профанация? Получается что есть экосистемные требования и у Правительства РФ нет другого пути кроме как с Google договариваться в будущем.
3. Все кто делают коммерческие мобильные приложения которые передают данные в зарубежные сервисы теперь знают что и госорганы поступают аналогично
4. Есть как минимум 5 госприложений в которых нет ни одного встроенного трекера, например, "Госуслуги.Дороги". То есть если очень хочется то можно создавать приложения и без слежки. Так почему же не всем и не всегда хочется?;)
5. Конечно, прежде чем публиковать материалы онлайн, очень хотелось бы вести профессиональный дискурс о вопросах приватности, безопасности, свободы и ограничений использования цифровых сервисов. Но вот не работает механизм дискуссий вокруг смысловых документов в России. Их приходится адаптировать под формат который был бы понятен и удобен СМИ, иначе обратной реакции от органов власти просто не возникает.
6. При этом всё очень конструктивно. У нас очень понятные рекомендации для регуляторов, контролёров, разработчиков и пользователей.
7. Это не последний обзор по этой теме, если есть какие-то приложения которые мы упустили, а они наверняка есть, то пишите, все подвергнем тщательной вивисекции.

P.S. Конечно результаты доступны и как открытые данные.
- Приложения и трекеры иностранных юрисдикций [3]
- Выборка исследуемых госприложений [4]
- Данные о трекерах госприложений [5]
- Сводные собранные данные по всем госприложениям [6] (трекеры, разрешения и т.д.)

Ссылки:
[1] https://privacygosmobapps.infoculture.ru/
[2] https://www.beautiful.ai/player/-MS6JaKYDpr8q1UCAjmA
[3] https://ngodata.ru/dataset/apps-trackers-jurisdiction
[4] https://ngodata.ru/dataset/gos-mobile-apps
[5] https://ngodata.ru/dataset/gos-apps-trackers
[6] https://ngodata.ru/dataset/gos-full-csv

#privacy #infoculture #mobileapps
Напоминаю что День открытых данных в этом году пройдет онлайн [1] где кроме мероприятий 6-го марта проходит серия мастер-классов первый из которых пройдет сегодня, 1 марта в 18:00 (MSK, GMT+3), мастер-класс «Вскрываем декларации. Как при помощи регулярных выражений привести Word'овскую табличку к пригодной для анализа форме».

Мастер-классы будут проходить ежедневного до 5-го марта включительно.

А потом, 6 марта, будет серия интересных дискуссий по злободневным вопросам. В этом году мы позвали много зарубежных экспертов и будет особенно интересно узнать о том что происходит в мире.

Обязательно регистрируйтесь на сайте, приходите и распространяйте!

Ссылки:
[1] https://opendataday.ru/msk

#opendata #infoculture
Я тут начал было только перечислять то какие проекты мы планировали делать до вот-этого-всего, но список получался очень грустный, и для поиска финансирования общественных проектов сложности в России уже давно. Но какие то планы можно вспомнить:
- День открытых данных - вели активную подготовку, всё было готово, отменили в последний момент потому что теперь всё это кажется малоцелесообразным. Хотя нам и надо как-то поддерживать сообщество и не терять связи с миром, но абсолютно непонятно теперь что будет дальше с открытостью государства. Вернее понятно что будет хуже.
- Прозрачный нефтегаз - проект который я проектировал ещё 3 года назад и к которому были планы вернутся, по систематизации того как добывающие компании платят налоги, поддерживают социальную инфраструктуру и тд. В мире есть несколько таких проектов, было желание сделать его и в России. Будет ли он актуален? Сомневаюсь
- Государственные НКО - у меня на руках уже с полгода лежит доклад дописанный на 80% о том как из госбюджета государство раздаёт средства госНКО для выполнения государственных функций. Важная была тема в мирное время, сейчас уже кажется неактуальным. Как бы вообще траты бюджета не закрыли.

Это не полный список. Ещё остались система мониторинга законотворчества, база муниципальных показателей, переделка нашего портала Открытые НКО (openngo.ru) с наполнением новыми данными и многое другое.

Но теперь всё это кажется проектами из другого мира. Что можно будет делать в нашей новой реальности? Самое главное мне представляется архивацией данных, сайтов, цифрового наследия которое сейчас исчезает. На всё это никогда не было финансирования в России и сейчас тоже это проблема его найти. Но в плане исторической ценности - это важнейшее направление.

По крайней мере в том что касается некоммерческих проектов.

#thoughts #projects #infoculture
Для тех кто интересуется, напомню что много лет Инфокультура поддерживает проект Открытые НКО [1] с базой и открытыми данными по всем некоммерческим организациям в России. В какой-то момент нам пришлось переносить их с одного хостинга на другой и миграция затянулась и оказалось сложной, но сейчас сайт снова доступен.

Проект, к сожалению, вот уже много лет почти не развивается. Его финансирование закончено, мы поддерживаем его за счёт собственных ресурсов, но закрывать не планируем.

Ссылки:
[1] https://openngo.ru

#openngo #opendata #data #ngo #infoculture
В качестве регулярных напоминаний, если Вы изучаете открытые данные и хотите больше погрузиться в эту тему:
1. Работа с открытыми данными: особенности публикации и использования в российском правовом поле [1] аналитический доклад 2020 года про возможности и проблемы работы с открытыми данными.
2. Карты данных [2] по многим отраслям составленные нами 3.5 года назад в виде инфографики. Изначально это было куча майндмапов в виде вопросов и ответов. Для наглядности пришлось их переработать. То что получилось делалось, в первую очередь для печати и раздачи на хакатонах.
3. Хаб открытых данных [3] наш негосударственный портал открытых данных. Создавался как независимый от гос-ва портал для публикации данных. Мы его поддерживаем вот уже много лет.

Если хотите помочь Инфокультуре то сделать можно это на странице https://www.infoculture.ru/donation/ пожертвованием однократно или ежемесячно (лучше ежемесячно, конечно!).

Лично я считаю после всей той помощи что я оказал Минцифре РФ по чистке реестра аккредитованных ИТ компаний, сотрудники министерства, не могут пройти мимо и не пожертвовать кто сколько может на благое дело приведения наборов данных в порядок 😜

Ну а если серьёзно, то пандемийные годы были непростыми, а этот год - это ещё больший вызов многократно. До сих пор непонятно как продолжать развивать открытость данных, всё ещё понятно что можно делать в части цифровой архивации и всегда понятно что делать по теме приватности, хотя, это тоже стало сложнее.

А я не могу не напомнить что был и остаюсь в России, и пока рассматриваю варианты отъезда, только по состоянию здоровья (если аллергия на березы начнёт зашкаливать).

Ссылки:
[1] https://opendatareview.infoculture.ru/
[2] https://www.infoculture.ru/2018/12/10/datamaps/
[3] https://hubofdata.ru

#opendata #infoculture #donate
Результаты свежего исследования Инфокультуры с анализом приватности (читай - слежки) 1014 мобильных приложений для Android опубликованных в магазине приложений RuStore.

Мы работали над ним около месяца, анализируя все опубликованные приложения на предмет тех разрешений которые затребуют на устройствах пользователей и наличия в них кода специальных библиотек (трекеров) используемых для слежки за потребителями.

Почему RuStore и приложения оттуда? Потому что усилиями Минцифры РФ и Правительства РФ именно этот магазин приложений стал официальным, фактически, нормативно закреплённым. Можно говорить о том что компания ВК и Правительство РФ теперь несут совокупную ответственность за то как приложения оттуда следят за нами.

Выводы [не]удивительные:
- большая часть приложения включает трекеры, требуют больше разрешений чем им реально может быть нужно, а сам магазин приложений не имеет стандартов верификации.
- большая часть приложений передают данные компаниям в юрисдикциях которые Правительство РФ называет "недружественными"
- даже госприложения включают трекеры, например компании Google, передающие данные о гражданах в другие страны и в BigTech корпорации

44 госприложения мы анализировали в прошлом году, но в этот раз решили подойти масштабнее и проанализировали 1014 приложений всех категорий. Было это дольше, но не менее увлекательно.

С результатами исследования мы публикуем все данные в CSV и исходный код по их подготовке [2].

Если будут сложности самостоятельного анализа данных в CSV и если Вы журналист или исследователь, хотите сделать собственную визуализацию или материал, свяжитесь с нами на [email protected], мы поможем․

Ссылки:
[1] https://rustoreprivacy.infoculture.ru
[2] https://github.com/infoculture/rustore-privacy/

#privacy #infoculture #android #mobileapps
Для тех кто недавно подписался и в качестве регулярных напоминаний о том кто я и о чем тут пишу.

Я много лет в занимаюсь темой открытых данных и возглавляю АНО Инфокультура НКО со специализацией на открытости данных, государства и, в последние годы, приватности. Наши проекты включают Госзатраты, Открытые НКО, Простым языком и многие другие, их можно найти на сайте. У Инфокультуры есть телеграм канал @infoculture․ Много лет мы организовывали ежегодное мероприятие Open Data Day в России, в этом годы мы не стали этого делать поскольку как диалог с гос-вом она более не работает, большинство людей активно действовавших в открытости гос-ва покинули Россию.

Также я являюсь основателем проекта Национальный цифровой архив (Ruarxive) в котором наша команда архивирует сайты и иной цифровой контент находящиеся под угрозой исчезновения. О нём можно узнать больше в телеграм канале @ruarxive.

Цифровой архив (Ruarxive) и исследования о приватности такие как Исследование приватности мобильных приложений в RuStore - это то на чём мы делали акцент последние пару лет, видя как ухудшается ситуация с открытостью в России.

Пока ещё всем этим удаётся заниматься, хотя и риски растут, а многие наши друзья и некоммерческие организации были признаны инагентами, покинули страну и подвергаются ничем не обоснованным гонениям. Но, безусловно, ресурсов на некоммерческую деятельность стало сильно меньше.

Сейчас значительная часть всей этой некоммерческой активности финансируется тем что она поддерживается нашей коммерческой ИТ компанией где наша ИТ команда делает коммерческие и некоммерческие ИТ проекты, часть из которых известны, часть гораздо меньше чем публичные некоммерческие проекты. Подробнее о нашей компании DataCoon и продаем сервисы через такие продукты как APICrafter.

В основе всех проектов лежит открытый код, значительная часть которого открыта нами и публикуется на нескольких аккаунтах на Github.

Я лично финансирую деятельность Инфокультуры и некоммерческие проекты занимаясь консалтингом, консультациями и преподаванием по темам работы с данными и передавая полученные средства на некоммерческую деятельность.

Из России вы можете помочь нашим проектам пожертвовав на сайте Инфокультуры, а также при заказе нам технологических проектов и продуктов можете быть уверены что часть этих средств пойдет на поддержание некоммерческой деятельности.

Также, для проекта Цифрового архива можно пожертвовать сервера, компьютеры, диски, системы хранения и сетевое оборудование. Мы используем его для создания резервных копий и улучшения инфраструктуры проекта.

В этом телеграм канале (@begtin) я пишу по темам открытости данных, технологиях, работы с данными в принципе, инженерии данных, государственных технологиях (gov tech) и стартапах.
Значительно реже, я пишу о общетехнологических вопросах и проблемам с которыми все мы сталкиваемся.

Пожалуйста, имейте это в виду когда подписываетесь, вполне возможно что темы этого канала могут оказаться слишком техническими для кого-то и недостаточно глубоко техническими для других.

#opendata #opensource #opengov #infoculture
В копилку плохих новостей про открытые данные, более недоступен портал Госрасходы (spending.gov.ru) [1]. Откуда его не открывай, из Армении, Европы или из России, всегда выдаётся 403 ошибка.

По этому статусу не определить отключён ли проект полностью или недоступен для широкой публики, но важная часть моей работы в Счётной палаты теперь недоступна. При том что я покинул Счетную палату уже давно и проект развивался и после моего ухода, но увы, я действительно не знаю всех причин почему его закрыли. Думаю что не последней причиной был уход Кудрина из Счетной палаты и что вот уже очень долгое время новый председатель так и не назначен.

Конечно, ещё остаётся надежда что Госрасходы отключены из-за проблем в настройках сети или случайных действий админов, но больше похоже что нет, его больше нет.

Здесь я не могу не напомнить что у нас в АНО Инфокультура (@infoculture) остался общественный проект clearspending.ru [2] где не было такой продвинутой аналитики по национальным проектам и бюджету, зато всегда была доступна и остаётся база госконтрактов. Проект останется открытым и включает дампы всей внутренней базы контрактов.


Ссылки:
[1] https://spending.gov.ru
[2] https://clearspending.ru

#opendata #contracts #sprf #infoculture
В качестве регулярного напоминания, хотя я в последние годы делаю проекты не только в России, но и в Армении, а также некоторые глобальные, но АНО Инфокультура от лица которого наша команда создавала проекты по открытости в России всё ещё действует и, несмотря на все ограничения, действовать будет дальше, как я надеюсь, во всяком случае.

Мы продолжаем и поддерживаем такие проекты как:
- Госзатраты [1] агрегатор всех государственных и муниципальных контрактов по 44-ФЗ. 223-ФЗ, 94-ФЗ и ряда постановлений Пр-ва РФ. Все доступно для поиска, доступно как открытые данные. Мы продолжим развивать его и дальше
- Открытые НКО [2] портал прозрачности НКО в России. Хотя российское Пр-во начало скрывать данные по учредителям организаций НКО ещё с весны 2021 года, мы продолжаем обновлять данные, хотя и остальные возможности развития проекта ограничены.
- Простой язык [3] сервис определения простоты текстов на русском языке. Проект остаётся неизменным уже много лет, форма куда можно отправить текст и получить оценку его простоты в годах обучения. Мы думаем как его улучшать и развивать, регулярно приходят пользователи с разными запросами.
- Хаб открытых данных [4] негосударственный портал открытых данных. Из-за потоков спама нам пришлось отключить там свободную регистрацию, но сам хаб никуда не исчезает, думаем о его перезапуске. Может быть когда Минэкономразвития России опубликует обновлённый портал data.gov.ru на Гостехе мы специально обновим Хаб открытых данных чтобы показать всем какую хрень может сотворить министерство за 100500 денюх и насколько лучше можем мы сделать с минимальным бюджетом.
- Национальный цифровой архив России [5] наш проект по архивации сайтов, был более актуален когда шла совсем полная срань с ликвидацией сайтов многих российских "инагентов", менее критично сейчас, с одной стороны, с другой всё ещё актуально. Стало сложнее архивировать госсайты, они все обзавелись капчами и блокировкой любых не-российских IP адресов. Поэтому, в очередной раз, думаем о смене приоритетов и актуализации программы архивации. У проекта есть отдельный телеграм канал https://t.iss.one/ruarxive, не стесняйтесь, подписывайтесь на него.
- День открытых данных в России [6] мы не проводили его в 2022 году, всё же провели в 2023 году и планируем в том же формате в 2024 году, по большей части онлайн. Госполитика в области открытых данных в России давно уже сдувается, а сейчас ещё и сталкивается с военной цензурой и общей "разрухой в головах" , но существует всё ещё сильное русскоязычное сообщество по открытости и только ради него мы это проводим.

Хотелось бы делать больше, но существующая политическая повестка этого не позволяет. Хорошо что получается сохранять то что есть, хотя и с ощущением что в любой момент может возникнуть политическое давление и даже это будет сложно сохранить.

Из России всегда можно поддержать эти проекты на странице Инфокультуры https://www.infoculture.ru/donation/ если от физ лица или напишите мне если хотите сделать это от юридического лица.

Ссылки:
[1] https://clearspending.ru
[2] https://openngo.ru
[3] https://plainrussian.ru
[4] https://hubofdata.ru
[5] https://ruarxive.org
[6] https://opendataday.ru

#opendata #russia #infoculture #opengov
В качестве регулярного напоминания, 6 лет назад мы в Инфокультуре @infoculture сделали множество карт данных, наглядной визуализации того где данные лежат. Это совершенно неформальный термин для простой и наглядной инфографики. Эти карты никуда не исчезли и по прежнему доступны на сайте [1]. При этом, конечно, за 6 лет уже произошли многие изменения, поэтому посмотреть на карты интересно и с точки зрения того как это было 6 лет назад и сравнить с тем что есть сейчас.

А я для полноты картины добавляю оригинальные карты данных которые создавались изначально в виде майндмапов.

Майндмапы удобны не всем, поэтому на сайте Инфокультуры инфографика в виде плакатов.

Ссылки:
[1] https://www.infoculture.ru/2018/12/10/datamaps/

#opendata #infoculture #data #russia #datamaps