Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Минфин России убрал из открытого доступа реестр субсидий.

С 2015 года реестр субсидий из федерального бюджета публиковался на портале Электронного бюджета (budget.gov.ru), а с середины 2020 года в него были добавлены долгожданные и востребованные данные о региональных субсидиях.

Неприятно совпало, что мы как раз начали обновление раздела «Субсидии» на сайте проекта «Госзатраты». Доработки связаны с тем, что структуры данных реестра сильно изменились, и размер описания одной субсидии теперь занимает до 10МБ в виде JSON объекта. Мы были завязаны на данные и API Минфина, но мы работаем над тем, чтобы оперативно исправить ситуацию.
Для тех кто только подписался на мой канал опишу о чём он, чтобы не было неверных ожиданий.
Я пишу здесь много про работу с данными, архитектуру ПО по работе с данными, этику работы с данными и искусственного интеллекта, открытые данные, открытость государства и тд. Сиюминутных актуальных и острых тем тут немного, не считая вопросов связанных с доступностью данных и тех случаев когда государство (или корпорации) нарушают права граждан.

Мой основной канал здесь: https://t.iss.one/begtin
Чат к каналу: https://t.iss.one/begtinchat
Тексты в большом формате в еженедельной рассылке https://begtin.substack.com
Блог: https://begtin.tech

#data #opendata
В Коммерсанте вышла статья [1] "Фабрика-цифра"
Там есть и мой краткий комментарий, но на самом деле он был не краткий и я написал много тезисов, но журналисты сократили их и значительно.

Вот что я думаю про это:
1. На многие данные и механизмы взаимодействия с гражданами у государства есть безусловная монополия. Например, это данные о юридических лиц, или данные цифрового профиля гражданина или данные о платежах граждан в бюджет (ГИС ГМП) и ещё много другого. Бизнес ищет возможности как доступа к данным, так и возможности интеграции с сервисами государства для расширения возможностей их продуктов. Например, банки хотят оказывать госуслуги, а многие хотят пользоваться авторизацией в ЕСИА (Госуслуги) и так далее

2. Проблем довольно много и не последняя из них в отсутствии чётко сформулированной, последовательной и подкрепленной реальными полномочиями и инструментами их применения государственной политики в области данных. Единственная более-менее крупная инициатива в этой области о которой можно упомянуть - это НСУД (Национальная система управления данными) которая из большой регуляторной инициативы выродилась в модель для точечного применения корпоративных принципов управления данных к ограниченному число систем, относительно контролируемых правительством. При этом в остальном в России остаётся ситуация которую в западной прессе называют digital mandarins (цифровые "мандарины"), а в русской традиции правильнее называть "цифровыми царьками". Большинство органов власти существуют в своих полу-замкнутых отраслевых колодцев, а Минцифры было и остаётся лишь одним из органов власти с весьма куцыми полномочиями. В итоге в регуляторике очень много ограничений, у нас реально десятки "тайн" такие как: гостайна, служебная тайна, тайна следствия, адвокатская тайна, врачебная тайна, налоговая тайна, персональные данные и ещё много всего что ограничивает раскрытие и/или передачу данных из ГИС третьим лицам.

3. Я бы сказал что очень многое зависит от этих возможностей и проработанности предложений Ассоциации больших данных. Не видя их текста трудно сейчас сказать насколько они проходимы, но я как руководитель другой ассоциации АУРД, состоящей из игроков среднего и малого бизнеса считаю что здесь важно чтобы реакция государства учитывала что в стране существуют не только монополисты крупный цифровой бизнес, но и развитый средний и малый бизнес также желающий работать с ГИС и с данными государства.

И, конечно, больше открытых данных нужно всем.

Ссылки:
[1] https://www.kommersant.ru/doc/4539873

#data #opendata
Рабочие группы должны умирать (с)
В который раз я не могу не обратить внимание на такое свойство любой бюрократии как разрастание и такое свойство консультативных-обсуждательных органов как плодить свои подобия в их бесконечном видо- и многообразии.

Из последнего - это предложения в одной большой около[полу]государственной рабочей группе создать экспертные группы по направлениям. При том что у самой рабочей группы консультативно экспертный статус, при том что она де-факто смесь экспертов/внешних лоббистов/внутренних лоббистов и, в принципе, не то чтобы многозначащая структура в логике принятия решений (но и не настолько мало чтобы игнорировать).

Но и в ней активность выражают не более 10-15% участников, даже активность пассивную на уровне проголосовать за что бы то ни было, а не говоря уже об активной позиции.
Таким же образом устроено бесконечное число экспертных советов, общественных советов, рабочих групп, экспертных групп, подгрупп, подкомиссий, комиссий, комитетов, консультативных советов, подсоветов, секций и так далее.

Их просто _безумное_ количество. И у них вполне понятная природа:
1) Окологосударственный статус участникам этих бюрократических подструктур
2) Сужение списка вовлеченных в обсуждение
3) Попытка избежать бюрократии верхнеуровневой структуры и, иногда, избежать согласований с ней с сохранением её бренда
и ещё много чего, знающие люди меня дополнят.
Я когда-нибудь созрею до большого текста по этой теме, а пока сформулирую несколько очень коротких тезисов, для простоты я буду называть все эти структуры "рабочими группами", хотя реально их видов с пару десятков:
1. Рабочие группы должны иметь цель и задачи. Эти цель и задачи должны быть чётко сформулированы и определены.
2. Рабочие группы должны иметь регламент. Этот регламент должен быть типовым/унифицированным, с каким-то разными правилами в зависимости от культуры и привычек работы, но в остальном вполне определенным.
3. Рабочие группы должны иметь осмысливаемые и ощутимые результаты. Они должны быть описаны как понимаемые output или outcomes. Например, рабочая группа по подготовке доклада о перспективных планах развития яйценоскости утконосов в условиях Крайнего севера до 2089 года" - вполне понятный результат в итоге.
4. Рабочие группы должны умирать. Любые консультативные бюрократические структуры должны иметь график, регламент, правила, результаты и, самое главное, дату смерти. Дата после которой рабочая группа расформируется и формируется снова только если такое решение принимает вышестоящая структура. Обратите внимание, решение не о ликвидации, а о продлении. Если решение не принимается, группа автоматически перестаёт существовать.

Но как-нибудь я напишу об этом в подробнее.

#workinggroups #collective
Я регулярно пишу и выступаю о рынке "пробива информации" в России и неспособности силовых органов что-либо с этим поделать. А вот прилетают и последствия. Юра Синодов в FB пишет [1] про очередное расследование Bellingcat на основе данных по биллингу. А на сайте самих Bellingcat (его легко найти) в избытке информации собранной через пробив людей, их автомобилей и тд.

Даже не знаю что тут сказать. Многократный фэйспалм

Ссылки:
[1] https://www.facebook.com/sinodov/posts/10160272266922785

#data #darkmarket
На днях Сбербанк в лице Sberbank.AI выложили в открытый доступ языковую модель GPT-3 Large с 760 миллионами параметров о чём написали на Хабре [1], опубликовали открытый репозиторий кода [2] и примеры [3] как я понимаю всё это в контексте международного соревнования AI Journey [4]

Если рассматривать Сбербанк как продолжение государства, то всё это можно рассматривать, и как открытость кода, и как открытость данных создаваемых государством (хотя и не органами власти).

Ссылки:
[1] https://habr.com/ru/company/sberbank/blog/524522/
[2] https://github.com/sberbank-ai/ru-gpts
[3] https://github.com/sberbank-ai/ruGPT3_demos
[4] https://ai-journey.ru/

#data #ai #opendata #opensource
Очередная еженедельная рассылка. На этот раз тема #5. Экономика открытых данных и коммерческие проекты на их основе. [1]

1. Один из ключевых вызовов перед всеми движениями за открытость - это их экономическая обоснованность. При том что этих движений много: open knowledge, open source, open data, open hardware, в итоге оказывается что устойчивая экономически обоснованная модель существования пока существует только вокруг открытого кода (open source).
...

Ссылки:
[1] https://begtin.substack.com/p/5-

#opendata #data #economy
Digital Minilateralism: How governments cooperate on digital governance [1] публикация Института Беннета при Кэмбриджском университете о том как сейчас происходят многосторонние коммуникации/партерства (minilateralism) стран в цифровую эпоху. С полезным обзором того что такое D5, D7, D9 (Цифровая пятерка, семерка, девятка) и ещё многие другие межстрановые инициативы.

Документ короткий, читается легко, на некоторые мысли о дальнейшем развитии цифровизации в мире наводит.

Ссылки:
[1] https://www.bennettinstitute.cam.ac.uk/media/uploads/files/Digital_minilateralism_Digital.pdf

#digital #government
Банк России совместно с Ассоциацией ФинТех разработал стандарты открытых банковских интерфейсов (открытых API). О чём можно узнать из их пресс-релиза [1] и прочитать подробнее [2] в разделе правовых актов [2] в виде 4-х PDF документов объёмом чуть менее 300 страниц.

С одной стороны радует что Банк России разрабатывает и публикует стандарты которые, можно надеяться, рано или поздно будут применяться банками.

С другой стороны, всё таки Банк России не орган власти и не закован в кандалы ГОСТов по публикации документации. Открытые стандарты для API можно вполне публиковать в более наглядном виде как это делают монетарные власти других стран. Гонконга [3], например или общественного проекта в Великобритании [4] и не говоря уже о многочисленных сайтах для разработчиков создаваемых самими банками.

Всем этим я хочу сказать что если Банк России был бы, что ли, более вогонечным человечным, то никто его за это не осудил.

P.S. Отдельная тема - это UML графики в стандартах, об этом обсуждения комментариях к публикации у Максима Смирнова [5]

Ссылки:
[1] https://www.cbr.ru/press/event/?id=8223
[2] https://www.cbr.ru/fintech/acts/?la.search=&la.tagid=3&la.vidid=26&la.date.time=any&la.date.datefrom=&la.date.dateto=
[3] https://www.hkma.gov.hk/eng/key-functions/international-financial-centre/fintech/open-application-programming-interface-api-for-the-banking-sector/
[4] https://www.openbanking.org.uk/
[5] https://t.iss.one/it_arch/938

#banking #cbr #api
В New York Times большая статья "Does Palantir See Too Much?" про Palantir [1], ту самую "мистическую" компанию создающие инструменты анализа данных которыми пользуются спецслужбы в США и в других странах. Статья большая, подробная, и весьма неплохо написанная.

Специально не буду приводить всех фактов и выводов, но почитать её будет полезно всем кто ими интересуются.

Ссылки:
[1] https://www.nytimes.com/interactive/2020/10/21/magazine/palantir-alex-karp.html

#data #intelligence #palantir
Для тех кто любит работать с данными, использует Jupyter Notebook и библиотеку для работы с данными Pandas, будет интересно посмотреть на PandasGUI [1] интерактивный инструмент для работы с Pandas DataFrame. Весьма полезный для задач проверки данных. Демо пример его работы можно посмотреть на видео [2]

Ссылки:
[1] https://github.com/adamerose/pandasgui
[2] https://www.youtube.com/watch?v=NKXdolMxW2Y

#data #pandas
Для тех кто читает и изучает ежегодно Gartner Hype Cycle появилась наглядная видеоинфографика изменений в технологических прогнозах за 25 лет [1], а также автор выложил данные на основе которых это видео создавалось [2].

25 лет хайпа, с выявлением технологий упомянутых единожды, категорий технологий и многое другое. Автор Mark Mine весьма дотошно подошёл к тому чтобы показать изменения более чем наглядно. На его данных Amelia Wattenberger также сделала интерактивную визуализацию [3] уже без видео, но в виде графика.

Ссылки:
[1] https://vimeo.com/464835556
[2] https://drive.google.com/file/d/1y_fzgknqRdPa0KfXiGq44blGqDN3NYv3/view
[3] https://wattenberger.com/hype-cycle

#visual #gartner #hype
В США полным ходом идёт не только подготовка в выборам Президента, но и моделирование их исхода. Свои модели выпустили 538 [1] и Economist [2], в том числе делая акцент на возможных сценариях развития и корреляциям между голосованием по отдельным штатам.

И там и там модели основаны на результатах опросов, а прогнозно обе модели показывают что:
- Байден станет президентом
- скорее всего контроль над сенатом будет у демократов
- совершенно точно контроль над палатой представителей будет у демократов

Впрочем политические прогнозы хотя и интересны, интересно развитие моделей предсказаний и их результатов.

Ссылки:
[1] https://projects.fivethirtyeight.com/2020-election-forecast/
[2] https://projects.economist.com/us-2020-forecast/president

#elections #data
Может ли искусственный интеллект заменить архитекторов и урбанистов или хотя бы помочь им в проектировании городов? Продукт Delve [1] от SideWalkLabs - это сервис для автоматического моделирования жилых кварталов по заданным параметрам с подбором наиболее оптимального варианта зависящего от этих параметров и территории. Всё это, конечно же, в облаке, с искусственным интеллектом (умными алгоритмами) и перебором множества вариантов.

В параметрах учитываются: плотность, комфортабельность, доступность дневного света, пешая доступность общественного транспорта, удобство прогулок

Ссылки:
[1] https://hello.delve.sidewalklabs.com/

#urban #ai
Вышел доклад Automating Society Report 2020 [1] от AlgorithmWatch, в докладе обзор автоматизации в понимании алгоритмических систем в таких странах Европы как: Бельгия, Дания, Эстония, Финляндия, Франция, Германия, Греция, Италия, Голландия, Польша, Португалия, Словения, Испания, Швеция, Швейцария и Великобритания. В целом это более половины Европейского союза.

Доклад отражает картину жизни граждан в среде где есть системы автоматического принятия решений (ADM systems).

В докладе много примеров применения ADM систем, многие были мне неизвестны. Например "Gladsaxe-model" в Дании, это система баллов оценки 'уязвимости ребенка' на основе таких параметров как: плохое душевное здоровье родителя (3000 баллов), отсутствие работы у родителя (500 баллов), пропущенное посещение доктора (500 баллов) и так далее. Работу системы сейчас приостановили, но исследования продолжились.
Также там ещё очень много примеров.

Ссылки:
[1] https://automatingsociety.algorithmwatch.org/

#algorithms
В мире всё больше проектов мониторинга государственных мер в ситуации с COVID-19. Некоторые из них государственные и многие общественные.

Вот некоторые из них:
- Citizen Budget Tracker [1] проект группы волонтеров на Филлипинах
- COVID-19 Africa Public Finance Response Monitor [2] мониторинг того как реагируют министры финансов африканских стран [3]
- Сведения о бюджетных расходах на борьбу с COVID-19 публикуют власти Бразилии на портале прозрачности [4]
- В Аргентине правительство публикует сведения о мерах на портале открытых данных [5]
- В Мексике финансовые данные о реакции на COVID-19 публикуются на портале Padrón de Beneficiarios (PUB) [6]
- На Украине мониторингом занимаются Transparency Int. Ukraine через проект DoZorro [7]

Необходим ли мониторинг расходов на COVID-19 в России? Есть ли хоть одна инициатива в этой области?

Ссылки:
[1] https://www.covidbudget.ph/
[2] https://www.cabri-sbo.org/en/blog/2020/covid-19-africa-public-finance-response-monitor-how-african-governments-particularly-ministries-of-finance-are-tackling-covid-19
[3] https://www.cabri-sbo.org/en/pages/covid-19-public-finance-monitor
[4] https://www.portaltransparencia.gov.br/programas-e-acoes/acao/21C0-enfrentamento-da-emergencia-de-saude-publica-de-importancia-internacional-decorrente-do-coronavirus
[5] https://www.buenosaires.gob.ar/coronavirus/medidas-de-gobierno
[6] https://pub.bienestar.gob.mx/#:~:text=El%20Padr%C3%B3n%20%C3%9Anico%20de%20Beneficiarios,de%20Geoestad%C3%ADstica%20y%20Padrones%20de
[7] https://dozorro.org/

#budgets #spending #covid19
Необходим ли общедоступный мониторинг, реестр проектов, бюджетов и контрактов и открытые данные по всем расходам и государственным инициативам вокруг COVID-19?
anonymous poll

Да, нужен как независимый общественный проект – 91
👍👍👍👍👍👍👍 55%

Да, нужен от Счетной палаты – 64
👍👍👍👍👍 39%

Да, нужен, но только чтобы от Прокуратуры (и с открытыми данными по посадкам) – 7
👍 4%

Да, нужен от Правительства РФ – 3
▫️ 2%

Нет необходимости, имеющейся информации достаточно – 1
▫️ 1%

👥 166 people voted so far.
Дайджест новостей по открытым данным:
- Microsoft вместе с ODI запускают инициативу по Data Collaboration https://blogs.microsoft.com/on-the-issues/2020/10/22/peer-learning-network-for-data-collaborations/
- в Австралии началась вторая фаза сбора предложений для третьего национального плана по открытости https://ogpau.pmc.gov.au/consultations/phase-2c-final-consultation-draft-commitments
- в блоге проекта Qri о том как архивировать данные из Airtable https://medium.com/qri-io/archiving-your-airtable-data-with-qri-12dbda8783c3
- научная статья о барьерах в обмене данными о гидрометеорологии в Европе https://www.sciencedirect.com/science/article/abs/pii/S0022169410001496
- обзор инструментов для обзора Земли, какие инструменты мониторинга Земли лучше использовать https://towardsdatascience.com/the-best-earth-observation-data-science-toolkits-a51d867343a0
- Aura Network, совместная исследовательская инициатива Великобритании и Ирландии по исследованию применения искусственного интеллекта к архивам рожденных-в-цифре документов https://www.aura-network.net/

#opendata
Сегодня было большое онлайн мероприятие по простоте и понятности законов «О языке законов, их понятности и сложности» с презентациями и выступлениями коллег из нескольких университетов и, в том числе, моим выступлением.

Если была запись, я потом выложу на него ссылку. А пока небольшая презентация про то как простота НПА устроена в мире и в России и о нашем проекте Простой русский язык

Ссылки:
[1] https://www.beautiful.ai/player/-MKtlUfFd3FAkgQyXZca
[2] https://plainrussian.ru

#plainrussian
Сегодня у меня день мероприятий и второе мероприятие на котором я выступал - это всероссийская конференция «Информация и коммуникация в цифровую эпоху: явные и неявные воздействия» [1]

С темой "Цифровая слежка во время COVID-19. На время или навсегда" [2]. Презентации обычно у меня короткие, многое я говорю только с голоса, но думаю что надо будет записать вебинар на эту тему и саму тему расширить набором действий.

Ссылки:
[1] https://ifapcom.ru/news/1696/?returnto=0&n=1
[2] https://www.beautiful.ai/player/-MKuzvlv7fdrA06kDs97

#privacy #covid19