Ivan Begtin
7.99K subscribers
1.86K photos
3 videos
101 files
4.56K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В Великобритании, в принципе, много хороших примеров того что нужно и правильно делать в цифровизации госуправления. Они были и остаются одними из лидеров и являются частью Digital 5, наиболее цифровых стран мира.

Помимо открытости стандартов, приведу в пример несколько очень правильных практик:
- Каталог государственных API [1]. Всего около 20 API с описанием, ссылками на доступ и документацию.
- Реестр реестров [2] уже не каталог, а цельная платформа для публикации разного рода реестров создаваемых центральным правительством UK. В России, кстати, есть как минимум 2 хороших примеров аналогичных проектов. Система НСИ Минздрава России [3] и система классификаторов Санкт-Петербурга [4].
- GOV.UK Notify [5] система уведомлений граждан через электронную почту, SMS и обычную почту. Централизованный сервис G2G для всех органов власти. Достаточно лишь зарегистрироваться и пользоваться им через сайт или API. Используется 780 организациями для 3015 сервисов, значительно дешевле чем любые коммерческие сервисы.

Таких примеров ещё множество по разным странам.

Ссылки:
[1] https://alphagov.github.io/api-catalogue/
[2] https://www.registers.service.gov.uk/
[3] https://nsi.rosminzdrav.ru
[4] https://classif.gov.spb.ru/
[5] https://www.notifications.service.gov.uk/

#government #digital
Я ведь говорил что самое самый закрытый регион в части информатизации - это Москва?

Вот наглядный пример.

Есть такая информационная система города АИС "Депозитарий договоров и соглашений ПМ"
Казалось бы, должна быть очень публичной, а по ней вообще никакой публичной информации кроме упоминания в "реестре информационных систем" под номером 100215 и так по списку там ещё много чего.

Другой пример, АИС ЕГФДЭМ Автоматизированная информационная система "Единый городской фонд данных экологического мониторинга. Сбор, анализ и прогноз экологической обстановки в городе Москве и представление экологической информации органам государственной власти и населению. ГИС "Экология города" [1],

Автоматизированная информационная система Мэрии Москвы без публичного контура, всё закрыто авторизацией. Сведений о системе также минимум, в основном из презентаций её разработчика [2].

Откуда можно узнать как она выглядит и то что частично сгружает данные на портал открытых данных Москвы. Существенное отличие того что есть в системе и того что отдаётся на портал - это то что отгружаются ежемесячно среднемесячные показатели, иначе говоря, агрегированные угрублённые данные не позволяющие принимать решения. А в оригинальной системе хранится всё.

Аналогично ещё со множеством других информационно аналитических систем города данные из которых не раскрываются, не публикуются, а те что ранее публиковались на data.mos.ru не обновляются уже долгое время.

Ссылки:
[1] https://ecomonitor.mos.ru
[2] https://russiasmartcity.ru/uploads/attachments/4f3d2319a0033b1abed17dcc3e33f34e.pdf

#opendata #moscow
То во что выродилась контрактная система в России можно увидеть на основе материала в Коммерсанте по выбору единственного исполнителя на систему Безопасный город [1]. Фактическая конкуренция идёт не на рыночном, а на административном уровне, между государственными структурами разных форм собственности и существования.

Фактические тренды в расходах государства на ИТ на уровне федеральных органов власти и администраций субъектов уже много лет такие:
- если можно создать АНО и дать ему субсидию, то так и происходит (остальные работы не подпадают под закон о госслужбе, 44-ФЗ и 223-ФЗ)
- если можно создать ФГАУ/ГАУ (автономное учреждение), то дать ему госзадание и субсидию на его выполнение, а ГАУ далее контрактуется по 223-ФЗ, условия проще, поставщиков можно не раскрывать
- если есть возможность, выбрать подчинённое ГБУ и осуществлять in-sourcing (нанимать сотрудников команды разработчиков внутри органа власти)
- на самом высоком уровне заключать контракты с ед. исполнителем отбираемым постановлением Правительства или Указом Президента

Все причины проистекают из 44-ФЗ, закона о госслужбе и регулирования бюджетных учреждений и органов власти, в первую очередь в части оплаты труда и требований к режимам работы.

Ссылки:
[1] https://www.kommersant.ru/doc/4449344

#government #digital
В качестве напоминания, один из небольших проектов в Инфокультуре, как часть национального цифрового архива [1], я веду реестр всех доменов органов власти в репозитории на Github [2].

Сейчас в репозитории два больших обновления:
1. В папку refined [3] выложена рабочая версия обогащённых и очищенных данных по 7500 доменам в зоне .gov.ru и иным корневым доменам федеральных органов власти.
Это включает следующие сведения:
* feddomains.csv - домены в ведении федеральных органов власти
* organizations.csv - организации управляющие доменами федеральных органов власти
* govsystems.csv - государственные информационные системы к которым домены привязаны
* asn.csv - подсети (ASN) с привязкой к ним доменов
* regions.csv - регионы к которым привязаны домены федеральных органов власти

2. В папку "regional/77" выложен обновлённый список доменов связанных с Правительством Москвы (большая часть это поддомены домена mos.ru), всего 2265 доменов. Эти пока нерассортированная, неверифицированная куча доменов каждый из которых необходимо будет верифицировать в будущем. Большая часть систем города Москвы делается через "прокладку" в лице ДИТ Москвы и точки выхода API, контентных сайтов и т.д. не всегда локализованы в конкретных поддоменах. За полтора года поддоменов домена mos.ru стало значительно больше, весьма, весьма больше.

Я очень давно хотел эту работу проделать чтобы систематизировать стратегию архивацию сведений с официальных сайтов. В последнее время появилось слишком много сайтов внутри которых есть те или иные ограничения из-за которых веб-архивация не работает. Кстати, сам сайт Мэрии Москвы www.mos.ru устроен именно так, значительная часть сведений на страницах отдаются через API и JSON, в результате веб архивация не работает, поиск по документам внешний поиск тоже работает не очень.

Поэтому сейчас каждому веб-сайту в экспортированном списке feddomains.csv указывается стратегия архивации, факт архивации и, в будущем, факты наличия архивов. Следующим, непростым шагом, задача по сопоставлению огромной свалки архивов которая хранится на серверах национального цифрового архива со списком доменов чтобы понять по каким сайтам архивы есть, а по каким нужно срочно запускать процесс архивации.

Обратите внимание что все приведенные выше материалы являются рабочими. Далеко не по всем сайтам определена их региональная привязка, не все информационные системы привязаны и далеко не все метаданные заполнены. Более менее полными можно считать пока сам список доменов, типизацию сайтов, список организаций и ASN.

Если хотите помочь в этом, то пожелания и предложения доменов/сайтов для каталогизации направляйте в репозиторий через механизм issues [5].

P.S.
Вообще лично я надеялся много лет что Минцифра или Минэкономразвития сама рано или поздно сделают нормальный реестр госдоменов, вместо убогого Gosmonitor'а [6], но не дождался и уже много лет делаю сводный реестр самостоятельно в рамках Инфокультуры @infoculture.

Ссылки:
[1] https://ruarxive.org
[2] https://github.com/infoculture/govdomains
[3] https://github.com/infoculture/govdomains/tree/master/refined
[4] https://github.com/infoculture/govdomains/tree/master/regional/77
[5] https://github.com/infoculture/govdomains/issues
[6] https://gosmonitor.ru

#government #govdomains #infoculture
Я стараюсь находить на выходных по 1-2 часа времени для выкладки и актуализации старого кода и реестров.

Около 8 лет назад я занимался построением онтологии госуправления и экономической географии и в RDF/OWL моделировал и то и другое пытаясь сформировать эталонные справочники и правила их наполнения.

Далее эти справочники были нужны для незавершенного проекта по экономическим и социальным показателям/рейтингам по субъектам федерации.

Но других проектов идёт много, регулярно нужны эталонные справочники и такой справочник по субъектам федерации на выходных я раскопал, почистил и выложил сегодня в репозитории кода [1].

Многие из этих данных (не все) можно выковырять из Википедии и DBPedia, но в сведенном варианте их не было.

Справочник включает:
- наименованиях субъектов федерации
- коды субъектов (ОКАТО, КЛАДР, налоговые, автомобильные, коды по ISO 3166, коды по ГОСТ 67 и другие)
- сведения о макрорегионах в которые субъекты федерации входят
- сведения о пограничных регионах
- сведения о пограничных странах, если есть
- сведения о железных дорогах
- сведения о федеральных трассах
- сведения о морских побережьях (омывающих морях)
- сведения о наименованиях и ссылках органов власти субъектов федерации

Кому может пригодится такой справочник? Для каких задач?
1. Строите рейтинг по регионам и хотите сравнить позицию региона среди регионов входящих в тот же экономический район, федеральный округ, военный округ, с регионами с которыми у него общая граница и тд.
2. Ищите корреляции социально-экономического положения и других факторов, часть факторов есть в этих метаданных. Например есть ли у субъекта федерации выход к морю (is landlocked) или тип субъекта федерации (республика, область, город федерального значения) и так далее.
3. Нужно обогащение данных для организации навигации в своём проекте, расширение внутренних справочников и тд.

Наверняка есть другие области применения которые я не знаю.

Дальнейшие планы, в будущем:
1. Реестр должен быть актуализирован, поскольку многие ссылки не обновлялись с 2012 года.
2. Расширение реестра другими метаданными привязанными к субъектам федерации (площадь, численность населения и тд)
3. Постепенный охват крупнейших городов муниципальных образований и всех муниципальных образований в будущем

Если есть идеи и предложения какие ещё факторы/признаки/метаданные необходимы и полезны для работы, например, data scientist'ов, то обязательно напишите, реестр будет развиваться.

И, конечно, поскольку это открытый код/данные на Github то прямо в нем можно корректировать данные и вносить дополнения.

P.S. Я давно подумываю создать открытый репозиторий эталонных реестров и справочников, не только официальных государственных, а деятельностных, отсутствующих, но необходимых в работе.

Ссылки:
[1] https://github.com/infoculture/ruregions

#opendata #data #registries
О культуре работы с данными в госорганах можно поговорить на примере Росреестра. Официальная позиция Росреестра сейчас "пользуйтесь нашим API, всё остальное запрещено". Во вчерашнем их твите про сайты двойники и их опасность [1] недосказанность в том что не было бы этих посредников если бы сервисы Росреестра нормально работали, если бы служба занималась не борьбой с бизнесом, а его легализацией.

Я могу описать 5-6 сценариев того как это можно сделать соблюдая все требования законодательства и это, мягко говоря, не так уж сложно. Просто надо работать, а не писать в твиттере о том какие эти посредники плохие, а Росреестр хороший.

Росреестр - это пример плохих сервисов работы с данными. И, к сожалению, становится только хуже.

Ссылки:
[1] https://twitter.com/rosreestr_info/status/1293210158273835009

#rosreestr #data #business
Новость полезная для всех кто работает с международными данными и сравнением по странам. Всемирный банк изменил классификацию стран по доходам на душу населения, немного повысив критерии отнесения стран к группам.
Так ранее для стран с низким доходом населения (low income) сумма была в USD 1,026 в год, то теперь 1,036. Изменения небольшие, но они есть, полный список их есть в блоге Всемирного банка [1] и там же изменения в классификации стран по доходам в связи с этой корректировкой методологии и экономическим развитием.

Поднялись на категорию выше: Бенин, Индонезия, Маврикий, Науру, Непал, Румыния, Танзания.
Например, Румыния поднялась из upper-middle income до high income (то есть теперь выше России по классификации).

Опустились на одну категорию: Алжир, Шри Ланка, Судан.

В России сведения о ВРП за 2019 год до сих пор недоступны. Соответствующий показатель в системе ЕМИСС [1] охватывает только 1996-2018 годы, соответственно и измерить изменения в классификации регионов тоже затруднительно, хотя и было бы безусловно интересно

Ссылки:
[1] https://blogs.worldbank.org/opendata/new-world-bank-country-classifications-income-level-2020-2021
[2] https://fedstat.ru/indicator/42928

#opendata #data
В Algorithmwatch история о том как в Испании в 2016 году внедрили систему распознавания лиц на крупнейшем автобусном терминале [1].

Крупнейший в Испании автобусный терминал находится на юге Мадрида (Madrid South Station) и через него проходят около 20 миллионов человек, за 2019 год. В 2016 году на нём установили ПО по автоматическому распознаванию лиц, всего на 9 камерах из 100.

Всё это проходило в рамках частно-государственного партнерства и, в отличие от других проектов по распознаванию лиц в Испании, здесь всё работало и во время коронавируса и опасений правозащитников.

Ссылки:
[1] https://algorithmwatch.org/en/story/spain-mendez-alvaro-face-recognition/

#privacy #facerecognition
Не только в России данные и документы исчезают из госсайтов и информационных систем. Например, с сайта Департамента внутренних дел в США исчезли бюджетные корректировки (budget justifications) за 19 лет и остались только за последний год. Об этом пишут у себя в блоге [1] Environmental Data and Governance Initiative (EDGI), команда проекта по сохранению данных о изменении климата и мониторингу доступности государственных данных и проектов по измерению состояния окружающей среды.
Они же сделали об этом подробный доклад [2], разобрав ситуацию во всех подробностях.

Важная особенность общественного контроля именно в США в том что есть частные фонды финансирующую подобную деятельность. Так EDGI получили чуть менее 1 миллиона долларов грантами от Doris Duke Charitable Foundation и The David and Lucile Packard Foundation.

Кстати у команды проекта EDGI вышла весьма полезная научная статья Risk Assessment for Scientific Data [3], о том как прогнозировать риски исчезновения данных необходимых для академических исследований и о том как эти данные сохранять.

Ссылки:
[1] https://envirodatagov.org/financial-transparency-is-dwindling-at-doi/
[2] https://envirodatagov.org/wp-content/uploads/2020/07/AAR-13-DOI-Budgets-20200728.pdf
[3] https://datascience.codata.org/articles/10.5334/dsj-2020-010/

#data #opendata #datarisks
The Algorithmwatch статья [1] о польской системе STIR (System Teleinformatyczny Izby Rozliczeniowej) системе которая автоматически идентифицирует подозрительные транзакции и операции фирм однодневок.

Система работает на основе засекреченного алгоритма и отслеживает все операции с европейским аналогом НДС, VAT. Она идентифицирует случаи операций мошенничества и на основе её мониторинга глава налогового офиса и региональные представители налоговой службы в Польше принимают решения о заморозке счетов компаний от 72 часов до 3 месяцев и без уведомления самих компаний.

В 2018 году так заморозили 41 счет 23 организаций, в 2019 году 537 счет у 113 организаций. Польский Минфин оказался доволен внедренной системой [2], а Евросоюз предполагает внедрение аналогичной системы Central Electronic System of Payment information (CESOP) к 2024 году [3]

Ссылки:
[1] https://algorithmwatch.org/en/story/poland-stir-vat-fraud/
[2] https://podatki.gazetaprawna.pl/artykuly/1451268,stir-zablokowano-rachunek-bankowy.html
[3] https://ec.europa.eu/taxation_customs/taxation/central-electronic-system-payment-information-cesop_en

#data #taxes #eu #poland
Вышла новая версия Jupiter Notebook, под новым названием Jupiter Book [1]
Из новых возможностей:
- переход на язык разметки MyST Markdown [2]
- новая система сборки с поддержкой Jupiter Cache [3], запускающая исполнение notebook'а только при изменении кода
- больше интерактивности
- возможность сборки с командной строки

Jupiter Book - это стандарт де-факто для работы аналитиков и специалистов по data science и изменения в нём важны для всех кто работает с данными на регулярной основе.

UPD. Как меня поправляют читатели, это не новая версия версия Jupiter Notebook, но возможность преобразовывать .ipynb в книжке в виде новой версии инструмента. Что, впрочем, не отменяет его полезность.

Ссылки:
[1] https://blog.jupyter.org/announcing-the-new-jupyter-book-cbf7aa8bc72e
[2] https://myst-parser.readthedocs.io/en/latest/
[3] https://jupyter-cache.readthedocs.io/

#data #datascience #python
Те кто работал когда-либо с многочисленными библиотеками в языке Python знают про то как часто там одними и теми же словами называется разное или разными словами одинаковое и как оно часто несовместимо между собой.

Команда из Quansight Labs [1] сформировала консорциум по унификации API по работе с данными в языке Python [2], при поддержке таких компаний как Intel, Microsoft, Tensorflow, Google Research и других. О том почему это так важно и сколько накопилось отличий между библиотеками numpy, cupy, dask.array, jax, mxnet, pytorch и tensorflow они пишут в блоге этого консорциума [3]

Это хорошая инициатива, с открытым кодом [4] и полезными результатами для сообщества.

Ссылки:
[1] https://labs.quansight.org/
[2] https://data-apis.org
[3] https://data-apis.org/blog/announcing_the_consortium/
[4] https://github.com/data-apis

#python #data
В The Barrons статья Susan Ariel Aaronson о том почему личные данные американцев - это вопрос национальной безопасности [1] и о инициативе Clean Network по защите данных американцев от китайской коммунистической партии [2].

Автор в статье, при этом, как бы даже не намекает, а говорит прямо что указывать компаниям в других странах и юрисдикциях надо после того как навести порядок в самих США с нарушением приватности граждан.

А вот сама инициатива, Clean Network весьма примечательна. Она была анонсирована 5 августа и включает 5 направлений:
- Clean Carrier - не допускать китайские компании к подключению к телекому в США
- Clean Store - не допускать китайские приложения в магазины приложений в США
- Clean Apps - не допускать мобильным устройствам из Китая иметь предустановленные приложения и загружать из из магазинов приложений из других стран
- Clean Cloud - не допускать обработку персональных данных и иных чувствительных данных в китайских облачных сервисах
- Clean Cable - не допускать прослушку морских кабелей китайскими разведчиками.

И без меня достаточно желающих рассказать о том как, на самом деле, в США компании и разведывательные агентства следят за всем миром, так что я воздержусь от этого.

Но обращу внимание что что практика копирования зарубежного регулирования со своими модификациями распространена в России.

Ссылки:
[1] https://www.barrons.com/articles/why-personal-data-is-a-national-security-issue-51597244422
[2] https://www.state.gov/announcing-the-expansion-of-the-clean-network-to-safeguard-americas-assets/

#china #usa #personaldata #privacy
С января 2020 стартовал европейский проект TRUSTS [1] по созданию платформы торговли персональными и проприетарными данными с учётом всех правил и ограничений Евросоюза, включая GDPR. В проекте участвует консорциум из 17 организаций, академических, финансовых, стартапов в области данных, а Евросоюз выделил на него чуть менее 6 миллионов евро на 3 года [2].

Этот проект создан в рамках направления "Supporting the emergence of data markets and the data economy" [3] под которым в Евросоюзе создаются такие проекты как:
- Kraken Brokerage [4] платформа по защите персональных данных в облачных средах
- PIMCITY [5] повышение контроля пользователей за их данными собираемыми веб-сайтами
и многие другие проекты.

По моему опыту наблюдения за проектами в рамках Европейской исследовательской программы Horizon 2020 они редко превращаются в практические системы/стартапы/продукты, но очень часто прямо или косвенно влияют на выработку госполитики и регулирование в Евросоюзе.

Ссылки:
[1] https://www.trusts-data.eu/
[2] https://cordis.europa.eu/project/id/871481
[3] https://cordis.europa.eu/programme/id/H2020_ICT-13-2018-2019
[4] https://cordis.europa.eu/project/id/871473
[5] https://cordis.europa.eu/project/id/871370

#privacy #personaldata #eu
Microsoft Flight Simulator [1] - авиасимулятор нового поколения, вышедший 18 августа этого года, вот это действительно большой и самый что ни на есть показательный пример применения открытых данных и технологий работы большими (очень большими) данными. Авиасимулятор работает на основе 2.5 петабайта данных, хранимых в облаке Azure и созданных на основе данных OpenStreetMap и Bing Maps, а также огромного объёма машинного обучения и определения цвета и типа крыш, типа зданий и тд. и тп.

В обзоре от Protocol [2] описывается как серьёзный шаг вперед о сравнению с современной облачной гейминдустрией.

Но не обошлось без казусов, поскольку используются краудосинговые данные которые не всегда хорошо проверены, иногда опечатка может приводить к странным результатам, как, например, гигантский обелиск у Мельбурна [3].

Авиасимулятор, ожидаемо, невероятно требователен к дисковому пространству, его необходимо не менее 150 гигабайт, к каналу связи, оперативной памяти и процессору.

Ссылки:
[1] https://en.wikipedia.org/wiki/Microsoft_Flight_Simulator_(2020_video_game)
[2] https://www.protocol.com/microsoft-flight-simulator-2020
[3] https://www.theverge.com/2020/8/21/21395084/microsoft-flight-simulator-melbourne-obelish-openstreetmap-bing-maps-data-glitch

#opendata #gaming
Курс по дата-этике [1] от Jeremy Howard, создателя Kaggle - это бесплатный академический онлайн курс из 6 уроков:

1. Disinformation
2. Bias & Fairness
3. Ethical Foundations & Practical Tools
4. Privacy & surveillance
5. Our Ecosystem: Metrics, Venture Capital, & Losing the Forest for the Trees
6. Algorithmic Colonialism, and Next Steps

Ранее автор его лично читал в Университете Сан-Франциско в Data Institute в январе-феврале 2020 года [2] , а сейчас курс доступен всем желающим.

А я напомню и про другой курс, того же автора Practical Deep Learning for Coders [3] который связан с книгой Deep Learning for Coders with fastai and PyTorch: AI Applications Without a PhD [4] вышедшей 4 августа 2020 года.

Если Вы хотите разобраться в этике работы с данными при машинном обучении, то сейчас эти курсы, особенно первый, лучшее с чего можно начать

Ссылки:
[1] https://ethics.fast.ai/
[2] https://www.usfca.edu/data-institute
[3] https://course.fast.ai/
[4] https://www.amazon.com/Deep-Learning-Coders-fastai-PyTorch/dp/1492045527

#ai #deeplearning #dataethics
За время коронавируса появляются новые отраслевые озёра данных (data lakes) для исследователей, многие с коммерческим уклоном. Например, CVID data lake [1] в рамках продукта Cortelis Research Intelligence от Clarivate [2] аналитического агентства с широким спектром продуктов для исследователей. Они анонсировали это облако, буквально, 5 дней назад, 20 августа [3] и, пока, без подробностей того что находится внутри него.

Существует и другое, бесплатное озеро данных, C3.ai COVID-19 Data Lake [4] от C3.ai соответственно. Подробностей чуть больше, есть демо и описание доступа к озеру через REST API с примерами в Jupiter Notebook и других научных записных книжках. О них была заметка в Forbes [5] ещё в мае 2020 года.

Чуть более простое и, также, бесплатное озеро данных по COVID-19 есть в Amazon AWS [6], включая базы данных и наборы данных особенно большого размера. Например, CORD19 [7], база исследований по коронавирусу для которой на базе AWS существует, в том числе, поисковик cord19.aws [8]

Несколько меньшее по объёму озеро данных есть и в облаке Microsoft Azure [9].

Озера данных это не единственный способ работы исследователей с данными связанными с коронавирусом. Офис стратегии по науке работы с данными при National Institutes of Health в США ведет реестр открытых (open access) ресурсов для исследователей [10] работающих с данных.

В целом складывается ощущение что формирование озер данных в отраслевом применении становится трендом и, в зависимости от выбранной стратегии, здесь большую роль могут сыграть крупнейшие игроки облачных сервисов. Фактически, постепенное развитие Azure Open Datasets, Google BigQuery и Open Data on AWS и показывает что большие общедоступные наборы данных - это хорошая приманка для пользователей облачных сервисов. Некоторые наборы и базы данных давно существуют, только, в облаках. Например, база поискового индекса Commoncrawl существует по умолчанию на Amazon AWS [11]

Для этого у Amazon есть Open Data Sponsorship program [12], у Microsoft есть Open Data Initiative [13], у Google нет отдельной программы, но есть рассказ о том как они работают над открытостью кода и данных [14]

Подводя итог, очень похоже что озера данных для исследователей окажутся устойчивым продуктом и далее будут существовать в двух формах. Профессиональной - закрытые озера данных для профессионалов, с большим числом узкоспециализированных инструментов и общедоступной форме где данные предоставляются крупнейшими игроками облачных решений в рамках их инициатив по открытым данным.

Ссылки:
[1] https://clarivate.com/cortellis/solutions/cvid-data-lake/
[2] https://en.wikipedia.org/wiki/Clarivate
[3] https://finance.yahoo.com/news/clarivate-launches-coronavirus-virology-infectious-140300688.html
[4] https://c3.ai/products/c3-ai-covid-19-data-lake/
[5] https://www.forbes.com/sites/adrianbridgwater/2020/05/27/tom-siebels-c3ai-charts-new-data-lake-for-covid-19-research/
[6] https://aws.amazon.com/ru/covid-19-data-lake/
[7] https://www.semanticscholar.org/cord19
[8] https://cord19.aws
[9] https://azure.microsoft.com/ru-ru/services/open-datasets/catalog/covid-19-data-lake/
[10] https://datascience.nih.gov/covid-19-open-access-resources
[11] https://registry.opendata.aws/commoncrawl/
[12] https://aws.amazon.com/ru/opendata/open-data-sponsorship-program/
[13] https://www.microsoft.com/en-us/open-data-initiative
[14] https://www.blog.google/technology/research/open-source-and-open-data/

#datalakes #data #opendata #covid19 #research
Правительство утвердило Концепцию регулирования технологий ИИ и робототехники, новость на сайте Минэкономразвития [1] и в Российской газете [2] почему-то не содержит ссылки на текст самого актуального документа этой концепции. И тут я не могу не напомнить про одну большую проблему с сайтом федерального правительства и доступности информации на нём. Документы там публикуются с задержкой в месяц, если сейчас (25 августа) открыть сайт в разделе поиска по документам [3] то там будут документы начиная с 25 июля 2020 года. Некоторые, избранные, документы публикуются чуть актуальнее, за 22 августа [4].

Для сравнения, материалы на официальном интернет-портале правовой информации (publication.pravo.gov.ru) публикуются с задержкой около 3-6 дней с момента подписания [5]. Конечно, надо делать коррекцию на выходные и праздничные дни, но, в общем и в целом, что-то не так с публикацией документов на сайте федерального правительства.

Отходя ещё дальше от концепции и взглянув на номера публикуемых документов мы можем увидеть что на 21 августа было принято 1262 Постановление Правительства (ПП) и 2141 Распоряжение Правительства (РП). В прошлом году всего было принято 1960 ППсок и 3273 РПсок.

Для сравнения, последний номер Указа Президента (УП) на 21 августа был номер 520, в прошлом году их было 604 за весь 2019 год. Кстати на сайте Президента (kremlin.ru) также задержка с публикацией документов в 1.5 месяца (45 дней) [6]

А вот федеральных законов (ФЗ) у нас уже 309 на 31 июля 2020 года, в прошлом году было всего 444, а на 30 июля их было всего 256 [7].

Подвожу итоги:
- количество принятия постановлений и распоряжений правительства, указов Президента и фед. законов выросло за 2020 год несмотря на коронавирус;
- мои оценочные прогнозы к концу года: 4000 РП, 2500 ПП, 800 УП и 600 ФЗ
- оперативность публикации документов на сайтах Правительства и Президента РФ значительно снизилась
- качество написанных документов лучше оценят специалисты

P.S. Статистику нормативной деятельности я веду в небольшом проекте lawstats на data.world где есть и цифры и визуализации по принятым НПА с 1994 по 2019 годы, а также списки самих НПА и статистика по ним.

Ссылки:
[1] https://economy.gov.ru/material/news/pravitelstvo_utverdilo_koncepciyu_regulirovaniya_tehnologiy_ii_i_robototehniki.html
[2] https://rg.ru/2020/08/24/utverzhdena-koncepciia-pravovogo-regulirovaniia-iskusstvennogo-intellekta.html
[3] https://government.ru/docs/all/
[4] https://government.ru/docs/
[5] https://publication.pravo.gov.ru/Search/Period?type=weekly
[6] https://kremlin.ru/acts/bank
[7] https://publication.pravo.gov.ru/Document/View/0001201907300064
[8] https://data.world/infoculture/lawstats

#laws #lawstats #ai
А вот и новости госзакупок связанных с данными в нашей столице. ООО "Центр налоговой политики" [1], директором и единственным бенефициаром которого является, Кирилл Никитин, руководитель российской практики PwC по оказанию услуг государственным органам и компаниям государственного сектора и кандидат в Мосгордуму (остальное желающие сами могут найти в сети), 19 августа выиграло контракт на 100 миллионов рублей [1] у ГБУ города Москвы "Аналитический центр".

Тема контракта весьма интересна: выполнение научно-исследовательской работы по теме «Разработка методологии и реализация комплекса мероприятий по оперативному индикативному мониторингу и прогнозированию состояния отраслей экономики города Москвы».

Фактически он про НИР про работу с данными о состоянии экономики Москвы, про анализ источников, систематизацию и тд.

На что стоит обратить внимание так это на то как этот контракт устроен поэтапно:
- этап 1: даты 20.08.2020 - 18.09.2020 -> ~50 млн. рублей
- этап 2: даты 19.09.2020 - 17.12.2020 -> ~30 млн. руб
- этап 3: даты 18.12.2020 - 30.06.2021 -> ~20 млн рублей

Если считать в такой "смешной" единице измерений как миллионо-день то получится:
- этап 1: 50 млн. руб / 29 дней = 1,72 млн. руб в день
- этап 2: 30 млн. руб / 89 дней = 0,337 млн. руб в день
- этап 3: 20 млн. руб / 194 дней = 0,103 млн. руб в день

А теперь самое интересное, задачи первого этапа из ТЗ контракта (барабанная дробь):
1. Разработка плана мероприятий по организации индикативного мониторинга и прогнозирования состояния экономики города Москвы
2. Разработка плана мероприятий по разработке требований к автоматизированной системе мониторинга и отраслевых мер налоговой и бюджетной политики, способствующих экономическому росту в ключевых отраслях экономики города Москвы

Стоит ли это 50 миллионов рублей за 29 дней? Серьёзно? Два плана мероприятий за месяц и 50 миллионов? Интересно, какая там "маржа" заложена к себестоимости, 1000% ?


Ссылки:
[1] https://www.tax-policy.ru/
[2] https://zakupki.gov.ru/epz/contract/contractCard/document-info.html?reestrNumber=2770483583420000012

#data #spending #moscowgovernment #moscow
Forwarded from Госзатраты
[1] Научные исследования: cамые дорогие контракты за прошедшую неделю 16.08.2020-23.08.2020:
Услуги, связанные с научными исследованиями и экспериментальными разработками в области прочих общественных наук и др.
Сумма контракта: 100 млн. руб.
Наименование заказчика: ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ ГОРОДА МОСКВЫ "АНАЛИТИЧЕСКИЙ ЦЕНТР"
Поставщик: ООО "Центр налоговой политики"
Регион: Москва
Дата заключения: 19.08.2020

Подробнее о контракте
#научные_исследования
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Реестр субсидий на портале Электронного бюджета отображается в обновленном формате. Теперь в нем отсутствуют сведения о ГРБС (надеемся, это техническая ошибка, а не сокрытие данных, как в случае с поставщиками по 223-ФЗ). 🙂

Оперативно выявлять ошибки в открытых данных Минфина России и Казначейства России нам позволяет работа над проектами «Госрасходы» и «Госзатраты». Команды проектов не только собирают, преобразуют и структурируют данные, но и используют их (что редко встречается в госорганах).

Надеемся, указанные проблемы API и веб-интерфейса реестра субсидий будут быстро исправлены.