Ivan Begtin
8K subscribers
1.89K photos
3 videos
101 files
4.6K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В рубрике как это работает у них проект Nueva Economía de la Lengua [1], Новая языковая экономика в Испании.

В его основе инвестиции в размере 1.1 миллиарда евро в изучение испанского языка из которых:
- 475 миллионов евро идёт на создание цифровой платформы изучение языка и оцифровку материалов Института Сервантеса
- 330 миллионов евро идёт на создание языковых моделей для работы искусственного интеллекта.

Эти модели уже активно создаются. Из последних можно привести в пример ESCORPUS [2] языковая модель высокого качества на 50 миллионов слов, а также исходный код и многочисленные другие модели языков и публикации научные и популярные [3] создаваемые в суперкомпьютерном центре в Барселоне.

Обо всём этом, проектах и результатах, на сайте Министерства экономики Испании [4], результатов там немало.

Всё это делает испанский язык наиболее вероятным языком после английского языка по появлению новых продуктов на базе языковых моделей. Может быть ещё китайский язык составляет конкуренцию, разве что.

С точки зрения работы с данными можно рассматривать этот план как создание огромных качественных открытых наборов данных с чётко сформулированными целями в рамках долгосрочной государственной политики.

Испанский язык один из наиболее распространённых в мире и его распространение явно продолжится.

А есть ли на постсоветском пространстве похожие инициативы? Есть ли государственные инвестиции и открытые модели для русского, казахского, армянского, узбекского и других языков? Можно ли сохранять свои языки популярными и востребованными не вкладываясь в технологии их применения?

Ссылки:
[1] https://planderecuperacion.gob.es/como-acceder-a-los-fondos/pertes/perte-nueva-economia-de-la-lengua
[2] https://huggingface.co/datasets/LHF/escorpius
[3] https://github.com/PlanTL-GOB-ES
[4] https://plantl.mineco.gob.es/Paginas/index.aspx

#opendata #datasets #spain #languages #government #policy #eu
Полезное чтение про данные, технологии и не только:

Данные
- State of gender data [1] есть такая большая тема - учет гендерных особенностей в системах регистрации статистики, учетных системах или, как упоминают авторы, "data systems". Текст о том что учет гендерных данных недостаточен.
- One Data Point Can Beat Big Data [2] о том что не всё решается большими данными и понимание данных и тщательная их фильтрация, избавление от шума, могут дать больше чем просто расширение источников и объёмов данных
- Making Government Data Publicly Available: Guidance for Agencies on Releasing Data Responsibly [3] руководство о том почему и как публиковать открытые данные от Center for Democracy and Technology. Адресовано органам власти (агентствам) в США, но актуально для всех
- Closing the Data Divide for a More Equitable U.S. Digital Economy [4] о неравенстве в доступе к данным и что с этим делать на примере экономики США. В основном рекомендации для регуляторов. Акценты на том что есть многие сообщества (в нашем понимании муниципалитеты) качество данных по которым невелико и они выпадают из многих госпрограмм поддержки. Тема важная, подход системный, но, конечно, инфраструктура и экономика США от других стран существенно отличаются.

ИИ и умные города
- Why Japan is building smart cities from scratch [5] о том почему в Японии создают умные города с нуля. На самом деле в статье именно на этот вопрос ответа нет, есть рассказ про несколько городов в Японии построенных с нуля. Это интересно, хотя я подозреваю что в Китае в в этом направлении даже больший прогресс.

Технологии и программирование
- Building modern Python API backends in 2022 [6] о структуре и архитектуре современных бэкэндов приложений на Python. Конечно, на самом деле, альтернатив куда больше, но прикладной стек расписан хорошо.
- Ruff [7] очень быстрый проверятель (linter) исходного кода для Python, написанный на Rust. Показывают производительность выше в 10-100 раз чем другие аналогичные инструменты вроде flake8, pylint и т.д.

P.S. Я подумываю выделить рубрику чтение (#readings) в какой-то отдельный формат, например, еженедельную рассылку, в отличие от моей личной рассылки которую я веду не регулярно или же скорректировать личную рассылку (begtin.substack.com) и добавить туда еженедельной регулярности.

Ссылки:
[1] https://data2x.org/state-of-gender-data/
[2] https://behavioralscientist.org/gigerenzer-one-data-point-can-beat-big-data/
[3] https://cdt.org/insights/making-government-data-publicly-available-guidance-for-agencies-on-releasing-data-responsibly/
[4] https://datainnovation.org/2022/08/closing-the-data-divide-for-a-more-equitable-u-s-digital-economy/
[5] https://www.nature.com/articles/d41586-022-02218-5
[6] https://backfill.dev/blog/2022-08-21-modern-python-backends/
[7] https://github.com/charliermarsh/ruff

#opendata #data #government #policy #tech #programming #readings
Тем временем в Германии Министерство внутренних дел и общества и другие организации создают Институт данных, Dateninstitut [1] для повышения доступности данных для бизнеса и общества. Ещё в начале года на его создание было выделено 1,7 миллиона евро и к концу года он появится. Его создание должны обсуждать сегодня на секции Das Dateninstitut – neue Impulse für die Datenökonomie (Институт данных - новый импульс для экономики данных) [2] конференции Digital-Gipfel 2022 по берлинскому времени сегодня в 10։10 (это 12։10 по Москве, 13։10 по Еревану и 15։10 по Астане). Живая трансляция должна быть доступна на сайте, на немецком языке.

Почему это важно? По сути в Германии создают аналог The Open Data Institute существующего (ODI) в Великобритании. Однако ODI всегда строился и существует как глобальная институция, с претензией на воспроизводство лучших практик в развитых и развивающихся странах. Относительно Dateninstitute пока неизвестно будет ли он действовать локально про Германию, на весь Евросоюз или глобально как ODI.

Ссылки։
[1] https://www.bmi.bund.de/SharedDocs/pressemitteilungen/DE/2022/10/dateninstitut-startschuss.html
[2] https://www.de.digital/DIGITAL/Navigation/DE/Konferenzen/konferenzen.html

#opendata #data #policy #germany #dataeconomy #datapolicy
Свежий доклад Open Data Maturity Report 2022 Европейского союза [1].

Лучше всего госполитика и порталы открытых данных во Франции, хуже всего в Боснии и Герцеговине. Сравнение тут вполне объективное поскольку сравнение идёт по странам где примерно сравнимы подходы и госполитика открытости.

Доклад интересный, рекомендации в нём в основном про обмен практиками, коллаборацию и сообщества. Можно также обратить внимание на большом акценте на стандартизацию порталов данных и использование стандарта DCAP-AP и измерение качества данных как качества метаданных

Ссылки։
[1] https://data.europa.eu/en/publications/datastories/assessing-open-data-developments-across-europe-discover-open-data-maturity

#opendata #policy #reports #europe
Тут совсем недавно Ольга раскопала [1] контракт по переносу российского портала data.gov.ru на Гостех и прам-парам "неожиданно" оказалось что российское Минэкономразвития собиралось потратить на 5 месячный "перенос" портала больше средств чем потратило на его разработку и поддержку за 10 лет. Хотя итоговая сумма и поменьше, 30.9 миллионов рублей, но сути это не меняет, работы по завышенной стоимости, с рамочным ТЗ и полной неопределённостью что там будет в итоге.

И Вы спрашиваете почему, после этого всего, я отношусь к Гостеху столь негативно, потому что никакой экономии там нет и принципиально быть не может. Гостех - это внутригосударственная искусственная монополия, всё будет только дороже И всё, опять же, возвращается к вопросу, а что есть Гостех? Набор несвязанных сервисов Platform V от Сбербанка? Или презентации демонстрируемые сотрудниками одноимённого ФКУ?

Вторая часть этой истории - это рамочное ТЗ. Понятно что у Минэкономразвития нет и не может быть компетенций не то что в открытых данных, но и в управлении данными в принципе. Все их инициативы в этой области вроде их собственного портала с данными [2] превратились в тыкву. Они поленились даже заказать какому-то своему подведу/рядом сидящему подрядчику разработку ТЗ. Почему? Потому что будь оно, его слишком легко было бы раскритиковать.

В любом случае позитивных ожиданий от этой "переделки" портала открытых данных нет.

Ссылки:
[1] https://t.iss.one/ahminfin/606
[2] https://data.economy.gov.ru

#opendata #data #policy #procurement #russia
Я посмотрел свежее выступление Максута Шадаева (главы Минцифры РФ) на Tadviser Summit где он упоминал, в том числе, о том что Гостех это, в первую очередь, для регионов и муниципалитетов поскольку у них дублируются функции и услуги и о том что логично им всем на Гостех переходить, а с федеральными структурами работа по более сложным схемам совместных предприятий поставщиков для федеральных ИТ с Ростелекомом.

И вспомнил что это мне напоминает. Текущая российская система государственного управления построена на 3-х принципах: централизация, контроль и патернализм. Эти принципы очень заметны и в российской технологической политике. За последние 20 лет я лично наблюдал исключительно процессы их подтверждающие, с небольшими отклонениями, но в пределах погрешности.

Централизация всё это время заключалась в постепенном отъёме полномочий у регионов и муниципалитетов. Федеральные органы вначале всё больше забирали на себя полномочия совместного ведения, а далее и те полномочия к которым формально (по конституции) отношения они не имели. В основе этого было множество причин, но основным инструментом были многочисленные законы которые принимались в ГД в форме рамочных документов передавших регулирование исполнительной власти. Почти все крупные государственные информационные системы создавались по такой модели.

Контроль это, можно сказать, базовая ментальная модель, но и многих граждан, заключающаяся в том что если есть какая-то деятельность в котором нет государственного вмешательства, то обязательно надо как можно скорее туда вмешаться. Создав регистрацию, реестр, виды деятельности, учёт, отчётность, передав кому-то (федеральному, конечно госоргану) полномочия по надзору. Я лично не знаю ни одной страны мира в котором было бы такое количество административных реестров как в России. Буквально на каждый чих.

Патернализм это когда, если говорить простыми словами, люди во власти смотрят на простых граждан как на глупых опекаемых субъектов, а на бизнес (если он в доску не свой) как на притесняющих их упырей. Патернализм - это и есть основа существующей централизованной модели госуслуг в России, по сути отношение к малому и среднему бизнесу исключительно как к попрошайкам, а к крупному как, или встроенному в систему госуправления (коррупционными, личными или иными отношениями) или как к объектам бюджетного доения.

Вот эти вот три принципа и есть основная управленческая модель, через них гораздо проще и понятнее смотреть на любые речи, документы и новости связанные с гос-вом.
Например:
1. Почему Гостех хотят масштабировать на регионы и муниципалитеты? Потому что централизация. У региональных властей, кроме Москвы, значительно меньший административный вес. Конституционное право на отличия де-факто заменяется на то что "вы же все одинаковые", даже если это не только не так, но и не должно быть так в принципе.
2. Почему нацпроект "Экономика данных" скроен таким образом? Потому что: Госуслуги - патернализм, Гостех - централизация, большая часть всего остального - де-факто контроль. С исключением в виде мероприятий по развитию ИИ, которые реально к экономике данных относятся, где надо учить и развивать.
3. Почему долгое время открытые данные присутствовали в стране? Они же противоречат этим принципам. Они противоречили принципу патернализма, но использовались в принципах централизации и контроля как довод того что "граждане не имеет достаточного контроля за деятельностью местных и региональных властей". Это более-менее работало долгое время, но стало сжиматься когда заигрывание с общественным мнение стало сходить на нет. Сейчас оно тоже есть именно в связке с этими двумя принципами, но с всё большим усилением в сторону контроля за оборотом данных, потребителями, доступом к данным и так далее.

#it #government #policy #thoughts
В прошедшую субботу я потерял потратил несколько часов на просмотр выступлений зам министров Минцифры про нацпроект "Экономика данных". Хорошая новость в том что экономики там нет, плохая в том что данных тоже нет. В общем-то я лично так и не понял жанра выпихивания неподготовленных спикеров выступления зам. министров на сцене, без предварительного насильственных тренировок ораторским навыкам продумывания речей. Если это было для демонстрации открытости министерства, то лучше бы документы и данные вовремя и в полноценно публиковали. Что в итоге войдет в этот нацпроект до сих пор непонятно, но судя по интенциям впихнуть туда капиталку на сети связи, квантовые технологии и ИБ, то не пора ли переименовать нацпроект во что-то более экстравагантное? Лично у меня фантазии не хватает. Хорошо хоть Гостех не упоминали.

Параллельно с этим читаю дорожную карту комитета по Сенатского по ИИ в США. Вот это больше выглядит как нац. проект, дорожная карта там включена в отчет этого комитета. Там в дорожной карте очень много про регулирование, не только запретительное и ограничивающее, но и про участие в международных исследованиях и корректировке технологической политики.

В целом всё что я вижу по зарубежному регулированию, там это происходит со звериной серьёзностью без шоу и пиара. А сдвиг российской госполитики в пиар и шоу никакими санкциями не оправдать.

#government #russia #policy #showoff #ai #regulation
В рубрике интересных наборов данных QuantGov [1] исследовательский проект по сбору законов и других регуляторных документов, превращению их в данные и последующий анализ с построением графиков и интерактивных инструментов. Основной посыл в измерении регуляторной нагрузки, охватывают, при этом, не только США и отдельные штаты, но и Канаду, Австралию, Индию, Великобританию. Всё доступно в виде датасетов в CSV, интерактивного выгрузчика документов и API.

Ключевое - это активное научное применение, эти датасеты активно цитируют исследователи и пишут про них экономические СМИ.

P.S. Префикс Quant в данном случае не имеет никакого отношения к квантовым технологиям, а часть слова Quantification, количественная оценка.

Ссылки:
[1] https://www.quantgov.org

#opendata #datasets #laws #regulations #policy
Я хотел было подробнее написать о том что не так с "Экономикой данных", про усиление цифрового госпатернализма, про отсутствие повестки для малого и среднего бизнеса, про недоступность даже референсных/справочных данных как открытых данных и ещё много что.

Но показательнее всего был сегодняшний момент на ЦИПРе который можно было увидеть в трансляции, когда на панельной секции Потанин, единственный, озвучил проблему доступа к государственным данным, того же Росстата, которые, вообще-то должны быть открытыми просто по факту своего существования и Мишустин парировал ему дословно "А Вы готовы нам свои данные отдавать?". Эта фраза даёт ответ на все вопросы.

Политика пр-ва в отношении открытости данных сейчас такова:
1. Граждане и журналисты полностью игнорируются как потребители данных.
2. Малый и средний бизнес рассматривается только как получатели субсидий, налоговых льгот.
3. Крупный и средний бизнес получает данные только в обмен на что-то, весьма вероятно что очень непубличный обмен их данных.

Де-факто в правительство не считают что открытость - это обязательство исполнительной власти, а открытость данных как инструмент развития экономики. Вместо этого цифровая экономика/экономика данных превращается во внедрения в экономику данных госпродуктов и информационных систем на основе данных полученных от крупного и остального бизнеса.

#opendata #closeddata #russia #policy #government
В Нидерландах Министерство внутренних дел и по делам королевства опубликовало Handleiding Herziene Who nav de Wet implementatie open data richtlijn [1], Пересмотренное руководство для тех следует за Законом о реализации Директивы по открытым данным [2]

Руководство на голландском языке, но ничего сложного там нет и для тех кому будет сложно читать можно воспользоваться одним из онлайн переводчиков.

Если вкратце то руководство определяет политику обязательной открытости данных и кода всех государственных структур таких как:
- органы и организации федеральной власти (de staat);
- органы и организации региональной власти (zijn territoriale lichamen);
- организации учреждённые по закону (publiekrechtelijke instellingen)
- ассоциации учреждённые одним или более органов/организаций власти или организаций учрежденных по закону (verenigingen gevormd door een of meer van deze lichamen of een of meer van deze publiekrechtelijke instellingen)

Сюда попадают все органы власти, бюджетные учреждения, государственные исследовательские центры, любые организации которые они учреждали.

В руководстве определены приоритеты открытости по таким направлениям как:
- исследовательские данные
- динамические данные, такие как трафик, движение общественного транспорта и тд.
- особо ценные наборы данных (как это определено в директиве Евросоюза)
- программное обеспечение и открытый код

Из интересного:
- соблюдение принципов FAIR для открытых научных данных
- требование по использованию Metagegevens Duurzaam Toegankelijke Overheidsinformatie (MDTO) стандарта по устойчивой доступности государственной информации [2]. Разработано Национальным Архивом Нидерландов
- требование Archivering by design по предусматриванию обязательной архивации всего публикуемого и для этого использование стандарта DUTO [4], также от Национального Архива

И там ещё много всего.

В итоге можно обратить внимание на два фактора:
1. Сильный акцент на обязательное раскрытие научных данных. Это не удивительно зная сколько их создаётся и раскрывается в Нидерландах.
2. Переход к обязательности раскрытие ПО и открытого кода
3. Стандартизация с акцентом на архивацию. Роль национального архива в этом процессе.

И, чтобы два раза не вставать, нидерландский веб-архив всех государственных сайтов [5], несколько тысяч, может быть, десяток тысяч сайтов и госучреждений.

Ссылки:
[1] https://openrijk.nl/artikel/5c0e86d8-bc47-48c0-99f5-4306dea73b6d/nieuwe-wet-voor-open-data-in-nederland
[2] https://minbzk.github.io/publicatie/hl/hwho/#wat-is-de-status-van-deze-handleiding
[3] https://www.nationaalarchief.nl/archiveren/mdto/stappenplan-toepassen-mdto
[4] https://www.nationaalarchief.nl/archiveren/kennisbank/duto-raamwerk
[5] https://www.archiefweb.eu/


#opendata #netherlands #eu #policy #opensource #digitalpreservation #webarchives
TF05_ST_06_Advocating_an_Inter66cf6ad8f1a90.pdf
688.5 KB
Для тех кто интересуется международной повесткой регулирования данных International Decade for Data (2025-2035) under G20 sponsorship [1] доклад одной из рабочих группы при G20 с предложением по продвижению десятилетия данных под эгидой G20 и основных направлениях.

Удивительно что там ни слова об открытых данных, но много про управление данными в международном аспекте.

Ссылки:
[1] https://www.t20brasil.org/media/documentos/arquivos/TF05_ST_06_Advocating_an_Inter66cf6ad8f1a90.pdf

#opendata #data #policy #readings