Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Как и многие я читаю перечень из 42 правительственных инициатив [1], все они похожи больше на лозунги, чем на государственные проекты, хотя кто знает, название - это далеко не всё.

На что стоит обратить внимание:
1. Всё это звучит как "Инициативы социально-экономического развития" и это не первый подход к систематизации госусилий в каком-то направлении. Ранее были: национальные приоритетные проекты, федеральные целевые программы, государственные программы, национальные проекты. Я писал об этом летом 2019 года [2] сравнивая национальные проекты с другими попытками.
2. Можно обратить внимание что нет никакой сопровождающей информации о том что такое эти "инициативы", какие документы будут их описывать (концепции, планы, стратегии). Нет ничего о том как они будут закодированы в бюджете, будет ли ещё одна классификация, будут ли они "распиханы" по госпрограммам или национальным проектам. Будет ли у каждой инициативы свой штаб и тд.
3. Как всегда, как и с национальными проектами, тематика открытости государства полностью отсутствует, а тематика данных спрятана а в других инициативах. Открытость потеряли давно и находить снова не хотят.
4. Можно обратить внимание что за почти все инициативы отвечают ФОИВы, кроме нескольких у Росатома и ещё одной у АО "Российский экспортный центр". Две организации, тем самым, приравненные к ФОИВам.
5. Когда писали нац проекты то было "много криков" о том что главное их отличие от госпрограмм в персональной ответственности и что у каждого нац. проекта будет группа ответственных лиц. У "инициатив" нет ответственных.
6. Не все органы власти за какую-либо инициативу отвечают. Даже очень крупные министерства. Например, МВД России ни за одну инициативу не отвечает, как и МЧС России, как и Минюст России и ещё много кто и много где.
7. И ФНС России тоже, кстати, ни за одну инициативу не отвечает. Это, так, к слову.

Правильно ли я понимаю что перечень инициатив - это такая работа в режиме сокращённого кабинета министров?

В общем-то я лично не вижу никаких поводов для оптимизма.

#government #budgets

Ссылки:
[1] https://government.ru/news/43451/
[2] https://begtin.tech/natsional-nye-proekty-ili-beg-po-krugu/
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Уже завтра пройдёт конференция Ассоциации участников рынка данных «Региональные данные» (regiondata.aurd.ru), на которой обсудим, как региональные госорганы публикуют открытые данные. Расскажу об открытости и недоступности региональных финансовых (бюджетных) данных, а также о планах по разработке модуля «Региональные бюджеты» в проекте «Госрасходы» в 2022 году. Конференция online, регистрация бесплатная.
Несколько часов без Facebook могли показаться вечностью для тех, чья работа или общение с близкими зависят от соцсети. Социальные сети прочно вошли в нашу жизнь, заняв место, принадлежавшее раньше семейным альбомам, личным контактам и общественной жизни. Компания Facebook и ее сервисы Instagram и WhatsApp — наглядный пример такой социальной сети.

Сейчас представители Facebook объясняют случившееся сбоем в настройках сети. Инженеры компании совершили небольшую, но критичную ошибку и на какое-то время ключевой сегмент Facebook был недоступен из интернета. Проблема решена, но мы почувствовали, что привычные нам сервисы могут исчезнуть в любой момент. И именно поэтому я хочу поговорить о цифровой смерти — людей, компаний и создаваемых ими продуктов.

В Forbes вышла моя колонка "Цифровая смерть: о чем стоит подумать пользователям соцсетей после сбоя Facebook" [1]. Как ни странно, в обществе табуирована не только тема смерти физической, но и темы смерти цифровой/виртуальной. Об этом не любят говорить, не планируют, не задумываются, но это происходит.


Ссылки:
[1] https://www.forbes.ru/tekhnologii/442285-cifrovaa-smert-o-cem-stoit-podumat-pol-zovatelam-socsetej-posle-sboa-facebook

#archives #social
Samsung попался на том что писал британским пользователям о необходимости установки обновления с российскими обязательными приложениями [1], за что компания позже извинилась, но, возникает очень интересный вопрос в связи с этим, а кому вообще эти приложения должны быть установлены?

Всем пользователям на территории России? Но в России есть и много граждан других стран, в том числе и приехавших ненадолго и использующих собственные мобильные устройства куленные в других странах.

Всем гражданам России? Но не все российские граждане живут в России и даже говорят на русском языке. Многие имеют двойное гражданство или ВНЖ других стран или просто живут в других странах и на территории России не появляются. Им тоже должны устанавливаться обязательные российские приложения?

Может быть это какие-то более сложные группы пользователей - тогда какие? Пока основной критерий - устройства проданные в России. Но это означает такой посыл что если кто-то туристом в Россию приехал - телефоны тут покупать не стоит.

Ссылки:
[1] https://habr.com/ru/news/t/582586/

#privacy #mobile #apps
В рубрике "как это работает у них" о подготовке закона о цифровом идентификаторе в Австралии. Закон готовится Австралийским агентством по цифровой трансформации (DTA) и проходит 4 стадии:
- Phase 1. Consultation paper (консультационный документ) - фактически, обозначение задачи и запрос от рынка и иных участников их позиции.
- Phase 2. Position paper (документ позиции) - документ сформированной публичной позиции на основе собственного исследования и полученных материалов
- Phase 3. exposure draft (публичная версия черновика закона) - подготовленный к передаче в парламент документ
и legislation introduced to Parliament - когда законопроект направляется в парламент на рассмотрение

Сейчас законопроект уже на 3-й фазе [2] где публикуются наиболее актуальные мтариалы, а также доступны документы предыдущих 1-й [2] и 2-й фазы [3].

На что стоит обратить внимание, так это на документ "Your guide to the Digital Identity legislation" [4] в котором подчеркнуто простым языком рассказано об основных положения законопроекта. Его можно назвать пояснительной запиской и это такая, немалая пояснительная записка на 46 страниц при том что сам законопроект на 149 страниц [5], а также несколько сотен страниц сопровождающих документов, которые в России назвали бы подзаконными актами.

Вы, конечно, видите отличия с российским регулированием? В России подзаконные акты могут принимать ещё годы после принятия закона, они не вносятся в парламент, сами законы и подзаконные акты "разорваны" в нормотворческой логике и в публичном их обсуждении.

Этот процесс не могут поменять технологии, только принципиальные решения по изменению нормотворческого процесса.

[1] https://www.digitalidentity.gov.au/have-your-say/phase-3
[2] https://www.digitalidentity.gov.au/have-your-say/phase-1-digital-identity-legislation
[3] https://www.digitalidentity.gov.au/have-your-say/phase-2-digital-identity-legislation
[4] https://www.digitalidentity.gov.au/sites/default/files/2021-10/Your%20guide%20to%20the%20Digital%20Identity%20legislation.pdf
[5] https://www.digitalidentity.gov.au/sites/default/files/2021-09/Trusted%20Digital%20Identity%20Bill%202021%20exposure%20draft.pdf

#laws #legislation
В феврале я писал о том что федеральные органы власти очень халтурно публикуют данные из информационных систем в их ведении. Причём на фоне разговоров про цифровую трансформацию - это всё несколько комично.

Например, в феврале этого года я писал [1] про то что Минцифра очень халатно относится к ведению реестра аккредитованных ИТ компаний и не обновляли его 5 лет. Как думаете что произошло? Его начали обновлять и даже обновили в марте, апреле и в мае, а потом на него забили и не обновляли аж до августа месяца. А то что опубликовали в августе [2], а то что опубликовано вместо кодов ОГРН значения вроде "1,05E+12". Как так получается? Так получается когда экспорт данных делают: а) Из Excel. б) Без знания Excel. в) Не перепроверяют.

Буду краток: работа халатная, сроки нарушены, данные непригодны.

P.S. В реестре в Excel тоже есть ошибки и их, ожидаемо, не исправили.

Ссылки:
[1] https://t.iss.one/begtin/2595
[2] https://digital.gov.ru/opendata/7710474375-registergosaccred/download/

#opendata #dataquality
В качестве иллюстрации к тому о чём я писал про регулировании в Австралии, когда закон готовится и вносится в парламент со всеми регуляторными документами, три приказа Минцифры России появились через полгода после принятия закона. Конечно, Минцифры - это лишь пример ФОИВа да и органа власти в принципе, я уверен что многие знают и более вопиющие случаи когда подзаконные акты принимают через годы после основного НПА.

#legislation #regulation
Gizmodo пишут что Microsoft стала первой крупной компанией согласившейся упростить потребителям независимый ремонт их устройств [1]. Произошло это на фоне давления владельцев акций компании [2] и законопроекта о Right-to-repair [3] в Палате представителей США .

Новость хорошая, хочется надеяться что только Microsoft дело не ограничится, почти все крупные компании уже много лет играют в игру "покупайте новое модное устройство которое потом замените на наше же, новое". Microsoft, в этом смысле, были ещё не худшими производителями устройств, если мы вспомним про устройста Apple или, например, ограничения навязываемые на многие современные умные тракторы, станки и многое другое.

Ссылки:
[1] https://gizmodo.com/microsoft-just-became-the-first-big-company-to-commit-t-1847820524
[2] https://www.asyousow.org/press-releases/2021/10/7/microsoft-agrees-expand-consumers-repair-options
[3] https://morelle.house.gov/media/press-releases/congressman-joe-morelle-introduces-fair-repair-act

#tech #righttorepair
Я так часто участвую или организую в мероприятия в которых технологии неотделимы от госполитики/политики/GR/бизнес применения что немного отвык от больших технологических конференций. Так что с удовольствием вчера прочитал свой доклад о каталогах данных на конференции Smart Data https://smartdataconf.ru в СПб и с удовольствием слушаю других выступающих.

Могу сказать что это, конечно, особый кайф рассказывать про интересные задачи и их сложные решения. А рассказывал я про каталог данных DataCrafter https://data.apicrafter.ru и то как туда загружаются данные и как они используются и с какими проблемами приходится сталкиваться.

Например, одна из проблем - это не-плоские данные. С этими данными сложно работать "классическими" инструментами обработки данных и data pipelines вроде dbt, airflow, meltano и тд.

Другая проблема в том что если продолжать грузить данные как это делается сейчас - одна таблица-одна коллекция, то скоро упираешься в ограничение в 24 тысячи таблиц на один экземпляр MongoDB. Поэтому до сих пор в каталог не загружено около 15 тысяч наборов данных которые можно загрузить одним махом, но надо менять архитектуру хранения данных.

Уже после конференции я расскажу подробнее об архитектуре каталога, скорее всего в форме большого лонгрида у себя в блоге https://begtin.tech или в рассылке https://begtin.substack.com

#data #datacatalogs
Вчера комментировал Comnews [1] инициативу партии "Справедливой России" по справедливизации защиты персональных данных [2]. Хотя мои комментарии приведены журналистами довольно точно, я дополню ранее сказанное.

1. Каждый гражданин должен иметь право знать сведения о себе. Главный владелец персональных данных в нашей стране - это государство. Всё начинается с качественной работы информационных систем где данные хранятся и в реализации права на изменение/исправление этих данных и в реализации "права знать", поэтому Каждый гражданин должен иметь право знать сведения о себе в первую очередь в государственных информационных системах и далее в системах частных операторов даннх.
2. Отношения компания-потребитель/покупатель не заканчиваются покупкой/договором. Есть требования по документообороту, архивному делу, предоставления данных регуляторам, аудиторам, правоохранительным органам которые компании должны соблюдать. А ещё есть гражданский и уголовный кодексы со сроками давности по уголовным делам для которых данных в базах данных являются одним из доказательств.
3. Без реформы правоприменения остальные меры будут недостаточны. Конечно компании должны требовать только те данные которые нужны для оказания услуги, это и так присутствует уже в законодательстве. Проблема сейчас не в законодательстве, а в эффективном правоприменении. Давайте будем честными, защита персональных данных и прав граждан - это не самая сильная сторона Роскомнадзора.

Поэтому моё отношение к инициативам Миронова скептическое. Это не странно что партии вносят инициативы без предварительной профессиональной подготовки, но, всё же, хотелось бы чтобы такого было поменьше и поменьше спекуляций в итак уже проблемной области.

Ссылки:
[1] https://www.comnews.ru/content/216858/2021-10-12/2021-w41/personalnym-dannym-khotyat-dobavit-spravedlivosti
[2] https://spravedlivo.ru/11555710

#privacy #personaldata
Вышла публикация Мирового банка - GovTech Maturity Index : The State of Public Sector Digital Transformation [1].
Кроме самих наблюдений в документе есть рейтинг стран по группам цифровой зрелости. Так, например, Россия относится к странам категории "B", это: High: significant focus on GovTech. В эту группу входит 59 стран, например, Чехия, Кипр, Руанда и ещё много какие ещё.

О некоторых странах там есть более подробные обзоры, но не о России, Россия просто приводится в списках и в рейтинге. Да и сам доклад переведён на французский и испанские языки, но не на русский. В общем, не для нас писали, а для африканских и южноамериканских стран.

Обратите внимание на новые акценты. От Digital government следующим шагом указывают GovTech. То есть отечественные бренд-неймеры инициатив вовремя подсуетились;)

Ну и несколько картинок оттуда прилагаю.

Ссылки:
[1] https://openknowledge.worldbank.org/handle/10986/36233

#ratings #govtech #wb #data #opendata
Forwarded from APICrafter
Большое обновление в данных DataCrafter'а. В каталог загружены 1514 наборов данных о климате и погоде из Единой государственной системы информации об обстановке в Мировом океане (ЕСИМО). Все данные были преобразованы в унифицированные форматы и доступны в каталоге как открытые данные через API или в виде сборок/слепков данных.

Данные загружены вместе с описанием каждого поля, сведения доступны в разделе "Документация" к каждой таблице. Например, документация к набору данных Оперативные данные о сопутствующих метеонаблюдениях, передаваемых по коду FM-18 X BUOY. Период хранения в БД.

Несмотря на то что многие данные в системе ЕСИМО являются архивными, они могут пригодиться исследователям работающим с данными о мировом океане, климатологам, специалистам по работе с погодными данными и данными экономики моря.

Для нас загрузка такого числа наборов данных оказалась вызовом по причине числа наборов данных, всё таки 1514 наборов из системы ЕСИМО - это почти в 4 раза больше 393 наборов данных которые ранее к нам были загружены и сейчас интерфейс уже недостаточно удобен для работы с таким числом наборов данных, но мы уже работаем над его доработкой.

Второй вызов был в том что данные имеют свою специфику и текущие алгоритмы распознавания типов данных определяют типы данных наборов данных из ЕСИМО достаточно ограниченно. В ближайшее время начнётся работа по классификации этих полей и доработке алгоритмов под эту задачу.

#datasets #esimo #climate #weather #datacrafter #data
Я сейчас гружу в APICrafter кучу данных с сайта Росстата [1] в раздел "Статистика" [2] и чуть позже сделаем официальный пост от проекта с тем сколько новых наборов данных появилось, а пока скажу вам друзья что всё что мы слышали или слышим про качество работы с открытыми данными у Росстата - это сказки.

Чтобы было понятно:

- с сайта Росстата скачано 1547 наборов данных
- у 742 наборов однотипная структура из CSV файлов с полями: area,gender,urban,value (все их можно было опубликовать как один набор данных)
- ещё 617 наборов данных это однотипные показатели в формате SDMX без документации, также их можно было опубликовать как один набор данных
- надо ли объяснять что это получается куча мелких файлов, эдакое "необоснованное дробление данных" (c) ради числа наборов данных
- половина данных опубликовано как CSV, другая половина как XML. Файлы CSV имеют ту особенность что половина с разделителем запятой (,), половина с разделителем (;).
- у 20 наборов данных у файлов CSV отсутствуют заголовки
- итого, если делать всё по уму, то у Росстата на сайте было бы всего 188 наборов данных. А если ещё объединить в один датасет вакансии всех террорганов Росстата то и всего то около 103-105 наборов данных. Чувствуете разницу?
- некоторые из наборов данных имеют расширение csv, а внутри это zip файлы. А иногда это zip файлы внутри которых файлы csv которые... на самом деле не csv, а тоже zip файлы
- около 30% опубликованных CSV файлов в кодировке windows-1251, остальные в UTF-8, нигде при этом не указано что в каком виде.
- несколько наборов данных XML - это дампы показателей из внутренней BI системы. Без документации.


В итоге пришлось дорабатывать код подготовки пакетов данных для автоматического распознавания кодировки, разделителей и выявления CSV файлов без заголовков. Это не так уж сложно, но окунаться в ад работы с плохоформатированными CSV файлами - это то ещё удовольствие.

А в качестве послесловия я добавлю что это ещё далеко не самый худший ФОИВ по опубликованию данных. Да, много где ситуация сильно хуже, но Росстат тоже, умеет удивлять отсутствием управления данными и таким вот дроблением датасетов на кучу мелких наборов данных.

Как бы то ни было, все они будут у нас в каталоге сегодня уже к концу дня. И, похоже, вводить критерии качества каталогов данных важно не меньше качества содержания наборов данных.

Ссылки:
[1] https://rosstat.gov.ru/opendata
[2] https://data.apicrafter.ru/topics/statistics

#opendata #datasets
Закончилась конференция SmartData, я выступал на ней с докладом "Каталог и озеро данных на базе MongoDB, собираем технологический стек по кусочкам". Мою презентацию можно посмотреть онлайн [1] или скачать по ссылке [2].

Я рассказывал о том:
- какие каталоги данных бывают
- для чего мы создаём наш каталог
- какие проблемы с этим есть
- какая архитектура решения в итоге
- какие эксперименты проводились и какие инструменты с открытым кодом существуют
- какие планы развития

Про инструменты я рассказывал о таких утилитах как:
- mongo2md [3] - автодокументирование таблиц в MongoDB
- undatum [4] - утилита командной строки для обработки BSON и JSONl
- apiready [5] - утилита автосоздания API на основе датасета
- apibackuper [6] - утилита архивации данных из API
- qddate [7] - библиотека автоматической идентификации дат в любом написании

В целом же скажу так что несмотря на то что я много лет как организую проекты, выступаю, пишу статьи, доклады, что-то организую и в целом, в основе моего заработка не программирование, я стараюсь не терять технические навыки и программировать всегда когда только могу. И всегда приятно делать что-то полезное когда это удаётся!

Ссылки:
[1] https://www.beautiful.ai/player/-MlzucmDRg7kkp2Ax2yy
[2] https://smartdataconf.ru/talks/data-catalog-and-data-lake-based-on-mongodb-building-tech-stack-from-scratch/
[3] https://github.com/datacoon/mongo2md
[4] https://github.com/datacoon/undatum
[5] https://github.com/ivbeg/apiready
[6] https://github.com/ruarxive/apibackuper
[7] https://github.com/ivbeg/qddate

#opensource #opendata #data #tools
О том как работает публикация нормативных документов на анти-примере. 11 октября ТАСС пишет [1] что Правительство РФ утвердило Единый план по достижению национальных целей развития России и ссылается официальный портал правовой информации где такое распоряжение, действительно, есть [2]... в виде одностраничного распоряжения к которому должен был быть приложен этот документ. Что в распоряжении и написано, "Утвердить представленный Минэкономразвития России ...".

Но вот маленький нюанс, сам документ в открытом доступе появился только, барабанная дробь, 14 октября в 18 часов и только на сайте Минэкономразвития, а это, на минуточку, самый главный ключевой документ определяющий жизнь страны на 9 лет вперед. Ну, как бы определяющий, на самом деле до следующего кабинета министров, если будет его ротация в очередной электоральный цикл.

По поводу распоряжения, вначале я думал что это в pravo.gov.ru такой "косяк", всё таки ненормально когда публикуется распоряжение с такой странной, неформальной, ссылкой без указания где, кем, в какой редакции и как подготовлен документ, где он размещен и, в целом, российская нормотворческая практика всегда предполагала публикацию всего НПА целиком. Чего только стоит публикация законов о бюджете в виде документов.

Поэтому я заглянул в систему регистрации НПА Минюста. Там этот документ тоже есть, тоже на одну страницу.
Почему всё выглядит так странно если не подозрительно?

Тут надо напомнить что документ готовился по поручению [4] Президента РФ и должен был быть закончен к 1 октября, но, хотя, в распоряжении Правительства РФ от 1 октября и говорится об утверждении документа Минэкономразвития, сам документ появился не раньше 8 октября, а финальная версия 14 октября. Хотя и на сайте Минэка указана дата 1 октября, это неправда. Внутри документа [5] в свойствах указаны 8 октября 2021 г. 15:36 как дата и время создания и 14 октября 2021 г. 14:30 как дата последней редакции.

Какой может быть причина почему единый план не был приложен к распоряжению Пр-ва РФ? Единственная причина которую я вижу - это то что он не был готов к 1 октября. Но так важно было формально "закрыть" поручение Президента РФ вовремя что в ТАСС вышла заметка, в pravo.gov.ru разместили распоряжение, а то что сам план был опубликован только 14 октября, так кто бы об этом вспомнил через много месяцев. Может ли быть какая-либо другая причина таких "казусов"? Не могу ничего такого представить.

Я даже не знаю как это всё комментировать.

Ссылки:
[1] https://tass.ru/ekonomika/12632805
[2] https://publication.pravo.gov.ru/Document/View/0001202110110015
[3] https://www.economy.gov.ru/material/dokumenty/edinyy_plan_po_dostizheniyu_nacionalnyh_celey_razvitiya_rossiyskoy_federacii_na_period_do_2024_goda_i_na_planovyy_period_do_2030_goda.html
[4] https://www.rbc.ru/rbcfreenews/610d379e9a79472f804922fc
[5] https://www.economy.gov.ru/material/file/ffccd6ed40dbd803eedd11bc8c9f7571/Plan_po_dostizheniyu_nacionalnyh_celey_razvitiya_do_2024g.pdf

#lawmaking #laws #legislation #documents #government