Ivan Begtin
9.37K subscribers
2.26K photos
4 videos
106 files
4.95K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email [email protected]

Ads/promotion agent: @k0shk
Download Telegram
Я, кстати, поначалу не обратил внимание, а на сайте Пр-ва РФ то есть появилась в феврале страница Основные показатели и мероприятия национального проекта «Экономика данных и цифровая трансформация государства» [1] и там, собственно, показатели и есть.

Показателей много, разных, какие-то мне лично нравятся, какие-то категорически не нравятся. Но об этом как-нибудь в другой раз. А вот показатель доступности 500 датасетов вызывает, честно говоря, смех.

Число 500 актуально только если это так называемые high-value datasets, термин есть в законах Евросоюза, но нет ничего в российских НПА. Это когда данные особо ценные, когда известно какие это данные и дорожная карта по их публикации. Хорошая штука, когда осмысленна.

А просто 500 наборов я лично могу собрать из разного мусора за день, а из хороших данных за месяц.

На закрытом портале data.gov.ru было около 20 тысяч датасетов (хреновых, но количество же тут), на портале открытых данных Москвы около 800 датасетов и так далее.

В общем это даже не низковисящие плоды, а не пойми что.

И тут, в который раз, не могу не отметить значительную закрытость этого Пр-ва по сравнению с предыдущими. Причём это вопрос не 2022 года, а гораздо более ранний. Года с 2020 если не раньше. Почти по всем нац проектам материалы доступны в пресс релизах, выступлениях и, с огромными задержками или совсем недоступны, содержательные документы.

У меня уже много лет нет рабочей необходимости копаться в структуре госрасходов, мероприятиях и контрактах и показателях результативности гос-ва. Но не отмечать очевидное тут сложно.

Ссылки:
[1] https://government.ru/info/54314/

#opendata #government #russia #spending
По поводу новости о Национальной базе генетической информации [1] и о том как она будет устроена. Я вот ещё на первых новостях о её появлении пытался найти хотя бы страницу с описанием этого проекта и хотя бы один документ, но ничего кроме постановления Пр-ва не нашёл, на сайте Курчатовского института тоже ничего не находится или ну очень глубоко спрятано, хотя казалось бы...

Поэтому вместо рассуждений о несделанном напомню про Китайский национальный центр по биоинформатики в котором хранится национальный банк генетических данных Китая. Чуть менее чем год назад там было геномных данных на 53 петабайта [2], сейчас на 68.7 петабайт [3].

Ссылки:
[1] https://www.rbc.ru/technology_and_media/24/03/2025/67dda55f9a79470f47baa7f0
[2] https://t.iss.one/begtin/5954
[3] https://www.cncb.ac.cn/

#opendata #russia #china #genomics #bioinformatics
Для разнообразия, следующим постом опрос Что делать с развитием открытых данных в России? А пока вы ещё не прочитали сам опрос и не начали его проходить, важный вопрос в том что вообще делать. Лично мне, в каком-то смысле, это проще в той части что есть области жизни которым текущая политическая ситуация в РФ не мешает. Не помогает, но и не мешает. И своё любопытство в данных я всегда могу наполнить в Dateno или в Open Data Armenia. Но в России тренды не в развитие открытости. Так что вот такой далее опрос;)

#opendata #russia #polls
К вопросу о том как устроена публикация данных в России и что с ней не так. Про портал data.gov.ru я и так часто писал, а вот пример в виде системы показателей ЕМИСС [1]. По всем признакам - это неплохая система публикации показателей. Там и экспорт в Excel есть, и формат SDMX есть, и раздел открытые данные есть на сайте и выглядит всё не так плохо. Казалось бы какая хорошая штука! Больше того у неё даже есть API, недокументированное правда.

Но когда-то несколько лет назад я делал углублённый анализ того как и что там происходит и результаты разочаровывающие.

Про проблемы того что данные/индикаторы исчезают оттуда уже многие писали, но проблема и в том как текущие данные там представлены. Вот несколько самых критичных проблем.
1. Самое критичное, по умолчанию все индикаторы показываются неполностью и не по актуальным данным. Открывая любой индикатор у можно увидеть не полный перечень значений, а те что отдаются в "отображении по умолчанию". Пример, в виде индикатора на картинке [2] открывая его последние значения за 2014 год. Это не значит что за другие годы значений нет, это значит что они по умолчанию не отображаются. Чтобы увидеть всё надо прокликать все фильтры и тогда уже смотреть или выгружать данные целиком. Это очень сильно влияет на всё что есть в этой системе - открытые данные, просмотр индикаторов и так далее.
2. Вид по умолчанию влияет на содержание того что на сайте называется открытыми данными. Данные того же индикатора при выгрузке из раздела открытых данных [3] будут включать только значения за из этого самого "отображения по умолчанию". Тем самым получается что если кто-то просто скачает открытые данные из раздела на портале ЕМИСС то там не будет актуальных данных.
3. Более того получение актуальных данных автоматически или как открытых данных или через недокументированное API вообще не предусмотрено. Чтобы их получить надо вручную или автоматически прокликать эти фильтры и не всякий неподготовленный пользователь это знает. Тем самым это дискредитирует сам портал для многих кто "не в теме".
4. И наконец, тоже важное, но не так как предыдущее. В этой системе нет нормализованных справочников. Там буквально сотни если не тысячи справочников, со своими кодами под каждый показатель. Например, нет гармонизированного справочника регионов. Вообще справочные данные никак не вынесены и не структурированы как в самой системе, так и вне её. Сопоставимость справочников низкая и требуется много ручной работы чтобы её проделать.

Обо всём этом я писал более чем 2 года назад в тексте Почему невозможно хвалить Росстат [4]. Мало что поменялось за эти годы.

Ссылки:
[1] https://fedstat.ru
[2] https://fedstat.ru/indicator/36984
[3] https://fedstat.ru/opendata/7708234640-threeasixanineaeightafour
[4] https://begtin.substack.com/p/22

#opendata #russia #statistics #rosstat
Тем временем в рубрике новых свежих открытых данных из России, но не о России, датасеты Сведений о динамике рыночных котировок цифровых валют и Сведения об иностранных организаторах торгов цифровых валют на веб странице на сайте ФНС России посвящённой Майнингу цифровой валюты [1]. Данные представлены в виде таблиц на странице, с возможностью экспорта в Excel и получению в формате JSON из недокументированного API.

Данные любопытные хотя и у коммерческих провайдеров их, несомненно, побольше будет и по разнообразнее.

Условия использования не указаны, исходим из того что это Public Domain.

Мы обязательно добавим их в каталог CryptoData Hub [2] вскоре.

Ссылки:
[1] https://www.nalog.gov.ru/mining/
[2] https://cryptodata.center

#opendata #russia #cryptocurrencies #crypto #datasets
У меня много рефлексии по поводу всего что я слышал, читал и видел в записи с прошедшей в России конфы Data Fusion. Ещё несколько лет я зарёкся слишком много думать про госполитику в работе с данными в РФ и вместо этого пишу в жанре "как это работает у них" для понимания того как это не работает в РФ, но сказать могу об этом многое, наверное даже слишком многое.

Ключевая мысль которую не грех повторить в том что в РФ не западная (точно не европейская) и не китайская модели работы с рынком данных и цифровыми рынками в целом. Я опишу это всё своими словами, как можно проще, без юридических тонкостей.

Западная, особенно европейская, основана на:
- открытости данных/знаний как базовой ценности для всех данных относимым к общественному благу
- развитии и расширении прав пользователей в управлении данными - крайняя форма это европейский GDPR
- поощрение отраслевого обмена данными через кооперационные механизмы с участием государства и государствами поддерживаемая
- поощрению открытости в областях связанных с общественными интересами (развитие принципов открытой науки, прямая поддержка проектов с открытым кодом и данными)

Китайская модель
основана на:
- безусловной доминанте государственных интересов над правами граждан на работу с их данными и интересами бизнеса
- приоритет экономики и интересов бизнеса над правами граждан на работу с их данными
- сильный фокус на обмен данными в научных исследованиях (как следствие госполитики развития науки) и открытости науки

Российская модель имеет некоторые сходства, но не похожа ни на одну из перечисленных:
- госполитика открытости де-факто приостановлена более 10 лет назад, с отдельными исключениями. До этого в течение 3-4 лет она была ближе к западной модели
- декларируемое расширение защиты данных граждан без расширения прав граждан на защиту. Это звучит странно, но имеет простую расшифровку. Вместо усиления юридической защиты граждан идёт усиление регуляторов в отношении организаций которые работают с персональными данными.
- отсутствие госполитики поддержки принципов открытой науки и поддержки проектов с открытым кодом и данными)
- приоритет принципов патернализма и контроля в цифровой сфере с нарастающим усилением давления на цифровой бизнес

Ключевое в российской госполитике - это патернализм и контроль. Поэтому гос-во столь активно стремится получить доступ к данным бизнеса и поэтому же столь тормозятся или не стартуют все инициативы по предоставлению данных из государственных информационных систем.

Специально всё это описываю безэмоционально и безоценочно, просто как описание контекста.

#opendata #data #regulation #russia
Почти совсем забытая рубрика закрытые данные в России и о России, но конкретно про эти данные я, похоже, не писал.

Статистика ЕАЭС
[1] почти вся недоступна уже несколько лет, а та что есть актуальна на июнь 2023 года.

Разделы:
- Финансовая статистика [2] - требует авторизации
- Статистика внешней и взаимной торговли товарами [3] открывается, но все ссылки внутри требуют авторизации
- Социально-экономическая статистика [4] часть ссылок требуют авторизации, в остальных данные в последний раз за июнь 2023 года

И так со всеми остальными материалами в этом разрезе

P.S. Часть данных, всё же, находится на новом сайте ЕАЭС - https://eec.eaeunion.org/comission/department/dep_stat/union_stat/, но... не покидает ощущение что многие данные исчезли

Ссылки:
[1] https://www.eurasiancommission.org/ru/act/integr_i_makroec/dep_stat/union_stat/Pages/default.aspx
[2] https://www.eurasiancommission.org/ru/act/integr_i_makroec/dep_stat/fin_stat/Pages/default.aspx
[3] https://www.eurasiancommission.org/ru/act/integr_i_makroec/dep_stat/tradestat
[4] https://www.eurasiancommission.org/ru/act/integr_i_makroec/dep_stat/econstat

#russia #closeddata #opendata #statistics
Я как и многие прочитал про свежий список разрешённых игрушек в детских садах [1].

Подробной информации нет, а из уст министра Кравцова это звучало вот так
... Поэтому нам нужен перечень тех игрушек, которые будут поставляться в детские сады: для каждого определенного возраста - свой. К сожалению, в магазинах на полках мы до сих пор видим множество игрушек, которые формируют ценности, чуждые российским". ...

Поначалу я планировал прокомментировать это всё с долей иронии, но понял что хоть и ирония тут имеет право на существование, но сама тема очень серьёзная. Потому что реестры, списки и перечни вот уже много лет как стали одним из основных инструментов государственного управления. Я, для простоты, буду далее это называть реестровой системой управления.

Что такое реестр ? Это, как правило, белый или чёрный список организаций или людей или иных связанных с ними объектов (продуктов, товаров, произведений и тд.) с которыми связаны ограничения на доступ к определенному роду деятельности через разрешение только для включённых в этот список (белый список) или исключение включённых в него (чёрный список).

Например, реестр нежелательных организаций или реестры иноагентов или реестры недобросовестных поставщиков - это чёрные списки. А реестры отечественного ПО или реестр ИТ компаний - это белые списки. Черные списки создаются по принципу того чтобы сделать очень плохо ограниченному числу организаций или граждан, а белые списки про то чтобы сделать лучше большему числу участников и плохо всем остальным.

Что лучше, что хуже я сейчас оценивать не буду, это всё зависит от области применения. Важно помнить что это одна из форм кодификация ограничений. При этом, безусловно, реестры обладают высокой степенью коррупционноёмкости (случайно такое сложное слово вырвалось). Включение в или исключение из реестра может лишить включаемого доступа к рынку, ресурсу, возможности заниматься профессиональной деятельностью и тд.

Например, контекст вокруг списка игрушек таков что единственная модель его практического применения - это ограничения в государственном и муниципальном заказе. Но для этого надо, или провести это в федеральном законе, или навязать только для детских садов ремонтируемых за счёт федерального бюджета через требования в текстах субсидий выдаваемых Минпросвещения, или на региональном уровне решениями региональных правительств. Потому что детские сады, почти все, находятся в муниципальном ведении или, реже, в ведении субъектов федерации.

Поэтому как этот список появится, сколь скоро и насколько он будет обязательным - надо ещё последить. Важнее другое, этот реестр является абсолютно логичной моделью регулирования в рамках российской системы госуправления основанной на контроле и патернализме. Контроль - это реестр, патернализм - в том что федеральные чиновники считают что никому кроме них нельзя доверить столь ответственное дело как выбор игрушек для детей. Я об этом ранее писал в контексте ИТ рынка, но это универсальная парадигма.

Каждый такой реестр и список - это ещё один шаг в копилку тех кто хотел бы "чтобы страна жила построже". И если такой список игрушек появится и будет кодифицирован - это ровно такой пример.

Ссылки:
[1] https://rg.ru/2025/03/04/minprosveshcheniia-utverdit-perechen-igrushek-dlia-detskih-sadov.html

#government #russia #data
По поводу свежей статьи в Forbes Russia про передачу данных сотовыми операторами в ФСБ и МВД [1] я многое что могу сказать, но самое главное, действительно самое главное, в том что всё что касается разрешений правоохранителям и спецслужбам по доступу к данным - это вопрос _легализации_ это практики, а не появление её из ниоткуда.

В реальности, легальное право для спецслужб по получению данных необходимо для того чтобы использовать эти данные в случаях обвинительных заключений, в случаях когда дело может дойти до суда или в рамках досудебного рассмотрения. Но, в любом случае, это про легализацию дальнейших действий в отношении гражданина.

По умолчанию же всегда следует считать что у спецслужб есть доступ к базам всех организаций имеющих данные реального времени по движению граждан и не только. В любой стране. В отношении любой организации. Даже если, на самом деле, такого доступа нет, надо считать что он есть. Потому что если его нет, значит спецслужбы плохо работают. А мы ведь не верим в том что они плохо работают? Вот то-то и оно, не верим. А значит доступ есть.

Пишу почти без иронии.

А ещё не могу не добавить что рано или поздно придут и за разработчиками приложений для Apple/Android, если ещё не пришли (не ко всем пришли точно). Потому что если приложение пишет и сохраняет трек передвижения пользователя и другие его действия, то оно очень даже представляет интерес для тех у кого нет доступ к данным сотового оператора.


Ссылки:
[1] https://www.forbes.ru/tekhnologii/536706-dannye-na-sdacu-kakuu-informaciu-ob-abonentah-operatory-peredadut-policii-napramuu

#privacy #security #russia
По поводу свежего документа с планом мероприятий по реализации Стратегии развития системы государственной статистики и Росстата до 2030 года [1] принятого распоряжением Правительства РФ 30 апреля.

Опишу тезисно и сжато по результатам беглого прочтения.

Положительное
- систематизация ведения статистики, в том числе разработка стандарта (мероприятие 6) и гармонизация справочников (мероприятия 7-10) и разработка стандарта качества (мероприятия 11-13).
- предоставление статистических микроданных для исследователей (мероприятие 40) в соответствии с разрабатываемым регламентом
- явным образом декларируется участие в международных мероприятиях и международной стандартизации статистического учёта

Нейтральное
-
создание межведомственного совета по статучёту, пока неясно насколько это будет функциональная и продуктивная структура
- терминологически разведены блоки мероприятий "административных данных" и "больших данных", хотя административные данные по статистическим методологиям в мире относят к подвиду "больших данных".
- ведомственная статистика явным образом не упоминается, наиболее близкий к ней пункт, это мероприятие 8 формирование единого реестра первичных статистических показателей, статистических показателей и административных данных. Возможно она находится де-факто в этом пункте
- новая (?) платформа предоставления статистических данных в мероприятиях 48 и 49. Пока ничего неизвестно по тому как она будет создаваться и эксплуатироваться. Будут ли данные там общедоступны или доступны ограниченно.
- мероприятие по созданию общедоступного архива региональных статистических изданий (мероприятие 47). Нельзя отнести к положительному поскольку срок реализации поставлен на ноябрь 2029 года, в том время как оптимизация численности Росстата запланирована на конец 2027 года. Кроме того пункт 47 неконсистентен. Название упоминает любые архивные статданные, но результат предполагается оценивать только по региональным статданным.


Отрицательное
- полное отсутствие упоминание открытости, открытых данных. Предоставление данных статистики скрыто в разделе "Модернизация инструментов распространения статистических данных", но там упоминается смешение системы публикации показателей и геопространственного представления статистики, но не режим доступа к этой системе.
- полное отсутствие упоминаний системы ЕМИСС включая её возможную судьбу: развитие, вывод из эксплуатации, интеграцию в другую информационную систему
- неопределённый статус Цифровой аналитической платформы (ЦАП) Росстата. Она упоминается в мероприятии 1, но не как система сбора и представления статистики, а как система сбора предложений об актуализации статучёта
- о существовании подсистем информационно-вычислительной системы Федеральной службы государственной статистики мы узнаем только из мероприятия 52 по реализации мер инфобеза.
- отсутствуют мероприятия по оцифровке исторических документов и библиотеки Росстата (если она ещё существует). Это не только статистика, но и иные исторические материалы
- не определена стратегия развития сайта Росстата и его терр подразделений. Именно они используются для поиска и оценки доступности статистических данных в РФ международными экспертами и именно туда приходит большая часть пользователей статистических данных.

Ссылки:
[1] https://government.ru/news/54972/

#opendata #closeddata #russia #statistics