Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Появились в открытом доступе предложения о мерах повышения доступности данных и эффективности их использования для целей развития цифровой экономики в РФ [1] прозвучавшие на заседании комиссии РСПП 30 ноября этого года.

Кроме всего прочего там есть предложения:
- по открытию данных органами власти
- по созданию экспертной группы по доступу к госданным при экспертном совете при Пр-ве РФ
- по развитию практики data sharing

И иногое другое. Напомню что от Ассоциации участников рынка данных (АУРД) мы помогали РСПП в организации этого заседания и формировании его повестки. Важно помнить что открытые данные - это не только открытость государства, но и бесплатное топливо для современных цифровых продуктов создаваемых бизнесом.

Ссылки:
[1] https://rspp.ru/events/news/predlozheniya-o-merakh-povysheniya-dostupnosti-dannykh-i-effektivnosti-ikh-ispolzovaniya-dlya-tseley-61c1af5cbe064/

#opendata #datasharing #aurd #rspp
Я готовлю большое обновление материалов по открытому государственному коду в мире который мониторю уже 7 лет и вот сейчас запустил пересчёт статистики которая почти готова. Через какое-то время опубликую лонгрид и наборы данных по этой теме, а пока просто в цифрах и оценка, пока без какой-либо инфографики и визуальной подачи. Просто текстом.

Есть два рейтинга стран по открытости кода на Github по числу форков и по числу звезд поставленных репозиториям относящихся к госорганизациям из этой страны.

Топ стран по числу форков госкода
1. США - 56541
2. Великобритания - 29339
3. Франция - 7932
4. Канада - 7794
5. Италия - 5368
6. Австралия - 3452
7. Япония - 2941
8. Германия - 2794
9. ООН - 1970 (не страна, но добавлены в сравнение)
10. Норвегия - 1948

Топ стран по числу звезд
1. США - 120246
2. Великобритания - 46536
3. Франция - 22317
4. Германия - 12429
5. Канада - 10475
6. Италия - 8996
7. Япония - 7434
8. Австралия - 5014
9. Норвегия - 3232
10. ООН - 2735

Применительно к США и Великобритании заниженные оценки поскольку учитывались только репозитории центральных органов власти и не учитывались репозитории государственных исследовательских центров.

Топ 5 наиболее популярных госрепозиториев по числу звезд
- gchq/CyberChef от британского киберагентства GCHQ (UK) - 13685 звезд (российскому ФСТЭК на заметку). ПО для инфобеза
- nasa/openmct от космического агентства NASA (США) - 10093 звезд. ПО для контроля миссий
- nasa/fprime от космического агентства NASA (США) - 8653 звезд. ПО обеспечения полетов
- tokyo-metropolitan-gov/covid19 от городских властей Токио (Япония) - 6265. ПО для визуализации данных и сами данные о COVID-19
- uswds/uswds от агентства GSA (США) - 5912. Дизайн система федерального правительства США.
Открытые данные об открытом исходном коде

Органы власти не просто используют открытый код, они публикуют код который используют десятки тысяч пользователей разработчиков.

Продолжение следует
А в лонгриде я добавлю больше сравнений стран, рейтинги репозиториев по разным критериям и сравнение развития репозиториев органов власти и так называемых civil hackers, представителей НКО и неформальных групп помогающих создавать код для повышения качества работы государства.

#opensource #opendata #ratings
Вчера прошла конференция представителей Гостех о текущем состоянии платформы, её запись доступна на YouTube, рекомендую посмотреть тем кто работает с информационными системами государства и их разрабатывает [1]. При том что лично я занимаю нейтрально-выжидательную позицию в отношении Гостеха, но не могу не добавить своих комментариев и цинизма в описании происходящего.

Если вкратце, то спикеры демонстрируют нулевой и даже отрицательный энтузиазм. В какой-то момент круглый стол выглядел как заседание ГКЧП по мрачности участников.

Ключевая проблема в том что, будем называть всё своими именами, слишком многие внутри государства желают Гостеху всего самого плохого, но, конечно, открытым текстом это не скажут. Почему? Потому что при внедрении Гостеха идёт не только технологическая замена ПО/сервисов/хостинга, но и снижение капитальных расходов ведомств на закупку оборудования под ГИС/ФГИС(ы). Это, скажем так, наиболее прагматичная причина, как раз оправдывающая внедрение Гостеха для тех кто считает деньги.

Не столь приземлённая причина, но столь же значимая, в том что продукт Platform V Сбербанка как Гостех был продан Грефом правительству, но продал не безальтернативно, без жёсткого императива на внедрение от председателя Правительства. Как результат создатели Гостеха сейчас пытаются продать его ФОИВам и властям субъектов федерации. Но если в отношении субъектов федерации действует финансовая дубинка которая сейчас подаётся как субсидии на внедрение, то на ФОИВы эта дубинка действует хуже (хотя должно было быть наоборот). Связано это, как с внутренним лобби, которое сильнее у ФОИВов, так и с тем что миграция действующих ФГИС на Гостех - это даже не то что дорого, это иногда просто физически невозможно. Только переделка с нуля.

Это та тема которая сейчас обходится в выступлениях представителей Гостех'а. Обходится потому что перенос каждой ФГИС будет политическим решением.

Я не могу не напомнить что чуть ли не главная задача любой платформы для разработки - быть привлекательной для разработчиков. Если Вы посмотрите на то как устроен портал для разработчиков GovTech в Сингапуре [2], то разница будет ощутима. В Сингапуре ГосТех объединяет десятки государственных проектов, это большая амбициозная инициатива с продуктами которые активно разрабатываются командами in-house разработчиков.

И, наконец, важно не путать реальные потребности органов власти и коммерческие интересы, которые, конечно явно или неявно присутствуют. Реальные задачи не имеют отношения к субсидиям, они заключаются в решении наиболее насущных вопросов у властей регионов, ИТ подразделений ФОИВов и разработчиков решений для гос-ва.
Например:
1. Формопостроитель - быстрое создание форм с авторизацией через ЕСИА для приёма обращений граждан, опрсов, оказания услуг и тд. Такой сделали в Сингапуре, такие есть на коммерческом рынке и это точно востребовано.
2. Быстрое создание статических и интерактивных сайтов. Во многих странах (Сингапур, США, Австралия и тд.) есть свои GovCMS с открытым кодом и заодно и генераторы статических страниц. Это позволяет избежать долгих процедур контрактации при разработки сайтов. Сейчас госорганы часто пользуются бесплатными сервисами вроде Tilda.
3. Быстрое развертывание необходимых мощностей. У очень многих в госухе есть прямая потребность в сервисах вроде Яндекс.Облака или Mail.Cloud. Вот просто очень хотят, особенно за меньшие деньги. Главное что мешает - необходимости сертификации (вернее невозможность сертификации) и возможность гибкой оплаты не по конкурентным процедурам 44-ФЗ.

Я тут ещё много чего могу добавить, но скажу главное. Полноценное внедрение ГосТех - это равносильно масштабной реформе госуправления. Если оно не будет максимально жестко закреплено законодательно, в поручениях Президента, Правительства и тд, и не в режиме "поставить эксперимент", а "внедрить или расстрелять", то шансов на успех не очень много

Потому что без этого всего слишком много возможностей для внутренней интриги и пассивного саботажа. Особенно когда начнётся внедрение и реальные попытки Гостеха заменить работу интеграторов.
Я бы сказал что у меня скепсиса прибавилось, но посмотрим. По прежнему считаю что концепция здравая, а реализацию ещё не поздно корректировать.

Ссылки:
[1] https://www.youtube.com/watch?v=NddaKbSqa94
[2] https://www.developer.tech.gov.sg/

#govtech #government #tech
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Молодежная политика.pdf
188.8 KB
В Бюллетене СП РФ вышла статья Альберта Бертякова - специалиста в области госИТ, госфинансов и, конечно, аналитика проекта «Госрасходы» - о расходах на молодежную политику. Из статьи можно узнать объемы расходов, на что они идут и кто распоряжается деньгами.

Приведу пару примеров из статьи утвержденных сумм расходов на те мероприятия, которые у каждого на слуху:

- Всероссийская олимпиада студентов «Я - профессионал» - 403 млн руб. в 2020 г. и 359 млн руб. в 2021;
- «Лидеры России» - 400 млн рб. в 2020 и 500 млн руб. в 2021
- Фестиваль «Таврида - ArtRussia», Образовательные программы в рамках Форума молодых деятелей культуры и искусства «Таврида» и образовательный центр «Арт-резиденция «Таврида» - 2,4 млрд руб. в 2020 и 2,8 млрд руб. в 2021
- Создание и распространение контента в сети Интернет, направленного на укрепление гражданской идентичности и духовно-нравственных ценностей среди молодежи - 3 млрд руб. в 2020 и 10 млрд руб. в 2021
Печальная новость в том что похоже что данным переписи 2021 года доверять нельзя [1]. По опросу Левада-центра только 46% опрошенных приняли участие в переписи и основная причина неучастия в том что не пришёл переписчик.

Хуже всех от этой ситуации будет всем тем кто анализирует данные по стране, оценивает качество жизни, изучает то как устроены наши территории и как они могут развиваться. И раньше то было ощущение что "линзы сбиты", но сейчас они просто неверны.

Ссылки:
[1] https://www.levada.ru/2021/12/21/uchastie-rossiyan-v-perepisi/

#data #statistics #failure
Все уже написали по поводу огромных оборотных штрафов наложенных на Google и Meta российскими судами [1]. Google (Alphabet) оштрафованы на 7.2 миллиарда рублей, а Facebook (Meta) на 2 миллиарда рублей.

Конечно, вся эта история про то "кто здесь власть". Big tech компании нарастили политического и социального влияния до того уровня который уже нельзя игнорировать. Давят на них не только российские власти, но и власти Китая, Индии, Турции да и многих других стран. И штрафы - это ещё не худший вариант подобного давления.

Например, в Индии, во время протестов фермеров власти угрожали арестом сотрудникам Facebook [2] если те не выдадут информацию о протестующих.

Но и оборотные штрафы - это жесткая форма переговоров с big tech. Важно лишь помнить что выкладывая карты на стол надо быть готовыми что корпорации могут на это не согласится. Если Meta уйдет, вернее не придёт (у них нет своего представительства) в Россию, то катастрофы не случится. А вот про Google важно помнить что это не только поиск, но и почта, экосистема Android, Google Cloud и ещё много чего.

Почтой на Google пользуются многочисленные российские университеты, госорганизации и просто коммерческие компании. Приложения для Android'а являются инструментом заработка многих компаний в России, не говоря уже о пользователях этой платформы и так далее.

Иначе говоря риски у Google (Alphabet) сейчас будет патовая ситуация где, с одной стороны, если они пойдут на требования российских властей, то их обвинят в цензуре, в том числе политической. А если не пойдут, то получат ещё несколько штрафов, усиление давления и возможно уйдут из России.

Лично я считаю что давление властей стран на big tech неизбежно, но неприятно что это происходит через задачи цензуры, а не защиты местного бизнеса и прав граждан. Конфликт властей Австралии с Google закончился тем что Google сдались на их условия. Но австралийские власти добивались компенсации местным новостным агентствам и добились этой цели. А в Турции штрафовали Гугл на 296 лир (36.6 миллионов долларов США) за доминирующее положение в поиске [3]

Ссылки:
[1] https://www.reuters.com/technology/russian-court-fines-alphabets-google-72-bln-roubles-2021-12-24/
[2] https://www.businessinsider.com/india-threatens-to-jail-facebook-twitter-workers-over-farmer-protests-2021-3
[3] https://www.reuters.com/technology/turkey-fines-google-abusing-dominant-position-2021-04-14/

#google #facebook #fines
На днях прошла встреча Михаила Мишустина с новым составом экспертного совета при Пр-ве РФ [1]. Содержание встречи не так важно, куда интереснее изменение состава экспертного совета [2]. На этой встрече было 22 человека, можно ещё предположить что несколько человек не могли принять участие физически и то что ещё нет опубликованного финального состава совета.

Но выводы уже можно сделать:
- единственная женщина в составе - Елена Бунина из Яндекс'а, она же единственная глава частной компании
- она же единственный представитель ИТ компании
- вообще никого нет моложе 40 лет (поправьте меня если я неправ)
- почти все участники - опытные бюрократы-лоббисты
- сложно назвать экспертным совет из управленцев, даже весьма уважаемыми, даже если они управленцы от науки. В лучшем случае его участники обладают ресурсами для организации экспертной работы.

Я не берусь сказать стал ли новый совет лучше или хуже предыдущего. Предыдущий экспертный совет был большим, около 400 человек. Я также входил в их число и могу сказать что по узким задачам он работал, но не целиком, а отдельными группами экспертов.

Непонятно пока как новый совет будет работать, так что будем наблюдать.

Ссылки:
[1] https://government.ru/news/44189/
[2] https://static.government.ru/media/files/DZHYK7Z6uoSdyAUcsIsi68oLWCDZGfMW.pdf

#councils #government
Писать о том как журналисты искажают смысл оригинальных новостей уже стало чем-то обыденным. Кризис ли это журналистики в принципе или в отдельных изданиях, но не могу не обратить внимание на публикации с хлёсткими заголовками:
- ЕС потребовал от России многомиллиардную компенсацию за импортозамещение (РИА Новости) [1]
- За нормы ВТО: Евросоюз потребовал от России €290 млрд (Известия) [2]

При этом самая адекватная публикация была в РБК
- Евросоюз оценил потери из-за политики импортозамещения России в €290 млрд (РБК) [3]

Потому что в оригинальной новости на сайте ВТО [4] ничего нет про сумму которую Евросоюз требует, там речь идет о требовании отмены российской политики импортозамещения и оценки средств на которую эта политика распространялась, это те самые 290 миллиардов евро или 20% российского ВВП.

Собственно Блумберг писал об этом ещё 20 декабря [5], когда вышла новость на сайте ВТО.

Всё это не значит что на Россию не могут быть наложены штрафы, но это точно произойдет не в следующем году и точно не на сумму указанную Евросоюзом как объем средств дискриминируемых товаров. Но на политику импортозамещения в России может повлиять и пока нельзя предсказать как именно потому что это вопрос, в первую очередь, макрополитический и того что российские власти пошли по пути прописывания импортозамещения в нормативных документах, а это и есть предмет претензий Евросоюза.

P.S. Самое забавное в том что в России очень многие относятся к стратегии импортозамещения с большим скепсисом, особенно в ИТ, а вот в Евросоюзе, судя по претензиям переданным в ВТО, относятся очень серьёзно.

Ссылки:
[1] https://ria.ru/20211226/es-1765519939.html
[2] https://iz.ru/1269467/oksana-belkina/za-normy-vto-evrosoiuz-potreboval-ot-rossii-eu290-mlrd
[3] https://www.rbc.ru/rbcfreenews/61c7ec9a9a7947f012162062
[4] https://www.wto.org/english/news_e/news21_e/dsb_29nov21_e.htm
[5] https://www.bloomberg.com/news/articles/2021-12-20/wto-to-review-eu-dispute-over-russian-procurement-discrimination

#government #procurement #russia #eu #importsubstitution
Как меняется повестка открытости в мире? Начиная с открытых данных и продолжая открытыми знаниями и другими движениями открытости. Когда то в основе многих из этих движений было Open Knowledge Foundation (OKF), сейчас мир довольно сильно меняется. OKF решили провести более чем 100 дискуссий [1] с визионерами, инженерами, активистами, учёными и тд. о том как какие вызовы наиболее значимы и как видение и стратегия открытости должны измениться.

Хорошая цель и если Вам есть кого им порекомендовать, то это можно сделать с помощью специальной веб-формы [2].

А я не могу не напомнить что повестка открытости меняется не только в внутри Open Knowledge Foundation. Одно из важных изменений, например, в открытых данных - это то что называют 3-й волной открытых данных. Переход от Open Data by Default к Publish with the purpose [3] в стратегиях публикации данных органами власти.

Поэтому вопросы актуальные и желание OKF изменить стратегию к новой реальности тоже очень интересно.

Ссылки:
[1] https://blog.okfn.org/2022/01/10/100-conversations-to-inspire-our-new-direction/
[2] https://okfn.typeform.com/conversations
[3] https://opendatapolicylab.org/third-wave-of-open-data/

#opendata #opengov #openknowledge
В рубрике много интересного чтения о данных. Практически все по практике работы с данными и технологических стартапах:
- 30 startups that show how open source ate the world in 2021 [1] обзор 30 стартапов продуктов с открытым кодом привлекших значительное финансирование. Многие стартапы исключительно про работу с данными и про инфраструктурные аспекты работы с данными, например, MindsDB [2] про машинное обучение внутри СУБД или Airbyte [3] про преобразование и интеграцию данных. Там же упоминается весьма интересный проект Hoppscotch [4] про проектирование API с открытым кодом, фактически открытый аналог Postman. А модель многих open source продуктов часто похожа на "давайте посмотрим на лучший продукт на рынке и сделаем такой-же только с открытым кодом. А зарабатывать будем на облачной версии", иногда это работает;)
- One Year of dbt [5] статья автора о более чем годе практике использования Dbt (data build tool) [6], теперь уже популярном инструменте преобразования данных, с открытым кодом и интеграцией практически со всеми современными корпоративными инструментами и современным стеком данных.
- Announcing preview of BigQuery’s native support for semi-structured data [7] в Google BigQuery анонсируют поддержку полу-структурированных данных, с обращением к JSON данным внутри запросов. Много времени прошло с тех пор как она ожидалась и вот появилась.

Ссылки:
[1] https://venturebeat.com/2022/01/03/30-startups-that-show-how-open-source-ate-the-world-in-2021/
[2] https://mindsdb.com/
[3] https://airbyte.com/
[4] https://hoppscotch.io
[5] https://tech.devoted.com/one-year-of-dbt-b2e8474841ca
[6] https://www.getdbt.com/
[7] https://cloud.google.com/blog/products/data-analytics/bigquery-now-natively-supports-semi-structured-data

#reading #data #tech
Для тех кто ищет вдохновения и красивую инфографику, большая коллекция из 100 красивых и иноформативных визуализаций [1] от Observable

Визуализаций там много и многие из них очень даже неплохи. Например, World Grids [2] с разными формами отображения мира.

А мне лично нравится сама модель Observable в виде открытой воспроизводимой визуализации, единственный недостаток для пользователя это неотделимость от самой платформы, но с точки зрения создателей платформы - это, конечно, её преимущество.

Ссылки:
[1] https://observablehq.com/@tomlarkworthy/notebooks2021
[2] https://observablehq.com/@neocartocnrs/world-grids

#infographics #dataviz #vizualization
Оказывается в декабре у ОЭСР вышли два интересных доклада.

Первый Development Co-operation Report 2021 [1] со страновыми кейсами цифровой трансформации с акцентом на кооперации между странами. Как и во многих других их отчетах именно кейсы самое интересное. Например, разбор кейсов "Digital Citizenship or Digital Authoritarianism?" [2] о цифровой трансформации в африканских странах и о том, что действующие законы и иное регулирование не спасает от нарушения фундаментальных прав. Там есть и другие примеры, конечно же и всё, что описывается про африканские страны, справедливо и для других развивающихся и переходных стран.

Второй доклад Mapping data portability initiatives, opportunities and challenges [3] о регулировании прав доступа граждан к их данным. Множество примеров реализации этого права, причём с явными акцентами на финансовые услуги и права потребителей.

Здесь интересно описание регулирования с точки зрения подходов от самого базового с переносимостью данных через экспорт/импорт, до отраслевых протоколов передачи данных в реальном времени.

Ссылки:
[1] https://www.oecd-ilibrary.org/development/development-co-operation-report-2021_ce08832f-en
[2] https://www.oecd-ilibrary.org/sites/1b3dc767-en/index.html?itemId=/content/component/1b3dc767-en
[3] https://www.oecd.org/publications/mapping-data-portability-initiatives-opportunities-and-challenges-a6edfab2-en.htm

#data #digital #dataportability #regulation
Буквально пару недель назад мне выпала редкая возможность ненадолго отключиться от мирских дел и провести пару недель в госпитале с COVID-19. К счастью - эта жизненная передышка была непродолжительной, но дала время подумать и порефлексировать над происходящим с цифрой, данными, ну и многим другим что происходит в госинформатизации в России (Гостех, обучение чиновников цифре и многое другое). Даже несколько дней размышлений существенно обновляет картину поэтому я разбавлю и мои новостные публикации личными соображениями.

Поэтому я набросал в формате, скорее полукороткого текста [1] свои мысли по поводу госполитики работы с данными. А заодно и подумать дальше потому что кроме описанных проблем есть ещё немало других выпавших из почти всех публичных обсуждений.

Ссылки:
[1] https://begtin.substack.com/p/21

#opendata #data #government #policy
ФНС России обновили и, я бы сказал, "поломали" свой аналитический портал analytic.nalog.ru [1].

Раньше на нём публиковались региональные налоговые паспорта, Excel файлы с подробной региональной ведомственной статистикой (у меня есть архив на руках) и немного цифр с визуализацией. Теперь много визуализации в стиле BI, но какого-то недоделанного BI без возможности выгрузки индикаторов, информации об актуализации и тд. А файлы налоговых паспортов регионов с сайта исчезли.

Если старый сайт был неудобен, то новый выглядит даже не недоделанным, а как-то совсем тяп-ляп, сделанным на коленках. В лучших традициях старая версия сайта исчезла, а до исчезновения в поисковиках не индексировалась, поскольку специально делалась неиндексируемой.

Для тех кому нужны архивы налоговых паспортов они есть в DataCrafter'е в открытом доступе [2]. Похоже надо усилить функцию DataCrafter'а по архивации данных.

Ссылки:
[1] https://analytic.nalog.ru
[2] https://data.apicrafter.ru/packages/regtaxpassports

#nalog #data #opendata
Среди современного стека с данными отдельная тема, о которой я регулярно пишу, это продукты по data discovery, каталоги данных в современном стеке данных. О них было исследование Forrester Wave [1] в середине прошлого года и это такие продукты как Atlan, Alation, Collibra из коммерческих и продукты вроде Amundsen, Datahub и др. из недавно превращённых в открытые продукты с открытым кодом.

Так вот эти продукты переживают сейчас бум развития, инвестиций и пользовательского внимания, потому что уже многие крупные и средние компании накопили команды, наработки, данные и тд. а наведение в этом всём порядка оказывается большой задачей. Вернее задач там много, аналитические, задачи complience и тд.

Полезно посмотреть на два обзора и "каталога каталогов". Один от одного из сотрудников Atlan [2] со списком основных продуктов их конкурентов и кратким описанием каждого.

Другой от CastorDoc [3] с куда более детальным списком и сравнением по областям применения, стоимости и возможностям.

Сейчас это всё довольно сложные платформы, с разными акцентами на управлении метаданными. Лично приглядываюсь к ним потому что многие возможности такой платформы, но в формате открытого каталога, мы реализуем в DataCrafter'е. Например, автоматическая идентификация типов данных есть в Collibra, но пока мало где в других каталогах.

И я, конечно, не могу не обратить внимание насколько технологии Modern Data Stack оторваны от работы с открытыми данными и с исследовательскими данными. Чем больше я изучаю инструментарий технологический, логический и др. тем больше видна разница, между каталогами открытых данных и каталогами корпоративных метаданных. Я бы даже сказал что это разные миры которые практически не пересекаются по форматам данных, способам агрегации данных, способам доступа и так далее.

Ссылки:
[1] https://t.iss.one/begtin/2978
[2] https://www.notion.so/atlanhq/The-Ultimate-Repository-of-Data-Discovery-Solutions-149b0ea2a2ed401d84f2b71681c5a369
[3] https://notion.castordoc.com/catalog-of-catalogs

#datadiscovery #metadata #metadatamanagement #datacatalogs
Чтение плана законопроектной деятельности Правительства иногда приводит к весьма интересным находкам. Собственно сегодня он был опубликован [1] и там, например:
* пункт 21 - это создание специального регистратора доменных имён для органов власти и новые полномочия у Роскомнадзора по определению таких доменных имен. Отвечает за это Минцифра и как мне тут не напомнить что на общественных началах мы уже в @infoculture ведем реестр госдоменов.
* пункт 33 - создание ФГИС по племенному животноводству Минсельхозом РФ
* пункт 64 - предоставление полномочий Росфинмониторингу к данным о ЕГРЗ (системы регистрации браков, смерти, рождений и тд).
* пункт 75 - передача бухгалтерских данных в систему Электронный бюджет. Интересна какая их часть будет открыта?
* пункт 103 - реорганизация/изменения в ФИС ОКО (Федеральная информационная система оценки качества образования) Рособрнадзором. Опять же интересно что меняется

На что ещё стоит обратить внимание:
1. По сравнению с 2021 годом [2] число запланированных законопроектов сократилось со 153 до 127. А на 2020 год вообще в плане было 230 законопроектов [3], так что сокращение почти в 2 раза за 2 года.
2. С другой стороны это куда достовернее цифр в 49 законопроектов которые были запланированы ещё в 2019 году Пр-вом при Медведеве [4]
3. Сам документ очередной пример того как неудобно публикуются официальные документы. Это совершенно точно табличный документ размещённый как PDF файл, но это мелочи.

Самое интересное - создание регистратора имен для госсайтов и что же Минцифры России планируют подготовить в этом законопроекте и кого он охватит.

Ссылки:
[1] https://government.ru/news/44321/
[2] https://government.ru/news/41289/
[3] https://government.ru/activities/selection/302/38737/
[4] https://government.ru/activities/selection/676/35282/

#regulation #government #it #laws
В конце декабря 2021 года в Европейском союзе вступило предварительное соглашение между Европейским советом и Европарламентом о применении Data Governance Act [1], закона разработанного ещё в 2020 году [2] и определяющего правила обмена данными в государственном и частном секторе.

Что интересно в этом соглашении, так это 3 направления развития работы с данными в ЕС:

✔️Promote reuse of public-sector data.
Распространение практик использование открытых государственных данных и поощрение этого использования, а также создание единого реестра всех данных государственного сектора, включая те данные которые ещё не являются общедоступными.

✔️Create a framework for data intermediation.
Поощрение обмена данными между компаниями для развития рынка данных. По сути это выстраивание отраслевых моделей поддержки компаний предоставляющих свои данные другим компаниям на рынке.

✔️Encourage data altruism for the common good.
Помогать компаниям и данным использовать персональные данные граждан которые те "жертвуют" на решение задач связанных с общественным благом.

А это регулирование является продолжением Европейской стратегии работы с данными [3] направленной на поощрение свободного обмена данными между компаниями, странами и иными пользователями данных в Европейском союзе.

Ссылки:
[1] https://www.consilium.europa.eu/en/press/press-releases/2021/11/30/promoting-data-sharing-presidency-reaches-deal-with-parliament-on-data-governance-act/
[2] https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX:52020PC0767
[3] https://ec.europa.eu/info/strategy/priorities-2019-2024/europe-fit-digital-age/european-data-strategy_en

#opendata #opengov #data #datastrategy
Для тех кто мог пропустить (я вот пропустил!) в ноябре вышел ещё один доклад Legal study on Government access to data in third countries [1] опубликованный European Data Protection Board (EDPB) и в нём отражено текущая ситуация с правами граждан и госполитикой по доступу к персональным данным в Китае, Индии и России.

Полезно почитать взгляд со стороны на российскую ситуацию и описывается она там довольно критично. Дословно: Finally, compared to the EU, Russian authorities take a significantly more negative approach to balancing fundamental rights in the digital sphere, putting protection of the State ahead of the interests and rights of data subjects.

Иначе говоря защита государства находится в большем приоритете чем права и интересы субъектов персональных данных.

Впрочем о России нам сложно узнать что-то новое, а вот почитать про подходы Китая и Индии точно стоит, там свои интересные особенности.

Ссылки:
[1] https://edpb.europa.eu/our-work-tools/our-documents/legal-study-external-provider/legal-study-government-access-data-third_en

#privacy #data #regulation
Я ранее писал про то что Open Knowledge Foundation пытаются переосмыслить свою стратегию по развитию открытости через публичные дискуссии с экспертами и стейкхолдерами [1] и они не единственные кто занимаются таким переосмысленнием. Например, Open Data Charter в декабре прошлого года опубликовали свою стратегию на 2022-2023 годы под названием Open data driving reform [2].

Они в своей миссии опеределяют открытость, с интересной оговоркой про защиту прав граждан
To make data open and freely available, while protecting the rights of people and communities. To see this shift help solve some of the most pressing challenges of our time, creating more just societies and innovative economies.

Что далее характерно всё идёт через 4 направления реформы:
- Data Rights - реализация прав на данные для граждан
- Democracy, transparency and anti-corruption - демократия, прозрачность и противодействие коррупции
- Gender Pay Equity - равенство в оплате через использование открытых данных
- Climate Action - климатические изменения и использование данных для этой цели

Если первые два очень понятны, то Gender Pay Equity и Climate Action выглядят как специально подобранные под доноров, поскольку, если объективно, обе они связаны с открытостью данных не более чем что-либо ещё, а вот международных фондов поддерживающих проекты в этой области довольно много.

Open Data Charter делает много полезного, но, честно говоря, их влияние на системную работу по открытым данным невелико. Может быть отсюда и столь странные попытки корректировки стратегии? Кто знает.

Основные смысловые центры сейчас - это Open Data Policy Lab [3] и The Open Data Institute [4], с фокусом на практику публикации и работы с открытыми данными и вот за их работой я лично слежу наиболее пристально, поскольку именно там обычно звучат и интересные оценки и появляются интересные исследования.

Ссылки:
[1] https://t.iss.one/begtin/3409
[2] https://drive.google.com/file/d/1Ul3uSbNpdRLi3NrdXSvQu4-A4GAfMS-4/view
[3] https://opendatapolicylab.org/
[4] https://theodi.org/

#opendata #data #strategies
Хороший технический обзор [1] том почему вместо файлов в формате CSV лучше использовать формат Parquet [2] из экосистемы Apache Hadoop. Формат этот, в отличие от CSV, адаптирован изначально под инструменты вроде Pandas и для аналитики он значительно удобнее, к тому же, и на этом акцент в обзоре, он изначально обеспечивает сжатие данных до 4-х раз при этом сохраняя возможность их загрузки в pandas и другие аналитические инструменты.

Из достоинств:
- с этим форматом хорошо работают библиотека pandas, разные инструменты для экосистемы Apache Hadoop, его поддерживает PowerBI и Tableau
- лучшее сжатие данных, до 4-х раз меньше чем CSV
- ускоряет запросы при загрузке в pandas, поскольку изначально колоночный, а не построчный формат

Из недостатков:
- не подгружается в Excel стандартными средствами
- нет стандартных инструментов загрузки в СУБД (SQL или No SQL), в отличие от CSV
- нет инструментов а ля csvkit позволяющих гибко обрабатывать данные

Мы в DataCrafter'е в конце прошлого года добавили экспорт данных в форматах CSV, JSON lines и Parquet к большинству наборов данных. Можно посмотреть вот тут на примере Действующего справочника поставщиков лекарственных средств [3]. Ко всем данным, конечно, добавить его сложно поскольку некоторые данные у нас в каталоге - это много гигабайт и миллионы записей и они доступны только через API и через ZIP файлы с экспортом, но для всех таблиц с менее чем 100 тысячами записей такой экспорт работает, а данные актуализируются.

Parquet не единственный интересный формат для хранения данных и сжатие не единственный важный критерий для форматов данных. Есть полезные обзоры сравнения Parquet, Avro и CSV [4] и Parquet, Apache Orc [5], а также Paquet, Avro и Orc [6] и у каждого из них свои важные полезные особенности, например, Avro гораздо лучше адаптирован под изменение схем данных.

Но, Avro и Orc ещё хуже поддерживаются общедоступными аналитическими инструментами, а есть и другие форматы такие как Protocol Buffers, XML, JSON. Например, в этом обзоре сравнение их возможностей [7]

И тут я, конечно, не могу не обратить внимание что за пределами корпоративного сектора и Modern Data Stack эти форматы практически не используются. В большинстве порталов открытых данных используются обычно CSV, реже XML, реже JSON и ещё какое-то количество унаследованных форматов данных вроде MS Access или DBF.

Адаптация современных порталов открытых данных, да и вообще порталов с данными, например, статистическими и аналитическими - это доступность данных в том числе в аналитических форматах, удобных для быстрой загрузки в инструменты вроде Power BI, Tableau или в сервисы обработки данных (data pipelines, ETL, ELT и др) и многое другое.

Ссылки:
[1] https://towardsdatascience.com/csv-files-for-storage-no-thanks-theres-a-better-option-72c78a414d1d
[2] https://en.wikipedia.org/wiki/Apache_Parquet
[3] https://data.apicrafter.ru/packages/roszdravvendors
[4] https://medium.com/ssense-tech/csv-vs-parquet-vs-avro-choosing-the-right-tool-for-the-right-job-79c9f56914a8
[5] https://medium.com/@dhareshwarganesh/benchmarking-parquet-vs-orc-d52c39849aef
[6] https://oswinrh.medium.com/parquet-avro-or-orc-47b4802b4bcb
[7] https://www.adaltas.com/en/2020/07/23/benchmark-study-of-different-file-format/

#opendata #data #dataformats #datastandards #csv #avro #parquet #orc