Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Я продолжаю довольно много читать про то как развивается тема открытых данных в мире, того как развиваются корпоративные каталоги данных и научные репозитории данных. Всё это три разных направления о которых я много раз писал, например, тут [1].

Чем больше я наблюдаю тем больше вижу оторванность всех трех направлений друг от друга. Технологическое и регуляторное их пересечение невелико, а аудитории пересекаются незначительно.

Например, для Data Scientist'ов преимущественные инструменты для работы связаны с работой с хорошо структурированными данными, пригодными для быстрой загрузки в СУБД или инструменты вроде программных сред разработок. Почти все порталы открытых данных, или вообще никак, или довольно посредственно предоставляют документацию и схемы данных. Чаще всего эти описания не гармонизированы, а преобразование открытых данных в данные для машинного обучения требует существенных усилий.

Другой пример, стандарты вроде Frictionless Data [2] существуют давно, делает их команда которая когда-то имела отношение к проекту CKAN, наиболее популярному открытому ПО для каталогов открытых данных. Но реально почти нет внедрения этого стандарта за пределами научных сообществ [3] и научных проектов. Госорганы создающие порталы открытых данных очень медленно внедряют стандарты обеспечивающие качество данных. В лучшем случае в порталах внедряются стандарты метаданных вроде DCAT, позволяющие работать с метаданными наборов данных.

Научные репозитории данных уходят во вселенную отраслевой специализации. Очень сильной специализации, вроде продуктов Galaxy для биоинформатики, множества медицинских репозиториев провязанных с PubMed и похожими реестрами и многим другим для других научных областей.

Эволюция государственных каталогов открытых данных, на мой взгляд, возможна в двух важнейших направлениях. Первый - это поощрение инноваций, развитие ИИ и инвестиции в создание общедоступных значимых сопровождаемых ключевых наборов данных. Второй - это развитие каталогов открытых данных с акцентом на прикладное научное использование с выдачей DOI, привязкой к научным работам и интеграцией в агрегаторы результатов и источников научной деятельности.

Прозрачность государства остаётся одной из ключевых тем, но и она должна сопровождаться с интеграцией с этими направлениями. Потому что некачественные и недостоверные данные о деятельности госорганов, также, имеют малую пользу и ценность.

Причём, всё вышенаписанное, можно отнести практически к любой стране.

Ссылки:
[1] https://begtin.substack.com/p/11
[2] https://frictionlessdata.io/
[3] https://frictionlessdata.io/adoption/

#opendata #thoughts #datacatalogs
В рубрике открытых данных интересные наборы открытых данных и статьи:
- 1000 крупнейших налогоплательщиков Армении с суммами выплат налогов за 2022 год [1] в формате Excel, с указанием местонахождения компаний, без указания отрасли компании. По Армении, к сожалению, по юридическим лицам общедоступно гораздо меньше информации и так просто отрасль компании не определить без доступа к данным или их покупки. Тем не менее весьма любопытно, можно сделать немало инфографики
- Broken Links: Open Data to Advance Accountability and Combat Corruption [2] отчет и аналитика по открытости данных в области открытости гос-ва и противодействия коррупции на сайте OGP и на данных Global Data Barometer. Затрагивает только страны OGP, поэтому из постсоветских стран Грузия, Киргизия, Украина, Армения, Литва, Латвия, Эстония и Азербайджан там есть, а Казахстана, Беларуси, России, Туркменистана, Таджикистана, Узбекистана там нет
- The State of Open Data 2022 [3] доклад от Digital Science об открытых данных в науке. Состоит из набора статей, полезных к прочтению. Полезно и для понимания как мостика между открытостью науки и открытостью данных как явления в принципе.
- Open Food Facts database [4] если Вы пропустили этот проект базы данных о ингридиентах еды, то самое время на него посмотреть. В базе более чем 2.5 миллиона ингредиентов/продуктов. Есть кусок и по России в 10 тысяч продуктов, Казахстану 218 продуктов, Армении 97 продуктов. А более всего по Франции, почти 1 миллион продуктов (потому что этот проект родом оттуда). Отдают дампы MongoDB, CSV, API, дельты изменений. В общей крутой общественный проект глядя на который можно думать
"почему его сделал не я?". Шутка. А, база эта бесценна

Ссылки:
[1] https://www.petekamutner.am/Shared/Documents/_ts/_ti/Taxpayer_Information_Listings/2022/ck_hhpektt_2022_3_1000_khv_hark.xlsx
[2] https://www.opengovpartnership.org/broken-links/
[3] https://digitalscience.figshare.com/articles/report/The_State_of_Open_Data_2022/21276984/2
[4] https://world.openfoodfacts.org/

#opendata #opengov #datasets
В качестве регулярных напоминаний, о том где брать открытые данные в России и о России.

Негосударственное
- datacatalogs.ru каталог порталов открытых данных, государственных, академических, некоммерческих и всех других. Охватывает практически порталы всех уровней кроме некоторых муниципальных.
- hubofdata.ru - общественный хаб открытых данных, здесь всегда можно опубликовать свои наборы данных
- clearspending.ru - общественный проект по прозрачности контрактной системы в России. Дампы данных по госконтрактам.
- Awesome opendata Russia - список ссылок в Github на ресурсы посвящённые открытым данным в России. Был прообразом для datacatalogs.ru.
- репозитории Инфокультуры - многочисленные репозитории с данными и кодом Инфокультуры, в том числе с большими датасетами

Государственное
- data.gov.ru - официальный портал открытых данных Российской Федерации.
- fedstat.ru - официальные статистические показатели, в том числе в форматах открытых данных
- data.mos.ru - официальный портал открытых данных Правительства Москвы
- ehd.moscow - единое хранилище данных г. Москвы (статпоказатели и отчеты, нет открытых лицензий)

Международное
- data.worldbank.org - портал данных Мирового Банка, есть данные статистики по России
- data.un.org - портал статистики ООН, есть данные статистики по России

Рекомендации и руководства
- opendatareview.infoculture.ru - работа с открытыми данными: особенности публикации и использования в российском правовом поле

Коммерческие
- datacrafter.ru - каталог проекта Датакрафтер, с открытыми и иными данными собранными из официальных источников и доступных в формате API.
- labelme.ru - каталог данных для машинного обучения от компании LabelMe

Академические
- sophist.hse.ru - единый каталог экономических и социологических данных НИУ ВШЭ
- social.ranepa.ru - социологические данные РАНХиГС

Доступных данных гораздо больше, если Вы знаете каталоги данных которых нет в datacatalogs.ru, отправьте их через форму и мы его обязательно добавим.

#opendata #russia
Только что прошла конференция Coalesce (вернее ещё идёт), я пересматриваю и переслушиваю многие доклады, они про то как data teams организуют свою работу.

Из того что особенно запомнилось.

Data teams: kill your service desk [1] о том почему дата-команды не могут и не должны работать по Agile. Основные аргументы в том что данные - это сложный мир, не модульный, не отчуждаемый, требует другого подхода.

Ссылки:
[1] https://docs.google.com/presentation/d/1-JmXX1RZHLf3VKRZJoPHw-QFUodODzOmu13GJSVdkM4/edit?usp=sharing

#data #datateams
Для тех кто интересуется темой приватности, завтра будет проходить одна из наиболее интересных русскоязычных конференций по этой теме Евразийский конгресс по защите данных [1].

Я также там буду выступать с краткой презентацией про трекеры в мобильных приложениях которые мы нашли в магазине мобильных приложений RuStore.

На конгрессе много интересных докладов, всячески рекомендую прослушать её целиком. Если бы я завтра не бегал первую половину дня по официальным делам, то тоже также бы и сделал, поэтому то что не смогу посмотреть вживую, буду смотреть онлайн.

Ссылки:
[1] https://edpc.network/
[2] https://rustoreprivacy.infoculture.ru

#privacy #events
В связи с новостями о возможной ликвидации Роснано, напомню что мы проводили архивацию их сайтов и иных ресурсов в рамках Национального цифрового архива (@ruarxive). Все материалы доступны для прямой выгрузки по ссылке [1] у нас в хранилище, метаданные с описаниями пока хранятся отдельно, скорее всего загрузим уже всё вместе в Интернет-архив.

Есть сомнения что за прошедшие 11 месяцев у Роснано появилось много нового контента, скорее мог исчезать старый, тем не менее мы организуем повторную архивацию в ближайшие дни. Для перестраховки что слухи - это не только слухи.

Ссылки:
[1] https://cdn.ruarxive.org/public/webcollect2021/rusnano2021/

#digitalpreservation #webarchives #archives
Есть у меня такая особая рубрика, "надолго отложенные проекты", может быть даже навсегда, не могу сказать сейчас. Это те гражданские технологические проекты (civic tech) которые невозможно создать сейчас потому что на них нет финансирования в России, или есть серьёзные риски что придётся их цензурировать настолько что проще не делать. Я последние лет 10 нарисовал десятки схем идей таких проектов, а по другим написал их краткие концепции.

Но это такой особый жанр напоминания себе что на один сделанный проект 5 проектов замороженных/отложенных/невозможных.

А сейчас ещё и остро неактуальных, потому что войны (внешние и внутренние) и прозрачность государства совершенно не сочетаются.

#opendata #opengov #mindmaps
Особенно интересное на конференции Coalesce - это публичный анонс моделей данных на Python. Об этом в презентации их продуктовой команды [1] и можно найти на сайте конференции [2] запись выступления, по ключевым словам "Announcing dbt's Second Language: When and Why We Turn to Python". По моему, пока доступно только после регистрации на сайте, но может уже выложили или скоро выложат для всех.

Хотя и поддержка моделей данных на Python там в зачаточном уровне, новость эта замечательна для тех кто не любит SQL или любит его сильно меньше чем программировать на Python. Например, я языки запросов к данным вроде SQL люблю сильно меньше чем обработать данные на скриптовом или ином языке программирования. Это сила привычки и вопрос доступности инструментов.

Авторы пока заявляют о том что эти модели в самом зачаточном виде, но с ними уже можно работать.

По ним уже есть документация [3], чат и дорожная карта.

Лично для меня главным недостатком dbt остаётся то что это инструмент, как и pandas, для работы с табличными (плоскими) моделями данных.

И, важно, конечно, помнить что самые продвинутые возможности по удобству они реализуют в своём dbt cloud IDE которое постепенно превращается в облачную среду подготовки данных [4].

Ссылки:
[1] https://docs.google.com/presentation/d/1e3wB7EQ0EXugGhfCjVCp_dDFEbY_uKyVjMqG1o7alnA/edit?usp=sharing
[2] https://coalesce.getdbt.com/
[3] https://docs.getdbt.com/docs/building-a-dbt-project/building-models/python-models
[4] https://docs.google.com/presentation/d/11-71MIh9ASGM2n-i0KxXc_yf6w1tq0l1bUobWdnfloY/edit?usp=sharing

#data #datatools #dbt #python #datamodelling
В связи с ликвидацией Федерального агентства по туризму (Ростуризм) мы спешно архивируем все его цифровые ресурсы.

В нашем каталоге госдоменов к Ростуризму относятся следующие:

russiatourism.ru
www.russiatourism.ru
last.russiatourism.ru
opendata.russiatourism.ru
opendata2.russiatourism.ru
reestr.russiatourism.ru
rgo.russiatourism.ru
www2.russiatourism.ru

Если Вы знаете какие-либо дополнительные сайты и иные цифровые ресурсы которые могут исчезнуть в связи с ликвидацией агентства или если Вы располагаете любыми архивами и материалами о его деятельности которые исчезают/исчезли ранее или могут быть недоступны, напишите нам на [email protected] или чате к этому каналу.

Мы постараемся в ближайшее время сохранить всё что будет ещё возможно.

#digitalpreservation #webarchive
Приватность_в_российских_мобильных_приложениях_Результаты_анализа.pdf
1.3 MB
Вчера прошёл Евразийский конгресс по защите данных [1] о котором я ранее писал. Я там выступал с презентацией Приватность в российских мобильных приложениях. Результаты анализа приложений в RuStore․ Можно посмотреть в записи [2] и я прилагаю презентацию.
Основные выводы:
- Несмотря на публичную риторику "нежелательных стран" российские приложения в рамках импортозамещения передают туда персональные данные
- VK, создатели RuStore, одновременно разрабатывают приложения наиболее насыщенные трекерами
- Импортозамещение не включает защиты интересов потребителей цифровых продуктов․

Подробнее на сайте исследования [3].

Ссылки:
[1] https://edpc.network/
[2] https://www.youtube.com/watch?v=YTfp5uWNkWk
[3] https://rustoreprivacy.infoculture.ru

#privacy #events
В Новой Зеландии приняли закон о простом языке (plain language act). Об
этом в статье в Guardian [1] в том числе и о том почему этот закон приняли, а причина в том чтобы законы были понятны и тем людям для которых английский язык не основной. Иначе говоря - это защита прав мигрантов, о чём бы и другим странам было бы не лишне подумать.

Текст закона можно прочитать на сайте Парламента Новой Зеландии [2], как и дебаты парламента где он довольно активно обсуждался.

Ссылки:
[1] https://www.theguardian.com/world/2022/oct/20/new-zealand-passes-plain-language-bill-to-jettison-jargon
[2] https://www.parliament.nz/en/pb/bills-and-laws/bills-proposed-laws/document/BILL_115953/plain-language-bill

#plainlanguage #plainenglish
Полезный текст на Хабре о том что A-GPS подверглось "эмбарго" и почему смартфоны в России перестали точно определять местонахождение [1]. Главный вывод из текста можно сделать в том что это вопрос открытости даже не данных, а протоколов. Все проприетарные риски и зависимости которые были и остаются решать можно только открытостью кода, данных, интерфейсов и тд.

Но решить оно может не всё, крупнейшие естественные и неестественные монополии всё равно контролируют большую часть экосистем и технологических сервисов. История с GPS показательна, в случае сложных продуктов вводить национальные санкции необязательно, достаточно чтобы санкции соблюдали отдельные компании владеющие инфраструктурой. Примерно как история с VISA и MasterCard для финансовой инфраструктуры и похожая ситуация с Qualcomm.

Ссылки:
[1] https://habr.com/ru/post/694984/

#opensource #openprotocols #gps