Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Текущее состояние с порталами открытых данных в России
❗️Недоступен портал открытых данных Воронежской области opendata.govvrn.ru
❗️Не работает уже давно портал открытых данных Кабардино-Балкарии od.kbr.ru, ссылка на него есть на сайте kbr.ru
❗️На сайте Правительства Тверской области тверскаяобласть.рф больше нет ссылки на раздел открытые данные. Сам раздел ещё доступен, но 2 года не обновляется и там всего 4 набора данных.
❗️Недоступен портал открытых данных Вологодской области data.gov35.ru
🔨 Снова работает портал открытых данных РФ data.gov.ru, работает в том смысле что открывается, а не в смысле возможности найти там что-то полезное

Каталог всех порталов и репозиториев в России и о России datacatalogs.ru

#opendata #data #russia #datacatalogs
Нужны ли интернет-провайдеры? Приемлема ли интернет цензура частных компаний? Почему мы вообще обязаны платить за интернет когда он становится обязательным? Это всё немаловажные вопросы о том как интернет и связь развивались все эти годы и как они должны.

В Евросоюзе эти вопросы разобраны в докладе Towards Public Digital Infrastructure посвящённому тому что цифровая инфраструктура должна быть приравнена к общественной инфраструктуре.

В докладе акценты расставлены в сторону контроля данных пользователями, то что называется Democratic Data Spaces, но я бы трактовал его сразу расширенно, на цифрую инфраструктуру как явление.

Тут важно помнить что доклад готовился на грант ЕС в рамках проекта Next Generation Internet и стоит предполагать появление этих идей в Европейском законодательстве в ближайшие годы.

P.S. Тем временем в России Ростех хочет получить контроль над Ростелекомом. А это, уж простите, но вхождение Ростелекома в состав военно-промышленного комплекса.

#data #policy #regulation #eu #digital
О зарплатах в ИТ [1] в США в 2022 г. в журнале IEEE Spectrum в 5 графиках. Можно обратить внимание на востребованность специалистов со знанием Go, Python и, как ни странно, Ruby on Rails.

А также стоит обратить внимание что многим в ИТ интересно решать проблемы связанные с системой здравоохранения, образованием и будущим системы труда. А космос и не только на втором плане.

Всё это про рынок труда в США, конечно.

А что же будет с российским рынком в ближайшее время? Какие специалисты будут наиболее востребованы?

Ссылки:
[1] https://spectrum.ieee.org/software-engineer-salary-2657117801

#it #jobs #salaries #usa
Я вернулся к написанию технических текстов на английском языке, в этот раз заметка Semantic data types. Systematic approach and types registry [1] в Medium о инструментах о которых я регулярно пишу тут и на других площадках. Это инструмент metacrafter [2] по определению типов данных и наконец-то завершенный реестр Semantic data types [3] в котором собираются смысловые типы данных которые поддерживаются утилитой metacrafter или будут поддерживаться в будущем.

Зачем это нужно я уже писал, это необходимо для задач:
- выявления персональных и чувствительных данных автоматически
- упрощения интеграции данных
- автоматического документирования баз данных
- контроля качества данных, в том числе автоматического

Об этом и другом про данные и про практическую работу с данными я, постепенно, буду писать больше.

Ссылки:
[1] https://medium.com/@ibegtin/semantic-data-types-systematic-approach-and-types-registry-a2c2a60a467b
[2] https://github.com/apicrafter/metacrafter
[3] https://registry.apicrafter.io/

#opendata #data #datatools #opensource #metadata
Полезное чтение про данные
- Union.ai [1] стартап с облачным управлением data workflows от создателей Flyte, продукта с аналогичными функциями с открытым кодом. Привлекли $10M инвестиций [2]
- The “Datadogs” of tomorrow. [3] интересные размышления о инструментах data observability и будущих возможностях в этой области
- Data Discovery Tool: why you absolutely need one! [4] обзор практического внедрения Amundsen, корпоративного каталога [мета]данных и data discovery tool. Полезное как практические обзор
- Feathr [5] LinkedIn выложили в открытый код свой feature store
- Data Engineering Best Practices [6] лучшие практики по дата инженерии, почти все написаны про облака. Нужен аналогичный обзор по лучшим практикам по не облачным инструментам с открытым кодом.
- Guidance Data engineer [7] описание профессии data engineer на сайте gov.uk. Текст из 2020 года, сейчас он также актуален. Хорошо структурировано для понимания того что это за профессия и какими навыками надо обладать. (После такого, конечно, читать российские "профстандарты" совершенно невозможно).
- Hudi, Iceberg and Delta Lake: Data Lake Table Formats Compared [8] сравнение инструментов создания озер данных от создателей Lakefs.

Ссылки:
[1] https://www.union.ai/
[2] https://techcrunch.com/2022/04/12/union-ai-raises-10m-to-simplify-ai-and-ml-workflow-orchestration/
[3] https://itnext.io/the-mlops-engineer-the-datadogs-of-tomorrow-614a88a374e0
[4] https://medium.com/hipay-tech/setting-up-a-data-discovery-tool-why-and-which-solution-to-choose-5e03fcbed458
[5] https://engineering.linkedin.com/blog/2022/open-sourcing-feathr---linkedin-s-feature-store-for-productive-m
[6] https://medium.com/@matt_weingarten/data-engineering-best-practices-2a02949b99c4
[7] https://www.gov.uk/guidance/data-engineer
[8] https://lakefs.io/hudi-iceberg-and-delta-lake-data-lake-table-formats-compared/

#data #readings
Продолжается архивация порталов открытых данных в РФ.

Я ранее уже писал что в таблице Airtable собран список порталов для архивации https://airtable.com/shr1rzsajTM5SSyoI, часть из них уже сохранены, это 39 порталов, часть из которых были собраны ранее, часть из которых собраны в формате веб-архива WARC, поскольку данные там лежат просто как файлы.

Но в списке гораздо больше ресурсов, некоторые из них - это цифровые репозитории где есть не только данные, а другие - это, например, порталы открытых бюджетов которые мы относили к порталам с открытыми данными поскольку чаще всего там данные публиковали машиночитаемыми.

Про некоторые наблюдения в процессе архивации данных и сайтов я уже писал, но есть что добавить.

1. Данных мало, данные плохого качества, данные редко обновляются, данные бессмысленны. Вот буквально это все вместе очень часто одновременно. Пример, Владимирская область https://avo.ru/opendata. Справедливы все эти утверждения.
2. Данные готовят и выкладывают в ручную на CMS администрации и описание их дают в виде файлов MS Word https://www.nso.ru/opendata и не обновляют их годами.

И это лишь пара примеров из многих, в целом видно что около 5% регионов в России публиковали данные осмысленно и продолжают это делать. Ещё около 50% делают это в режиме "на отвали" и оставшиеся просто забили и не обновляют свои порталы открытых данных.

Поэтому архивировать их важно и нужно. Код сбора сайтов и описание будут в репозитории на Github https://github.com/ruarxive/rudatarchive

Из ресурсов по которым может понадобиться помощь - это:
- showdata.gks.ru - витрины данных Росстата, там всё на Javascript'е и с извращениями, поэтому веб-архивация не сработает
- pod.gptl.ru - портал открытых данных ДЗЗ с картами Роскосмоса. Аналогично
- next.gptl.ru - фонд данных ДЗЗ (требует регистрации, бесплатно). Аналогично

Если Вы знаете какие-либо иные важные источники данных которые могут в ближайшее время исчезнуть - напишите об этом!

#opendata #digitalpreservation #webarchival #dataportals
В рубрике инструментов работы с данными Mistql [1] [2] утилита и библиотека для JS и Python позволяющая делать сложные запросы к JSON подобным данным.

Например, mistql умеет отрабатывать подобные запросы "events | filter type == "send_message" | groupby email | keys". Синтаксис немного необычный, но вполне понятный, по мне так он гораздо понятнее и удобнее языков запросов вроде jq и, конечно, очень хотелось бы чтобы NoSQL базы данных умели бы такие запросы обрабатывать и, вообще, нехватает универсального языка запросов для NoSQL баз данных.
Например, их не хватает для MongoDB или ArangoDB.

А я думаю добавить поддержку mistql в мой инструмент undatum [3]. Потому что текущий язык фильтрации данных совершенно несовершенен, а тут хороший подход и много задач где такое нужно.

Ссылки:
[1] https://www.mistql.com/
[2] https://github.com/evinism/mistql
[3] https://github.com/datacoon/undatum

#data #datatools #querylanguage #nosql #json
Чуть отвлекаясь от технологических тем дам ссылку на канал Олега Дерипаски который рассуждает (призывает) к сокращению госаппарата и силовых структур [1]․ Рассуждает он так словно собирается возглавить какую-то новую партию от бизнеса или претендует на должность в Пр-ве или в ЦБ РФ, но я хочу поднять другой вопрос.

Вот говорят что в России назревает мобилизационная экономика, а насколько соответствует текущее правительство всей этой "новой реальности"? Я не только про кадровый состав, я даже про саму структуру и организацию.

Может быть пора начать сокращение с вице-премьеров, сократив их максимум до 2-х?
Может быть пора сократить число органов власти до 15-20? Слишком многие дублируют функции друг друга и совершенно необоснованно раздроблены.
Может быть пора сократить числа замов руководителей в министерствах до 2-3 максимум ? А то министры с 12 замами выглядит как-то даже неприлично.
Может быть надо перестать плодить госАНО для вывода их сотрудников из под закона о госслужбе и госзакупок?
Может быть надо кардинально перестроить всю систему госзакупок, а не продолжать латать громоздкие 44-ФЗ и 223-ФЗ?
Может быть надо ускоренно ликвидировать или преобразовать унитарные предприятия? Помните же был план по приватизации, и где он теперь? Ау-ау!

Я могу продолжать долго, несколько лет назад я довольно активно участвовал в подготовке реформ госуправления, госзакупок и т.д. Сейчас, если честно, вопросы бизнеса, данных и технологий мне куда интереснее, потому что не остаётся ощущения что на 100% работы только 5% результата.

Я даже не призываю все эти реформы начать проводить, слишком многие из тех кто могли бы оценить их разумность и полезность активно уезжают из России с сильным настроем "пусть они сами всё доламывают, чем раньше оно разрушится тем раньше мы будем восстанавливать". Я слышу такое часто, не разделяю такую позицию, но понимаю тех кто её придерживается.

Предсказание дело неблагодарное, но я бы рискнул предположить что текущее Пр-во уйдет таки в отставку до конца этого года, а вот что придёт ему на замену предсказать не готов. В России слишком часто изменения подобного рода сопровождаются ожиданиями "А хуже не будет?". Будет конечно, так что не растрачиваем позитив до худших времен:)

Ссылки:
[1] https://t.iss.one/olegderipaska/402

#government #politics #regulation
Яндекс выложили в открытый доступ систему управления базами данных YDB [1] с полным исходным кодом [2]. Эта распределенная SQL база данных, с собственным расширением языка SQL - YQL [3] и, в целом, выглядит любопытно.

Что стоит внимания:
- работа в кластере как часть системы
- обещанная простая масштабируемость

Что удивительно:
- база написана полностью на C++, хотя сейчас более популярно когда базы данных создаются на более высокоуровневых языках, в том числе и для того чтобы привлечь разработчиков которые хотят их изучать
- поддержка JSON и иерархических данных весьма скромная, по крайней мере документации об этом мало, хотя и упоминается
- вместо придумывания своего языка запросов расширяют SQL, что может быть и не плохо, просто +1 SQL диалект
- нет PostgreSQL или MySQL "совместимости из коробки", а это полезная фича которую декларируют многие новые СУБД и сервисы.

В целом база явно написана под высокие нагрузки, стоит пристального внимания и тестирования.

Ссылки:
[1] https://ydb.tech/
[2] https://github.com/ydb-platform/ydb
[3] https://ydb.tech/ru/docs/yql/reference/

#data #opensource #yandex #tools
Open Knowledge Foundations раздаёт от $500 до $1000 грантами на организацию небольшим мероприятий по открытым данным в рамках программы Open Data Day Grants [1].

В России брать зарубежные гранты и даже получать деньги из других стран стало практически невозможно, поэтому это будет актуально скорее тем кто развивает тему открытых данных в других странах.

Ссылки:
[1] https://blog.okfn.org/2022/04/18/application-for-the-open-data-day-2022-small-grants-is-now-open/

#opendata #events #grants.
Продолжаю писать про технические инструменты на английском языке. В этот раз про open-source утилиту undatum [1] которую я довольно давно сделал для личных задач и заопенсорсил. Это утилита командной строки для преобразования JSON lines и BSON файлов. Удобная для тех кто этими форматами пользуется ежедневно. Например, она позволяет много во что из много чего преобразовывать данные и не только.

В утилите часть кода из Datacrafter'а [2] (у проекта, кстати, теперь отдельный домен datacrafter.ru)․ Там внутри очень много задач по гармонизации данных из всех разных форматов в JSON lines и BSON и тд.

Вообще undatum я начал писать когда почувствовал что начинаю терять ИТ навыки, выступаю с лекциями и говорю на околополитические и ИТ темы чаще чем что-то руками делаю. А программирование - это как любой язык, если не тренируешься, то забываешь. Так что Lingua usu opus est.

А пока предлагаю почитать про undatum и написать чего в нём нехватает, что полезно, покидать в меня успешный опыт использования или, наоборот, безуспешных попыток попробовать.

Ссылки:
[1] https://medium.com/@ibegtin/undatum-command-line-json-lines-bson-data-processing-tool-d45ff1cc1013
[2] https://datacrafter.ru/

#opendata #datatools #opensource
Пишут что SAP уходит из России [1], как прокомментировать это даже и не знаю пока. Если бы в стране был фондовый рынок, то, долгосрочно, продавать акции предприятий где он был внедрён. Но фондового рынка нет, а их акции и так чуть ли не в мусорный уровень обращены, да и годовые отчеты они теперь публиковать не будут. Так что какой такой фондовый рынок, о чём это я.

В общем новость ожидаемая, но комментировать её должен не я, а представители тех компаний где SAP внедрён.

Ссылки:
[1] https://news.sap.com/2022/04/sap-plans-russia-exit/

#russia #it
Я всё откладывал комментарий к новости о том что ФНС теперь "рекомендует" не использовать адреса в доменах отличных от .ru и .su. Там ещё есть про "сервисы стран не подпадающих под ограничения", но что-то вот сами страны не перечислены.

Помимо того что это особо вопиющий, я бы сказал, случай противоречия принципу сетевой нейтральности, это ещё и какая-то не очень понятный способ не думать со стороны руководства ФНС.

Вот почему:
1. Налоговые органы взаимодействуют не только с гражданами России, но и с гражданами других стран являющихся налоговыми резидентами
2. Кроме .ru и .su к России относятся и ряд других доменов таких как .москва или .moscow
3. Российские госструктуры используют домены в зонах .com, .org и других. Примеры: forumspb.com, investarctic.com, volculturecamp.com, ombudsmanrf.org, ruexport.org

Список можно продолжать.
А если кратко, то кто-то в ФНС явно превысил полномочия. Надеюсь у них хватит ума написать разъяснения и исправить ранее написанное.

#idioten #taxes #government
В качестве небольшого пред-анонса, в середине мая выйдет глобальный рейтинг стран по открытости данных Global Data Barometer [1] созданный по перезапущенной методологии предыдущего рейтинга Open Data Barometer.

Если Вы хотите знать реальный уровень открытости данных в России и в других странах, то читайте именно его. Забегая вперед, до февраля 2022 года уровень открытости данных в России по сравнению с другими странами был на среднем уровне, но постепенно снижался.

Отличия глобальных рейтингов в том что там идёт сравнение по доступности и качеству публикации данных имеющих большой значение (high value datasets). Это не сравнение органов власти или порталов регионов по количеству опубликованного "цифрового мусора", а вполне серьёзная и большая и тяжелая работа.

АНО Инфокультура выступало российским партнером в этой работы в прошлом году, всё финансирование было из российских источников, я сам же эту работу и оплачивал и координировал. Иногда надо потратить личные средства на полезное.

Поэтому, никому не верьте, мне можно (с), не читайте отечественных рейтингов Минэкономразвития или Счетной палаты или ещё кого-то, ошибки в них заложены на стадии проектирования, органы власти не могут оценивать другие органы власти и более того сама оценка открытости данных органа власти предполагает равенство и автономность ФОИВов, а это не так. Отвечать за открытость государства и данных может Правительство целиком, не в смысле коллективной ответственности, а конкретно премьер министр.

Но в России публичная повестка по открытости Правительства деградировала до "открытых разговоров" [2] членов правительства с отраслевыми представителями, что выглядит особенно тухло для тех кто знает что, та же отрасль образования почти вся государственная и "открытый разговор" правительства с подчинёнными - это, ну такое, примерно того же типа открытость, как когда Федеральное Казначейство формирует свой общественный совет по представлению НКО в виде их собственного профсоюза (гусары молчат, но запоминают) и так ещё много где и ещё много в какой форме.

Поэтому я не хочу загадывать произойдёт ли перезагрузка повестки открытости государства в России в ближайшие годы и в какой форме эта повестка возможна.

Ещё раз напомню про нашу инициативу по обязательной архивации всех порталов открытых данных в России, поскольку риск их исчезновения в этом году ненулевой.

Ссылки:
[1] https://globaldatabarometer.org/
[2] https://t.iss.one/government_rus/2999

#opendata #opengovernment