Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Для тех кто любит работать (с данными) в командной строке хорошая подборка новых инструментов [1], как просто для работы, так и для работы с данными.
Мой личный список значительно шире, какие-то инструменты я писал сам, для наиболее частых задач, например, undatum утилита работы с JSON lines и BSON и другими форматами данных или lazyscraper для быстрого сбора данных с веб-страниц через командную строку.

Чувствую что надо составить собственный список, а в представленном списке выше есть немало того что стоит попробовать.

Ссылки:
[1] https://jvns.ca/blog/2022/04/12/a-list-of-new-ish--command-line-tools/

#opensource #tools #data #datatools
Свежий обзор The Modern Data Stack Ecosystem: Spring 2022 Edition [1] от Continual.ai, Конечно, как и все, они описывают Modern Data Stack с точки зрения их места в экосистеме, но, собственно и сам термин так активно используется стартапами именно для того чтобы показать позиционирование своего продукта. Удивительно что для MDS ещё нет холста в популярных системах проектирования вроде Miro и т.д.

Обзор полезный, например, автор отмечает отход от SQL-only подхода в преобразовании данных и в dbt рассматривают вариант включить поддержку non-SQL [2] и Snowflake рассматривают добавление Python-in-DB через Snowpark [3]

Главный недостаток именно этого обзора с слабом покрытии инструментов с открытым кодом, их там совсем немного упомянуто. Зато роли и применение продуктов стартапов довольно много.

Ссылки:
[1] https://continual.ai/post/the-modern-data-stack-ecosystem-spring-2022-edition
[2] https://roundup.getdbt.com/p/disjointed-lineage
[3] https://www.snowflake.com/blog/snowpark-is-now-generally-available/

#data #reading #tools #moderndatastack
Я, кстати, тем кто думает над развитием IT продуктов не могу не порекомендовать видео "Смерть российской IT-разработки - правда или ложь? Будет ли мир покупать российские IT-продукты?" [1] Александра Горного (@startupoftheday). Он довольно точно описывает ситуацию что и раньше то большая часть "российских" ИТ продуктов переставали быть российскими как только выходили на мировые рынки. Их создатели создавали юр лица в штате Дэлавер, Гонконге и других юрисдикциях и уже так продавали на мировом рынке.

Значительная часть уехавших ИТ специалистов из России - это как раз те кто жили в глобальном рынке, вероятность что они вернутся весьма туманна. С чего бы, если в Россию невозможно переводить деньги? А то есть существуют объективные экономические причины.

В целом тема большая о том что остаётся в стране и в какой форме, что будет дальше с ИТ рынком, где границы рынка, каковы перспективы работы только внутри страны и другими подсанкционными территориями и тд.

Мои мысли примерно таковы.
Для всех кто хочет делать продукты на весь мир кроме как уезжать и запускать их за пределами России других вариантов, похоже, не будет. И наоборот, если амбиций мало, а на "хлеб с маслом" (буквально) чтобы хватало, можно создавать ИТ продукты и сервисы в России.

Есть ещё один важный фактор - это общая социальная и политическая атмосфера. Если перестать подшучивать над Минцифрой и поражаться их "гаремным отношениям" с профильными ассоциациями (я про необычный пул экспертов по импортозамещению ПО), то меры по поддержки ИТ отрасли это то что министерство делает хорошо, насколько это возможно.
Но... есть очень неотраслевые вещи про внутреннюю политику. Например, последние публикации политиков призывающие к охоте на ведьм на пятую колонну. Помимо того что вся эта кровожадность - это психически нездоровое явление, это все создаёт атмосферу при которой те кто могут уезжать, продолжат уезжать. На это Минцифры никак повлиять не может и экономические меры поддержки не помогут.

Ссылки:
[1] https://www.youtube.com/watch?v=1NZESfO5HLo

#thoughts #it
Для тех кто интересуется анализом и обработкой данных, большое обновление реестра семантических типов данных который я создавал когда-то для инструментов определения типов данных. Реестр называется metacrafter registry и его репозиторий доступен на github [1].

Обновления:
- 158 семантических типов данных
- 38 дополнительных шаблона записи данных
- 18 категорий, 6 стран и 6 языков. Поддерживаются некоторые типы данных специфичные для США, Великобритании, Франции и Испании и, конечно, России. Например. идентификаторы организаций.

Все семантические типы описаны теперь как индивидуальные YAML файлы [2], это значительно упрощает их развитие и обновление.

По сути над базой не хватает только веб интерфейса для постоянных ссылок (пермалинков).

Зачем это нужно? Этот реестр развитие утилиты metacrafter [3] написанной как универсальный инструмент определения смысловых полей данных в базах данных, вне зависимости от их названия. Утилита умеет работать с SQL, MongoDB, файлами CSV, JSON, JSON lines и BSON․ Определяет десятки типов полей, а самое главное, она расширяема и можно писать свои правила. В опубликованной версии присутствует пара десятков готовых правил, а в нашей внутренней версии в DataCrafter'е, их несколько сотен. Все они сейчас обновляются для привязки к реестру семантических типов.

Ссылки:
[1] https://github.com/apicrafter/metacrafter-registry
[2] https://github.com/apicrafter/metacrafter-registry/tree/main/data/datatypes
[3] https://github.com/apicrafter/metacrafter

#datatools #opensource #datacrafter #apicrafter
Задача: обогащение метаданных архива Эха Москвы

Продолжаем настраивать понятный пользовательский интерфейс для просмотра и поиска по архиву радиостанции «Эхо Москвы» (Echo of Moscow) от Ruarxive на сайте Internet Archive.

Для этого нам нужно обогатить метаданные архива, что настроить фильтры и использование расширенного поиска по архиву (информация о программах, ведущих и др. на русском и английском языках).

Просим помощи у волонтеров! Выполнение задачи не требует навыков программирования.

Подробное описание задачи: https://ruarxive.org/kb/volunteers/metadata-echo-moscow-archive
Текущее состояние с порталами открытых данных в России
❗️Недоступен портал открытых данных Воронежской области opendata.govvrn.ru
❗️Не работает уже давно портал открытых данных Кабардино-Балкарии od.kbr.ru, ссылка на него есть на сайте kbr.ru
❗️На сайте Правительства Тверской области тверскаяобласть.рф больше нет ссылки на раздел открытые данные. Сам раздел ещё доступен, но 2 года не обновляется и там всего 4 набора данных.
❗️Недоступен портал открытых данных Вологодской области data.gov35.ru
🔨 Снова работает портал открытых данных РФ data.gov.ru, работает в том смысле что открывается, а не в смысле возможности найти там что-то полезное

Каталог всех порталов и репозиториев в России и о России datacatalogs.ru

#opendata #data #russia #datacatalogs
Нужны ли интернет-провайдеры? Приемлема ли интернет цензура частных компаний? Почему мы вообще обязаны платить за интернет когда он становится обязательным? Это всё немаловажные вопросы о том как интернет и связь развивались все эти годы и как они должны.

В Евросоюзе эти вопросы разобраны в докладе Towards Public Digital Infrastructure посвящённому тому что цифровая инфраструктура должна быть приравнена к общественной инфраструктуре.

В докладе акценты расставлены в сторону контроля данных пользователями, то что называется Democratic Data Spaces, но я бы трактовал его сразу расширенно, на цифрую инфраструктуру как явление.

Тут важно помнить что доклад готовился на грант ЕС в рамках проекта Next Generation Internet и стоит предполагать появление этих идей в Европейском законодательстве в ближайшие годы.

P.S. Тем временем в России Ростех хочет получить контроль над Ростелекомом. А это, уж простите, но вхождение Ростелекома в состав военно-промышленного комплекса.

#data #policy #regulation #eu #digital
О зарплатах в ИТ [1] в США в 2022 г. в журнале IEEE Spectrum в 5 графиках. Можно обратить внимание на востребованность специалистов со знанием Go, Python и, как ни странно, Ruby on Rails.

А также стоит обратить внимание что многим в ИТ интересно решать проблемы связанные с системой здравоохранения, образованием и будущим системы труда. А космос и не только на втором плане.

Всё это про рынок труда в США, конечно.

А что же будет с российским рынком в ближайшее время? Какие специалисты будут наиболее востребованы?

Ссылки:
[1] https://spectrum.ieee.org/software-engineer-salary-2657117801

#it #jobs #salaries #usa
Я вернулся к написанию технических текстов на английском языке, в этот раз заметка Semantic data types. Systematic approach and types registry [1] в Medium о инструментах о которых я регулярно пишу тут и на других площадках. Это инструмент metacrafter [2] по определению типов данных и наконец-то завершенный реестр Semantic data types [3] в котором собираются смысловые типы данных которые поддерживаются утилитой metacrafter или будут поддерживаться в будущем.

Зачем это нужно я уже писал, это необходимо для задач:
- выявления персональных и чувствительных данных автоматически
- упрощения интеграции данных
- автоматического документирования баз данных
- контроля качества данных, в том числе автоматического

Об этом и другом про данные и про практическую работу с данными я, постепенно, буду писать больше.

Ссылки:
[1] https://medium.com/@ibegtin/semantic-data-types-systematic-approach-and-types-registry-a2c2a60a467b
[2] https://github.com/apicrafter/metacrafter
[3] https://registry.apicrafter.io/

#opendata #data #datatools #opensource #metadata
Полезное чтение про данные
- Union.ai [1] стартап с облачным управлением data workflows от создателей Flyte, продукта с аналогичными функциями с открытым кодом. Привлекли $10M инвестиций [2]
- The “Datadogs” of tomorrow. [3] интересные размышления о инструментах data observability и будущих возможностях в этой области
- Data Discovery Tool: why you absolutely need one! [4] обзор практического внедрения Amundsen, корпоративного каталога [мета]данных и data discovery tool. Полезное как практические обзор
- Feathr [5] LinkedIn выложили в открытый код свой feature store
- Data Engineering Best Practices [6] лучшие практики по дата инженерии, почти все написаны про облака. Нужен аналогичный обзор по лучшим практикам по не облачным инструментам с открытым кодом.
- Guidance Data engineer [7] описание профессии data engineer на сайте gov.uk. Текст из 2020 года, сейчас он также актуален. Хорошо структурировано для понимания того что это за профессия и какими навыками надо обладать. (После такого, конечно, читать российские "профстандарты" совершенно невозможно).
- Hudi, Iceberg and Delta Lake: Data Lake Table Formats Compared [8] сравнение инструментов создания озер данных от создателей Lakefs.

Ссылки:
[1] https://www.union.ai/
[2] https://techcrunch.com/2022/04/12/union-ai-raises-10m-to-simplify-ai-and-ml-workflow-orchestration/
[3] https://itnext.io/the-mlops-engineer-the-datadogs-of-tomorrow-614a88a374e0
[4] https://medium.com/hipay-tech/setting-up-a-data-discovery-tool-why-and-which-solution-to-choose-5e03fcbed458
[5] https://engineering.linkedin.com/blog/2022/open-sourcing-feathr---linkedin-s-feature-store-for-productive-m
[6] https://medium.com/@matt_weingarten/data-engineering-best-practices-2a02949b99c4
[7] https://www.gov.uk/guidance/data-engineer
[8] https://lakefs.io/hudi-iceberg-and-delta-lake-data-lake-table-formats-compared/

#data #readings
Продолжается архивация порталов открытых данных в РФ.

Я ранее уже писал что в таблице Airtable собран список порталов для архивации https://airtable.com/shr1rzsajTM5SSyoI, часть из них уже сохранены, это 39 порталов, часть из которых были собраны ранее, часть из которых собраны в формате веб-архива WARC, поскольку данные там лежат просто как файлы.

Но в списке гораздо больше ресурсов, некоторые из них - это цифровые репозитории где есть не только данные, а другие - это, например, порталы открытых бюджетов которые мы относили к порталам с открытыми данными поскольку чаще всего там данные публиковали машиночитаемыми.

Про некоторые наблюдения в процессе архивации данных и сайтов я уже писал, но есть что добавить.

1. Данных мало, данные плохого качества, данные редко обновляются, данные бессмысленны. Вот буквально это все вместе очень часто одновременно. Пример, Владимирская область https://avo.ru/opendata. Справедливы все эти утверждения.
2. Данные готовят и выкладывают в ручную на CMS администрации и описание их дают в виде файлов MS Word https://www.nso.ru/opendata и не обновляют их годами.

И это лишь пара примеров из многих, в целом видно что около 5% регионов в России публиковали данные осмысленно и продолжают это делать. Ещё около 50% делают это в режиме "на отвали" и оставшиеся просто забили и не обновляют свои порталы открытых данных.

Поэтому архивировать их важно и нужно. Код сбора сайтов и описание будут в репозитории на Github https://github.com/ruarxive/rudatarchive

Из ресурсов по которым может понадобиться помощь - это:
- showdata.gks.ru - витрины данных Росстата, там всё на Javascript'е и с извращениями, поэтому веб-архивация не сработает
- pod.gptl.ru - портал открытых данных ДЗЗ с картами Роскосмоса. Аналогично
- next.gptl.ru - фонд данных ДЗЗ (требует регистрации, бесплатно). Аналогично

Если Вы знаете какие-либо иные важные источники данных которые могут в ближайшее время исчезнуть - напишите об этом!

#opendata #digitalpreservation #webarchival #dataportals
В рубрике инструментов работы с данными Mistql [1] [2] утилита и библиотека для JS и Python позволяющая делать сложные запросы к JSON подобным данным.

Например, mistql умеет отрабатывать подобные запросы "events | filter type == "send_message" | groupby email | keys". Синтаксис немного необычный, но вполне понятный, по мне так он гораздо понятнее и удобнее языков запросов вроде jq и, конечно, очень хотелось бы чтобы NoSQL базы данных умели бы такие запросы обрабатывать и, вообще, нехватает универсального языка запросов для NoSQL баз данных.
Например, их не хватает для MongoDB или ArangoDB.

А я думаю добавить поддержку mistql в мой инструмент undatum [3]. Потому что текущий язык фильтрации данных совершенно несовершенен, а тут хороший подход и много задач где такое нужно.

Ссылки:
[1] https://www.mistql.com/
[2] https://github.com/evinism/mistql
[3] https://github.com/datacoon/undatum

#data #datatools #querylanguage #nosql #json
Чуть отвлекаясь от технологических тем дам ссылку на канал Олега Дерипаски который рассуждает (призывает) к сокращению госаппарата и силовых структур [1]․ Рассуждает он так словно собирается возглавить какую-то новую партию от бизнеса или претендует на должность в Пр-ве или в ЦБ РФ, но я хочу поднять другой вопрос.

Вот говорят что в России назревает мобилизационная экономика, а насколько соответствует текущее правительство всей этой "новой реальности"? Я не только про кадровый состав, я даже про саму структуру и организацию.

Может быть пора начать сокращение с вице-премьеров, сократив их максимум до 2-х?
Может быть пора сократить число органов власти до 15-20? Слишком многие дублируют функции друг друга и совершенно необоснованно раздроблены.
Может быть пора сократить числа замов руководителей в министерствах до 2-3 максимум ? А то министры с 12 замами выглядит как-то даже неприлично.
Может быть надо перестать плодить госАНО для вывода их сотрудников из под закона о госслужбе и госзакупок?
Может быть надо кардинально перестроить всю систему госзакупок, а не продолжать латать громоздкие 44-ФЗ и 223-ФЗ?
Может быть надо ускоренно ликвидировать или преобразовать унитарные предприятия? Помните же был план по приватизации, и где он теперь? Ау-ау!

Я могу продолжать долго, несколько лет назад я довольно активно участвовал в подготовке реформ госуправления, госзакупок и т.д. Сейчас, если честно, вопросы бизнеса, данных и технологий мне куда интереснее, потому что не остаётся ощущения что на 100% работы только 5% результата.

Я даже не призываю все эти реформы начать проводить, слишком многие из тех кто могли бы оценить их разумность и полезность активно уезжают из России с сильным настроем "пусть они сами всё доламывают, чем раньше оно разрушится тем раньше мы будем восстанавливать". Я слышу такое часто, не разделяю такую позицию, но понимаю тех кто её придерживается.

Предсказание дело неблагодарное, но я бы рискнул предположить что текущее Пр-во уйдет таки в отставку до конца этого года, а вот что придёт ему на замену предсказать не готов. В России слишком часто изменения подобного рода сопровождаются ожиданиями "А хуже не будет?". Будет конечно, так что не растрачиваем позитив до худших времен:)

Ссылки:
[1] https://t.iss.one/olegderipaska/402

#government #politics #regulation
Яндекс выложили в открытый доступ систему управления базами данных YDB [1] с полным исходным кодом [2]. Эта распределенная SQL база данных, с собственным расширением языка SQL - YQL [3] и, в целом, выглядит любопытно.

Что стоит внимания:
- работа в кластере как часть системы
- обещанная простая масштабируемость

Что удивительно:
- база написана полностью на C++, хотя сейчас более популярно когда базы данных создаются на более высокоуровневых языках, в том числе и для того чтобы привлечь разработчиков которые хотят их изучать
- поддержка JSON и иерархических данных весьма скромная, по крайней мере документации об этом мало, хотя и упоминается
- вместо придумывания своего языка запросов расширяют SQL, что может быть и не плохо, просто +1 SQL диалект
- нет PostgreSQL или MySQL "совместимости из коробки", а это полезная фича которую декларируют многие новые СУБД и сервисы.

В целом база явно написана под высокие нагрузки, стоит пристального внимания и тестирования.

Ссылки:
[1] https://ydb.tech/
[2] https://github.com/ydb-platform/ydb
[3] https://ydb.tech/ru/docs/yql/reference/

#data #opensource #yandex #tools
Open Knowledge Foundations раздаёт от $500 до $1000 грантами на организацию небольшим мероприятий по открытым данным в рамках программы Open Data Day Grants [1].

В России брать зарубежные гранты и даже получать деньги из других стран стало практически невозможно, поэтому это будет актуально скорее тем кто развивает тему открытых данных в других странах.

Ссылки:
[1] https://blog.okfn.org/2022/04/18/application-for-the-open-data-day-2022-small-grants-is-now-open/

#opendata #events #grants.