Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Мы, Инфокультура, запускаем кампанию по архивации сайтов порталов открытых данных, разделов с открытыми данными и иных источников официальных государственных открытых данных в России. Поскольку есть реальные риски снижения открытости гос-ва, уже происходящее исчезновение ряда информационных ресурсов и порталов открытых данных, например, в прошлом году был закрыт портал открытых данных Московской области, была попытка отказаться от портала открытых данных властями Санкт-Петербурга, а также исчезновение ряда значимых банков данных таких как реестр субсидий и многое другое.

Для архивации составлен список порталов открытых данных на основе каталога Datacatalogs.ru - https://airtable.com/shr1rzsajTM5SSyoI

А также репозиторий в Github https://github.com/ruarxive/rudatarchive

Слепки некоторых порталов были ранее сделаны:
- портал открытых данных data.gov.ru в феврале 2022 г. - https://cdn.ruarxive.org/public/dataportals/data.gov.ru/2022-02-02/datagovru_20220202.zip
- региональные порталы открытых данных 2017 года https://cdn.ruarxive.org/public/webcollect/opengov2017/

Архивация порталов открытых данных может быть сделана в виде сохранения WARC файлов, через выгрузку метаданных и данных в виде файлов, через выкачку API. Можно делать любым способом, главное обеспечить полное сохранение.

Код выгрузки из порталов data.gov.ru и data.mos.ru есть у нас в проекте DataCrafter, его и слепки, я опубликую для этой архивационной кампании. А вот для остальных порталов нужна помощь волонтеров. Поэтому если у Вас есть свободное время, берите на себя отдельные сайты, напишите скрипт/код под отдельные порталы, выкачивайте их и выкладывайте в какой-либо доступный источник, например, в Github или файловое хранилище. Мы перенесем архив в центральное хранилище на нашем сервере и в Интернет-архив.

Код можно опубликовать у себя в репозитории или сразу в https://github.com/ruarxive/rudatarchive/code в папку конкретного портала.

#opendata #data #archives #digitalpreservation
Неплохой обзор развёртывания ArangoDB [1], альтернативы MongoDB. Альтернативы, в целом, неплохой, но не то чтобы "вау, надо быстро всё заменять".

Как и MongoDB в ArangoDB есть поддержка JSON и загрузка JSON и JSON lines файлов, как и MongoDB в ArangoDB свой формат бинарной сериализации, VelocityPack (в MongoDB - это BSON). Но есть и куча нюансов, для меня лично одним из важнейших был то что в ArangoDB отсутствует тип данных "дата и время", вместо этого дата хранится как в JSON, в виде строки, а в языке запросов предусмотрены функции работы с ней. Лично по мне - это сомнительный подход, обойти это можно, но надо прикладывать лишние усилия. Хорошо бы упростить миграцию с MongoDB на ArangoDB.

С другой стороны, ArangoDB куда больше постепенно внедряется в data science и modern data stack. Там есть ArangoML [2], metadata store и многое другое. Плюс у них лицензия кода Apache 2.0, а не SSPL как у MongoDB.

Так что публикации про ArangoDB читать интересно и полезно, экспериментировать с ним стоит.

Ссылки:
[1] https://ericfossas.medium.com/the-best-nosql-database-for-kubernetes-fd920003e1ad
[2] https://www.arangodb.com/machine-learning/

#datatools #opensource #software #reading
Давно хочу поделиться наблюдением что практически у большинства тех кого я знаю из лиц принимающих решения и распоряжающиеся бюджетами, личными или государственными, есть какой-то устойчивый стыд современности. Не свежей, возникшей в этом году, а продолжающееся уже не одно десятилетие. У них практически полностью отсутствует ощущение что вокруг создаётся хоть что-то что должно быть сохранено для следующих поколений, столетий, общем, будущего.

Поэтому в течение этих лет мне, например, удавалось находить средства на проекты про "общественную ценность здесь и сейчас", но во всём что касалось сохранения современного культурного наследия, искусства, цифровых ресурсов всегда было полное непонимание кому и зачем это нужно.
Это касается и культурной сферы, публичная и финансируемая часть которая почти на 99% живёт прошлым, и архивной сферы которая живёт не просто прошлым, а это эдакий "концлагерь истории", выпускающий из своих недр по чуть-чуть исторической реальности.

Даже сейчас, когда на фоне первого, но не последнего цифрового цунами, из-за которого информационное пространство в России сильно сжимается, есть низовой запрос от реальных пострадавших от потери знаний и данных людей и отсутствует аналогичный запрос от тех кто принимает решения.
Почему так? Пока у меня ответ только через стыд. Большая часть элиты испытывает эпохальный стыд, не в смысле масштабов, а в смысле эпохи в которой, видимо, по их мнению не происходит ничего значимого.

#thoughts
Graphana Labs, разработчики продуктов с открытым кодом и облачного сервиса по мониторингу всякого, в основном связанного с DevOps привлекли $240 миллионов инвестиций [1]. Причём их хотя и можно отнести к DevOps, но у них в интеграциях заложено, например, подключение к Snowflake, и продукт позиционируется всё больше как observability platform, а тут естественное развитие в сторону интеграции в modern data stack.


Ссылки:
[1] https://grafana.com/about/press/2022/04/06/grafana-labs-announces-240-million-investment-round-led-by-gic-and-welcomes-new-investor-j.p.-morgan/

#data #startups #devops #moderndatastack
У Bena Stancil'а очередной замечательный текст про то как устроен рынок стартапов в областях data analytics и не только. В The end of Big Data [1] он пишет о том что Databricks в текущем виде - это раздутый пузырь и что главная ценность продуктов в области больших данных - это снимать головную боль у тех кто ими пользуется. У него в тексте хороший пример про "скучную" презентацию Snowflake которые без какого-либо глянца просто позиционировали свой продут как "Redshift только быстрее и лучше" и "Postgres только быстрее и лучше" и это работало и работает лучше чем лощёные слайды со стоковыми фотографиями.

Ben пишет ещё один важный момент что ключевые рыночные преимущества у онлайн хранилищ в том что они: а) Бесконечны б) Легко масштабируются. Если создаётся продукт не обладающий этими качествами, то на рынке ему уже места не найдётся.

Чтение интересное, всяческие рекомендую.

Ссылки:
[1] https://benn.substack.com/p/the-end-of-big-data

#data #startups #readings
Коротко по прогрессу архивации порталов открытых данных:
- систематизированы архивы data.gov.ru, data.mos.ru, opendata.mkrf.ru, раздел открытых данных Росстата (rosstat.gov.ru/opendata)
- готов архив fedstat.ru (спасибо Павлу Шувалову за помощь

Подробнее:
- репозиторий с с кодом https://github.com/ruarxive/rudatarchive
- список сохранённого и запланированного https://airtable.com/shr1rzsajTM5SSyoI

Для каких-то порталов есть готовый код который загружен в репозиторий, в нескольких случаях вроде data.mos.ru код у нас довольно глубоко закопан в APICrafter, думаю как его отделить потому что если опубликовать как есть, то без основного движка продукта его не запустить.

Как помочь? Выбрать портал открытых данных или соответствующий раздел из списка и написать скрипт который соберет все метаданные и все данные, насколько возможно полно. Например, по data.mos.ru пришлось сохранять метаданные из API, веб страницы, файлы и выгрузки дампов потому что там у них сложный движок с данными созданными в разных подходах. Но, чаще всего, выгружать данные проще, просто надо писать скрипты под каждый портал по отдельности или использовать только веб-архивацию.

Напомню что кампания по архивации порталов открытых данных начата для сохранения общедоступных открытых данных для всех пользователей. Все собираемые данные будут доступны на сайте проекта Ruarxive.org, ,а также будут дублироваться в Интернет архиве и подготовлены для долгосрочного сохранения.

Больше про архивационные кампании будет на канале @ruarxive.

#opendata #datasets #dataportals #russia #archives #digitalpreservation
В рубрике интересных продуктов для работы с данными Rising Wave [1] cloud-native streaming database that uses SQL as the interface. Иначе говоря свежая PostgreSQL совместимая СУБД заточенная под сбор данных из потоков данных создаваемых Apache Kafka, Redpanda, Pulsar, Kinesis, MySQL CDC, Postgres CDC. Главный плюс - открытый код. Разработчики - свежий стартап Singularity Data [2] явно ориентируются на развитие облачного продукта.

В общем и целом интересный продукт, стоит к нему присмотреться как он будет развиваться и насколько будет более продвинутым чем его аналоги.

Ссылки:
[1] https://www.risingwave.dev
[2] https://singularity-data.com/

#startups #datatools #streamingdata
Есть вопрос к залу (с) А знаете ли Вы решения с открытым кодом для создания личных кабинетов пользователей? Вот, к примеру, хочу я сделать приложение в котором есть несколько тарифов, бесплатный и несколько других, какие доп функции и тд. При этом это не мобильное приложение, а именно веб как основное. А может быть у меня таких приложений не одно, не два и не не три, а даже больше. Кажется странным каждый раз создавать личный кабинет под каждый, кажется логичным повторно использовать код или отделить интерфейс оплаты от функционального. Личный кабинет требует поддержки всех функций авторизации, регистрации, восстановления доступа. Поддержки нескольких вариантов тарифов (настраиваемо), API для взаимодействия с основным, функциональным приложением, может ещё что-то достаточно простое.

Ключевой вопрос - бывает ли такое с открытым кодом ? Может быть допиливаемое за деньги, может быть с чьим-то сопровождением, но именно не облачное, не enterprise вариант, а открытый код с возможностью его доработки. Мне вот оно что-то не встречалось и это несколько удивляет. Но может быть я не там и не правильно ищу?

#questions #apps #opensource
Инструменты для цифровых архивистов. Определение типа файлов

При цифровой архивации, особенно данных и материалов которым много лет, очень часто возникают задачи понимания тех файлов и форматов которые изначально использовались. Без этого невозможно понять как воспроизводить такие архивные файлы, нужно ли их преобразовывать, существуют ли ещё поддерживающие их программные продукты.

Цифровые архивисты используют и создают инструменты для решения этой задачи .

- PRONOM - база форматов файлов от Национальных архивов Великобритании. Распространяются как открытые данные, используются многими инструментами
- DROID (Digital Record and Object Identification) - также утилита от Национальных архивов Великобритании по идентификации типов файлов
- Apache Tika - утилита и библиотека кода на языке Java для определения типов файлов и извлечения данных из определяемых типов файлов, например, файлов MS Office.
- Siegfried - утилита командной строки идентифицирующая типы файлов на основании базы сигнатур PRONOM и других источников
- TrID - утилита идентификации форматов файлов, бесплатна для частного использования
- NARA File Analyzer and Metadata Harvester - утилита анализа форматов и сбора метаданных от Национальных архивов США. Не обновлялась уже 6 лет.

Существует множество других инструментов для цифровых архивов, мы будем делать регулярные обзоры инструментов разной сложности и под разные задачи.

#tools #digitalpreservation #fileidentification
Я только было хотел написать, но ребята с @roskomsvoboda опередили. Да, я считаю крайне ошибочно скрывать данные ради защиты от DDoS атак. Открытых данных должно быть больше, а не меньше
Forwarded from Roskomsvoboda
Сайт «Госзакупок» делают устойчивее к кибератакам

Центр по обеспечению деятельности Казначейства России выложил на портале госзакупок два тендера общей стоимостью более 1 млрд рублей.

В рамках одного из тендеров предпогалается оказание услуг по усилению защищенности портала госзакупок от DDoS-атак. При этом директор «Информационной культуры» Иван Бегтин @begtin считает, что для этого не обязательно тратить многомилионные суммы, а достаточно просто закрыть ресурс от зарубежных IP-адресов:

➡️ https://roskomsvoboda.org/post/goszakupki-mogut-zakryt/
В качестве небольшого оффтопика, не про ИТ, но про Минцифру.
Я долго думал какой комментарий подобрать этой новости.
Не придумал. Как прокомментировать коротко и ёмко?

https://digital.gov.ru/ru/documents/8187/

#digital #writers
В рубрике полезных инструментов для работы с документацией и воспроизводимостью исследований и работы с данными

Quatro [1] система с открытым кодом для подготовки научной и технической документации. Поддерживает интеграцию с Jupyter Notebook и создание dynamic documents, интерактивных публикаций, полезных в представлении многих научных результатов. Внутри Pandoc [2], умеет работать с Observable, Python, R, Julia и ещё много чего. Для полного счастья не хватает только web UI/GUI и удивительно что нет стартапа который бы подобное поверх Quatro не запилил, потому что движок также умеет делать книжки в ePub, PDF, MS Word.
В целом выглядит как удобная надстройка над Pandoc.

Курс Reproducible and Trustworthy Workflows for Data Science [3] о том как делать проекты для data science воспроизводимыми. Актуально для любых проектов на данных и аналитика без data science тоже, но тут всё подробно и конкретно. Курс полезный, стоит его пройти.

Ссылки:
[1] https://quarto.org/
[2] https://pandoc.org/
[3] https://ubc-dsci.github.io/reproducible-and-trustworthy-workflows-for-data-science/README.html

#openscience #opensource #documentation #datascience
По поводу свежей новости о том что Минцифры представили список лиц ИТ отрасли ответственных за импортозамещение [1], мне много что есть что сказать. Я бы даже сказал что очень много что есть сказать, но ограничусь очень краткими тезисами. У меня остаётся ощущение что это какие-то очевидные вещи, но видимо их надо явно проговаривать.

1. У почти всех экспертов почти всегда есть конфликты интересов. Решается это наличием нескольких экспертов в теме и неучастием в обсуждении тех у кого такой конфликт интересов есть. В ситуации когда "один эксперт - одна тема" - конфликты интересов неразрешимы.
2. У нас в стране есть достаточно давняя девальвация понятия "эксперт" и смешение понятий эксперт/лоббист/говорящая голова. Вот и в этом списке есть те кто реально имеет 20+ опыт в том что делает, и те кто представляет GR и маркетинг. Зато GR специалисты - это "все узнаваемые лица", иначе говоря остаётся ощущение что выбирают их по критерию представления конкретной группы интересов конкретной компании, а не по факту объективного отраслевого опыта.
3. Позиции общественных советников - это лоббистские позиции. Лоббизм - это не хорошо, не плохо, это жизнь, главное чтобы эта жизнь не препятствовала остальной жизни и, да, в России нет закона о лоббизме, но все всё понимают (с)
4. Формулировка "ответственные за направления" коварна тем что ответственность без власти не работает. А власть - это выпуск нормативных документов и право распоряжаться бюджетом. Текущие позиции - это не ответственные, это назначение "координаторами групп на общественных началах". Возвращаемся к проблеме конфликтов интересов и GR специалистов, вместо экспертов по многим направлениям.
5. При этом есть понятная проблема. Дефицит (отсутствие) кадров в самом министерстве, почти экстремальная ситуация на ИТ рынке и тд. Но действия при этом непонятные, вернее понятные со стороны участвующих ассоциаций, но непонятные с точки зрения видения результата.

Вот ключевой вопрос тут - а что результатом то будет? Эффективность мер по каким критериям будут измерять?

И, наконец, самое главное, то, что, к сожалению, понимают пока ещё не все. Релокация личная/бизнеса возможна для ИТ и для ряда предпринимателей, а подавляющее большинство сотрудников правоохраны никуда из России не уехали и уехать не могут. А у них тоже жёны, дети, и резкое падение доходов. А ИТ отрасль не стройка, она куда больше на виду чем кажется. Любые конфликты интересов могут выйти боком уже буквально через 1.5-2 года, потому что мотивации у следователей будет больше (потому что "кормовой базы" меньше).

Поэтому я не понимаю всей этой конструкции, если честно. Но совершенно искренне желаю успеха тем кто понимает и знает что делает и сможет хоть что-то.

Ссылки:
[1] https://habr.com/ru/news/t/660579/

#government #policy #lobbying
В законопроекте № 101234-8 [1] по регулированию персональных данных теперь нужно будет разрешение собственников если Вы хотите получить сведения о владельцах недвижимости и много разных других новаций.

Эти данные и раньше открытыми до конца не были, а теперь будут совсем закрыты.

Больше всех должны быть рады все те кто оказался объектами журналистских расследований. Но спрос никуда не денется, просто сместится в черный рынок.

Ссылки:
[1] https://sozd.duma.gov.ru/bill/101234-8
[2] https://www.cian.ru/stati-vydachu-dannyh-iz-egrn-hotjat-ogranichit-povysitsja-bezopasnost-ili-risk-moshennichestva-324570/

#opendata #data #egrn #policy
Для тех кто любит работать (с данными) в командной строке хорошая подборка новых инструментов [1], как просто для работы, так и для работы с данными.
Мой личный список значительно шире, какие-то инструменты я писал сам, для наиболее частых задач, например, undatum утилита работы с JSON lines и BSON и другими форматами данных или lazyscraper для быстрого сбора данных с веб-страниц через командную строку.

Чувствую что надо составить собственный список, а в представленном списке выше есть немало того что стоит попробовать.

Ссылки:
[1] https://jvns.ca/blog/2022/04/12/a-list-of-new-ish--command-line-tools/

#opensource #tools #data #datatools
Свежий обзор The Modern Data Stack Ecosystem: Spring 2022 Edition [1] от Continual.ai, Конечно, как и все, они описывают Modern Data Stack с точки зрения их места в экосистеме, но, собственно и сам термин так активно используется стартапами именно для того чтобы показать позиционирование своего продукта. Удивительно что для MDS ещё нет холста в популярных системах проектирования вроде Miro и т.д.

Обзор полезный, например, автор отмечает отход от SQL-only подхода в преобразовании данных и в dbt рассматривают вариант включить поддержку non-SQL [2] и Snowflake рассматривают добавление Python-in-DB через Snowpark [3]

Главный недостаток именно этого обзора с слабом покрытии инструментов с открытым кодом, их там совсем немного упомянуто. Зато роли и применение продуктов стартапов довольно много.

Ссылки:
[1] https://continual.ai/post/the-modern-data-stack-ecosystem-spring-2022-edition
[2] https://roundup.getdbt.com/p/disjointed-lineage
[3] https://www.snowflake.com/blog/snowpark-is-now-generally-available/

#data #reading #tools #moderndatastack
Я, кстати, тем кто думает над развитием IT продуктов не могу не порекомендовать видео "Смерть российской IT-разработки - правда или ложь? Будет ли мир покупать российские IT-продукты?" [1] Александра Горного (@startupoftheday). Он довольно точно описывает ситуацию что и раньше то большая часть "российских" ИТ продуктов переставали быть российскими как только выходили на мировые рынки. Их создатели создавали юр лица в штате Дэлавер, Гонконге и других юрисдикциях и уже так продавали на мировом рынке.

Значительная часть уехавших ИТ специалистов из России - это как раз те кто жили в глобальном рынке, вероятность что они вернутся весьма туманна. С чего бы, если в Россию невозможно переводить деньги? А то есть существуют объективные экономические причины.

В целом тема большая о том что остаётся в стране и в какой форме, что будет дальше с ИТ рынком, где границы рынка, каковы перспективы работы только внутри страны и другими подсанкционными территориями и тд.

Мои мысли примерно таковы.
Для всех кто хочет делать продукты на весь мир кроме как уезжать и запускать их за пределами России других вариантов, похоже, не будет. И наоборот, если амбиций мало, а на "хлеб с маслом" (буквально) чтобы хватало, можно создавать ИТ продукты и сервисы в России.

Есть ещё один важный фактор - это общая социальная и политическая атмосфера. Если перестать подшучивать над Минцифрой и поражаться их "гаремным отношениям" с профильными ассоциациями (я про необычный пул экспертов по импортозамещению ПО), то меры по поддержки ИТ отрасли это то что министерство делает хорошо, насколько это возможно.
Но... есть очень неотраслевые вещи про внутреннюю политику. Например, последние публикации политиков призывающие к охоте на ведьм на пятую колонну. Помимо того что вся эта кровожадность - это психически нездоровое явление, это все создаёт атмосферу при которой те кто могут уезжать, продолжат уезжать. На это Минцифры никак повлиять не может и экономические меры поддержки не помогут.

Ссылки:
[1] https://www.youtube.com/watch?v=1NZESfO5HLo

#thoughts #it
Для тех кто интересуется анализом и обработкой данных, большое обновление реестра семантических типов данных который я создавал когда-то для инструментов определения типов данных. Реестр называется metacrafter registry и его репозиторий доступен на github [1].

Обновления:
- 158 семантических типов данных
- 38 дополнительных шаблона записи данных
- 18 категорий, 6 стран и 6 языков. Поддерживаются некоторые типы данных специфичные для США, Великобритании, Франции и Испании и, конечно, России. Например. идентификаторы организаций.

Все семантические типы описаны теперь как индивидуальные YAML файлы [2], это значительно упрощает их развитие и обновление.

По сути над базой не хватает только веб интерфейса для постоянных ссылок (пермалинков).

Зачем это нужно? Этот реестр развитие утилиты metacrafter [3] написанной как универсальный инструмент определения смысловых полей данных в базах данных, вне зависимости от их названия. Утилита умеет работать с SQL, MongoDB, файлами CSV, JSON, JSON lines и BSON․ Определяет десятки типов полей, а самое главное, она расширяема и можно писать свои правила. В опубликованной версии присутствует пара десятков готовых правил, а в нашей внутренней версии в DataCrafter'е, их несколько сотен. Все они сейчас обновляются для привязки к реестру семантических типов.

Ссылки:
[1] https://github.com/apicrafter/metacrafter-registry
[2] https://github.com/apicrafter/metacrafter-registry/tree/main/data/datatypes
[3] https://github.com/apicrafter/metacrafter

#datatools #opensource #datacrafter #apicrafter
Задача: обогащение метаданных архива Эха Москвы

Продолжаем настраивать понятный пользовательский интерфейс для просмотра и поиска по архиву радиостанции «Эхо Москвы» (Echo of Moscow) от Ruarxive на сайте Internet Archive.

Для этого нам нужно обогатить метаданные архива, что настроить фильтры и использование расширенного поиска по архиву (информация о программах, ведущих и др. на русском и английском языках).

Просим помощи у волонтеров! Выполнение задачи не требует навыков программирования.

Подробное описание задачи: https://ruarxive.org/kb/volunteers/metadata-echo-moscow-archive