Ivan Begtin
8.09K subscribers
1.99K photos
3 videos
102 files
4.71K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Свежие тенденции госинноваций из последнего отчета ОЭСР [1]:
- Тенденция 1: ориентированные на будущее и совместно созданные государственные услуги
- Тенденция 2: Цифровые и инновационные основы для эффективных государственных услуг
- Тенденция 3: персонализированные и проактивные государственные услуги для -обеспечения доступности и инклюзивности
- Тенденция 4: Государственные услуги, основанные на данных, для принятия более эффективных решений
- Тенденция 5: Государственные услуги как возможность участия общественности

Вернее ну как свежие, мало что поменялось, разве что все инновации стали привязаны к цифровым сервисам.

Я не устаю повторять что нет давно уже цифровой экономики, есть просто Экономика и она вся цифровая, а та что нецифровая - это Маргинальная экономика.

И нет давно уже Цифрового госуправления. Есть Госуправление и оно должно быть/уже есть всё цифровое. А всё что нецифровое - это форма варварства.

По 4-му тренду практически все примеры про открытые данные и про трансформацию порталов с открытыми данным в оказание услуг информирования, например, о качестве воздуха. Про примеры я как-нибудь потом напишу, про те что самые интересные, а также как тут не вспомнить про очень полезный каталог инноваций у ОЭСР - OPSI [2] с разбором очень многих проектов.

А вообще такие доклады полезны примерами. Почитать их стоит хотя бы просто чтобы знать что в мире творится то.

Ссылки:
[1] https://www.oecd.org/en/publications/global-trends-in-government-innovation-2024_c1bc19c3-en/full-report.html
[2] https://oecd-opsi.org/

#opendata #opengov #data #oecd #government #innovation
И ещё про итоги года, самое время вспомнить про тренды открытости и доступности данных в мире.

1. Больше международных данных. Совершенно точно общедоступных данных становится больше, большая часть новых данных публикуются как открытые (под свободными) лицензиями. Например, на большинстве сайтов активных межгосударственных организаций разделы "Статистика" и "Исследования" переименовали в разделы "Данные" или "Данные и статистика" и "Данные и исследования". Я бы даже сказал что это стало нормой для почти всех структур входящих в ООН, к примеру.

2. Больше данных городов и муниципалитетов
. Местные/городские данные один из приоритетов OGP, порталы данных городов появляются во все большем числе стран и наиболее активно создаются порталы геоданных. А также именно в городах чаще используют SaaS решения вроде OpenDataSoft и ArcGIS Hub.

3. Больше данных для машинного обучения. Этот тренд исключительно нарастает, помимо Kaggle и Hugging Face данные публикуют на многочисленных других порталах и сайтах компаний, исследовательских центров и так далее.

4. Постепенное проникновение дата инженерии и дата сайенс в открытые данные. Это происходит медленно но в последние пару лет особенно заметно и то что данные всё чаще доступны для массовой выгрузки (bulk download) и в форматах вроде parquet (данные из порталов OpenDataSoft, данные французского нац портала портала, данные нац портала Малайзии)

5. Больше особенно ценных данных. Инициатива High Value Datasets в Европейском союзе развивается и за его пределами. Появляется всё больше данных имеющих прямую измеренную пользу для экономики и всё более закрепляется политика государств что открытость этих данных несёт больше пользы обществу и бизнесу в частности чем торговля ими.

6. Расширение вклада биг техов в открытость данных.
Это касается тех данных которые касаются общей инфраструктуры, данных полученных с помощью ИИ, данных необходимых для обучения LLM моделей. Чаще всего это не собственные данные, а чьи-то ещё переупакованные, обогащённые и тем не менее полезные. Например, данные в рамках Overture Maps.

7. Усиление движения открытого доступа (Open Access).
Что выражается не только в том что повышается доступность научных статей, но и в появлении всё большего числа порталов исследовательских данных открытого доступа. Также становится больше специализированных порталов данных привязанных к конкретным научным дисциплинам и их специфике.

8. Сложность восприятия ИИ среди open data активистов
. Главными бенефициарами открытости не только данных, но и любых других свободно распространяемых материалов оказываются big tech компании, а теперь ещё и OpenAI и лидеры рынка LLM моделей. На многих волонтеров начинает давить ощущение что именно биг техи, а не общество выигрывают от открытости данных.

#opendata #opengov #data #thoughts
В качестве регулярного напоминания портал российский государственный портал открытых данных data.gov.ru недоступен почти два года, с начала марта 2023 года. Новая версия должна быть открыта в этом году, но почти наверняка не будет содержать всех данных что были ранее.

В 2022 году я делал полный архивный слепок портала и он доступен для выгрузки [1]. Это 13GB в ZIP файле и около 29GB после распаковки.

Ссылки:
[1] https://hubofdata.ru/dataset/datagovru-20220202

#opendata #opengov #russia #datasets #digitalpreservation #webarchives
В рубрике интересных открытых данных проект The Data Liberation Project [1] создан командой НКО MuckRock [2] в США и содержит наборы данных которые они каким-либо способом получили, очистили, переформатировали и подготовили. В основном это данные интересные для журналистов и на которые благодаря их работе можно сослаться. Например, там есть датасет по использованию воды [3] из реестра USGS или база жалоб заключенных [4].

Значительная часть данных получена через FOI запросы к органами власти, а далее преобразована ими в форматы SQlite, превращено в веб сайты и тд.

Можно было бы назвать их каталогом данных, но скорее просто список. Значительную часть результатов они публикуют просто файлами на Google Drive. С другой стороны они готовят весьма осмысленную документацию на наборы данных [5].

Я вспомнил про него ещё и потому что увидел что MuckRock хостят онлайн мероприятие посвящённое архивации федеральных данных в США [6] с участием главы Интернет Архива, Марка Грехэма и Джека Кушмана из Harvard Law School Library Innovation Lab. Первые ведут проект End of term с архивом материалов прошлой администрации, а вторые сделали полный слепок данных data.gov на 16TB.

Ссылки:
[1] https://www.data-liberation-project.org
[2] https://www.muckrock.com
[3] https://www.data-liberation-project.org/datasets/usgs-water-use-inventory/
[4] https://www.data-liberation-project.org/datasets/federal-inmate-complaints/
[5] https://docs.google.com/document/d/1vTuyUFNqS9tex4_s4PgmhF8RTvTb-uFMN5ElDjjVHTM/edit?tab=t.0#heading=h.iw2h1hjfzqu0
[6] https://www.muckrock.com/news/archives/2025/feb/10/federal-data-is-disappearing-on-thursday-meet-the-teams-working-to-rescue-it-and-learn-how-you-can-help/

#opendata #opengov #digitalpreservation