Ivan Begtin
9.37K subscribers
2.3K photos
4 videos
109 files
4.99K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email [email protected]

Ads/promotion agent: @k0shk
Download Telegram
Вышел отчёт ОЭСР Government at Glance 2025 [1] с обзором состояния и трендов государств членов и кандидатов в ОЭСР по таким темам как бюджетные расходы (дефицит), цифровизация, открытость и многое другое.

Для тех кто следит за публикациями ОЭСР будет не так интересно, поскольку в отчетах приводятся данные прошлых лет, 2022-2024 в данном случае, например, цифры по открытости данных из индекса OURIndex за 2023 год и так далее.

Но отчет будет интересен тем что предпочитает читать слова, а не таблицы.

Там же доступны отчеты по отдельным странам.

Из постсоветских стран в ОЭСР представлены только Латвия, Литва и Эстония.

Лично я эти отчеты читаю по диагонали потому что там только общие оценки и графики, а не разбор конкретных кейсов, такие материалы в других документах, но любопытное встречается.

Например, то что в РФ называют проактивными госуслугами, в терминологии ОЭСР звучит как life events approach to service design and delivery и далеко не во всех развитых странах он существует.


Ссылки:
[1] https://www.oecd.org/en/publications/government-at-a-glance-2025_0efd0bcd-en.html

#opengovernment #opendata #readings #oecd #reports
4👍2
Для тех кто интересуется моя презентация Особенности открытого доступа и открытых данных в гуманитарных науках [1] в открытом доступе, с обзором открытого доступа и открытых научных данных

Ссылки:
[1] https://www.beautiful.ai/player/-OTvQBg2a4JCj0PfyeTk

#opendata #openaccess
1👍16
В продолжение про инструмент metawarc, о котором я ранее писал и то зачем он нужен и может применяться. Вот у меня как маленькое цифровое хобби есть архивация сайтов исчезающих и иных ценных ресурсов, в том числе российских госорганов. Всё оно сфокусировано на проект Национальный цифровой архив ruarxive.org и сообщество в ТГ.

И вот несколько недель назад закончилась архивация сайта Росстата и его территориальных управлений и вот вам некоторое количество цифр которые дадут более-полную-картину.

1. Общий архив сайтов Росстата и территориальных органов - это 330ГБ WARC файлов в сжатом виде (в разжатом виде около 1.1ТБ)
2. Индекс созданный с помощью metawarc занимает 144МБ (0.04% от объёма WARC файлов). Без сбора метаданных из изображений, PDF и файлов MS Office, только записи, заголовки и ссылки. Но поскольку задач OSINT тут нет, то и остальные метаданные не собирались. Впрочем и их объёмы были бы сравнимого размера.
3. На сайтах Росстата опубликовано в общей сложности:
- 64 020 файлов XLSX
- 17 562 файлов XLS
- 14 410 файлов RAR и ZIP внутри которых могут быть ещё десятки таблицы в XLS/XLSX (а могут и не быть, не во всех)
4. Итого если даже только на основе статистики Росстата создавали когда-то портал data.gov.ru там было могли быть десятки тысяч, если не хороших, то совершенно точно используемых аналитиками и исследователями данных.
5. То как оно сейчас на сайте Росстата и его террорганов опубликовано - это, конечно, ужас-ужас. Просто ну очень плохо, нет ни единого поиска, ни унифицированных метаданных и форматов, ни единой группировки и тд. Чем Росстат занимался последнее десятилетие я даже не представляю себе, вернее представляю, но не комментирую.
6. Забегая вперед и отвечая на незаданный вопрос, нет, не у всех статслужб в мире всё так же. В таком состоянии дела обычно только у статслужб развивающихся стран.
7. Возвращаясь к содержанию сайтов Росстата. Преимущественно публикации на них - это PDF файлы и таблички в HTML. Всего около 152 тысяч PDF файлов. Даже если предположить что какая-то их часть - это приказы и иные документы без данных, но разного рода статистика составляет львиную их часть.

Архивы сайтов могут быть довольно таки ценным источником данных, но для их извлечения надо приложить существенные усилия. Особенно когда они фрагментированы так как это произошло на сайте Росстата. Однако учитывая что многие сайты закрываются и исчезают и часто от них всё что остаётся - это как раз веб-архивы, то только из этих веб архивов и можно извлекать данные и документы.

#opendata #opensource #webarchivesё
👍43🔥3😢1🙏1
Полезные ссылки про данные, технологии и не только:
- Why Parquet Is the Go-To Format for Data Engineers про формат Parquet, его особенности и трюки/оптимизации при работе с этими файлами. Полезно для тех кто про формат уже слышал, но почти не использовал.
- Data.gouv.fr High-value datasets свежая страница на французском национальном портале открытых данных с наборами данных высокой ценности (в терминах регулирования Евросоюза).
- Data Paper Index (China) - каталог статей на данных (data papers) из более чем 2,2 тысяч статей в 100 научных журналах и связанные с 11 научными репозиториями. Основные темы: окружающая среда, науки о земле. напомню что data papers - это вид научных статей опубликованных вокруг одного или нескольких наборов данных.

#opendata #datasets #dataengineering
4🔥3
В блоге IMF про стремительно растущее энергопотребление дата центров [1]. О том что все дата центры мира уже потребляют больше электричества чем Франция, а скоро будут потреблять больше электричества чем вся Россия.

Так в 2023 году дата центры потребляли порядка 500 тераватточасов, а к 2030 году ожидается 1500 тераватточасов.

Даже интересно пробудит ли это интерес инвесторов и резкий прогресс к термоядерной энергетике и другим способам получения больших объёмов электроэнергии или же перефокусировке разработчиков чипов с производительности на снижение энергопотребления?

В апреле из IMF была работа Power Hungry: How AI Will Drive Energy Demand [2] и там как-то всё было неопределенно. О том что появление моделей вроде Deepseek позволяет экономить на энергопотреблении, но, одновременно стимулирование применение ИИ теми кто ранее не мог себе этого позволить. И есть риски как недоинвестиций в энергетику и дата центры, так и роста цена на электричество при росте потребления.

У IMF, оказывается, есть прогностическая модель IMF-ENV [3] для оценки применения регулирования и реализация доказательной политики где как раз сильный фокус на поставки и потребление энергии.

И, конечно, про данные. Больше данных о энергопотреблении датацентров можно узнать:
- на сайте МЭА [4] - дают график, не дают скачать
- в США на сайте департамента энергетики отчёт за 2024 г. [5]
- в докладе ЕС в 2024 году [6] за 2023 год
- в официальной статистики Ирландии [7] за 2023 год

Ссылки:
[1] https://www.imf.org/en/Blogs/Articles/2025/05/13/ai-needs-more-abundant-power-supplies-to-keep-driving-economic-growth
[2] https://www.imf.org/en/Publications/WP/Issues/2025/04/21/Power-Hungry-How-AI-Will-Drive-Energy-Demand-566304
[3] https://www.imf.org/en/Publications/WP/Issues/2025/04/11/IMF-ENV-Integrating-Climate-Energy-and-Trade-Policies-in-a-General-Equilibrium-Framework-565817
[4] https://www.iea.org/data-and-statistics/charts/data-centre-electricity-consumption-by-region-base-case-2020-2030
[5] https://www.energy.gov/articles/doe-releases-new-report-evaluating-increase-electricity-demand-data-centers
[6] https://publications.jrc.ec.europa.eu/repository/handle/JRC135926
[7] https://www.cso.ie/en/releasesandpublications/ep/p-dcmec/datacentresmeteredelectricityconsumption2023/keyfindings/

#energy #dataviz #IMF #datasets #opendata
54
Научная статья Data manipulation within the US Federal Government в журнале Lancet о том что федеральное правительство в США изменяло ранее опубликованные данные никого об этом не уведомляя. Делали это агентства и учреждения ответственные за общественное здравоохранение с ранее опубликованными данными опросов и исследований.

Авторы проанализировали 232 набора данных опубликованных CDC (Центры по контролю и профилактике заболеваний США) и обнаружили что с приходом администрации Трампа были изменены 49% (114 наборов данных), в основном изменения были в замене слова gender на sex, а также были иные изменения в структуре и описаниях данных.

При этом исследователи не анализировали глубоко сами датасеты, на предмет сохранения их полноты, из-за ограничений доступности архивных данных и использовали ранее сохраненные слепки из Интернет Архива.

С одной стороны не так много стран где можно опубликовать научную статью о том что "государства лгут и манипулируют", с другой даже в развитых странах такие публикацией встретишь нечасто. Здесь, конечно, хочется сказать что нам бы их проблемы, лично я чаще сталкиваюсь с тем что данных просто нет или то что при смене политической повестки данными не просто манипулируют, их убирают из открытого доступа.

А эта история наглядно тем что всё больше пользователей государственных данных осознают ценность их архивации.

#opendata #datasets #readings #usa #healthcare
👍61😱1
Не буду давать ссылки на конкретные издания которые пишут пред-анонсы того что в РФ 15 июля планируется перезапуск data.gov.ru. Во первый сами публикации довольно, скажем так, неумелые, а во вторых говорить про то что сделано будет на data.gov.ru лично я буду только после того как увижу его в обновлённой форме 15 июля, если, это, конечно, произойдёт.

А пока в качестве напоминаний:
1. Портал data.gov.ru был недоступен более 2-х лет будучи "закрытым на обновление"
2. В предыдущей версии было доступно более 20+ тысяч наборов данных, большая часть которых, конечно, были мусорными, но тем не менее.
3. Полный слепок архива прошлой версии data.gov.ru у нас есть в ruarxive.org, если он Вам понадобится, напомните, я продублирую ссылку на дамп и вебархив

Честно говоря у меня лично нет вообще никаких позитивных ожиданий от того что российский портал data.gov.ru перезапускают. Есть много стран таких как Зимбабве или Чад где тоже нет порталов открытых данных. И ничего, живут же как-то;)

#opendata #russia
👍13🌚4🐳1
💡 Чем интересен Dateno?

Это поисковик по открытым данным, который собирает не только метаданные о датасетах и API, но и ссылки на связанные ресурсы, часть из которых даже архивирует. Это позволяет не только искать данные, но и анализировать, как они публикуются и в каких форматах.

📊 Немного цифр:
На июль 2025 года в Dateno собрано 5 961 849 наборов данных из порталов открытых данных. Это примерно 27% от всех датасетов, слоёв карт и временных рядов, которые агрегируются из разных каталогов и геопорталов.

👀 Что внутри этих датасетов?
У одних нет вообще никаких файлов, у других — сотни вложений. Поэтому корректнее считать не сами датасеты, а количество ресурсов (файлов и ссылок). Их в базе уже 6,7 млн — примерно 1.1 ресурса на один датасет.

📥 Форматы ресурсов:

CSV — 1 008 646 (15%)

XLSX — 525 329 (7.8%)

XML — 522 501 (7.8%)

JSON — 509 668 (7.6%)

ZIP — 496 709 (7.4%)

PDF — 487 189 (7.3%)

HTML — 475 377 (7.1%)

WMS — 320 159 (4.8%)

NC — 233 229 (3.5%)

XLS — 185 855 (2.8%)

WCS — 141 472 (2.1%)

KML — 122 781 (1.8%)

DOCX — 115 723 (1.7%)

📌 CSV — безусловный лидер. Также популярны XLSX, XML, JSON, старый добрый XLS. Геоформаты вроде WMS, WCS, KML встречаются реже, но их роль растёт.

📄 Почему столько PDF, DOCX и HTML?
Часто вместо машиночитаемых данных публикуют отчёты или ссылки на внешние сайты. Иногда приходится буквально вытаскивать данные из PDF-документов.

🤖 А что с форматами для data science?
Формат Parquet, популярный в дата-инженерии и аналитике, встречается крайне редко — всего 1652 файла (меньше 0.025% всех ресурсов!). Печально, но открытые данные пока ещё далеки от удобства для дата-сайентистов.

Хочется верить, что это изменится.

#данные #opendata #dateno #datascience #dataengineering
🔥75
Я вот думал всё как показать реальную картину импортозамещения в российских госорганах и вспомнил про архивацию госсайтов и что у меня есть какое-то число архивов сайтов госорганов, не всех, но есть хотя бы 20 сайтов ведомств. А утилита metawarc, о которой я рассказывал ранее, умеет извлекать метаданные из файлов .xlsx, .docx, .pptx и других (общий стандарт там OOXML).

Ну а поскольку MS Office и опенсорсные и российские пакеты для работы с документами сохраняют разное в атрибуте Application в метаданных, то осталось только извлечь метаданные и сделать выборки по популярности офисного ПО на ограниченном числе госсайтов.

Итак:
За период до 2022 года включительно доступно 9328 документов из которых
- 62 документа сделано в LibreOffice
- 2 документов в MyOffice
- 1 документ в Р7-Офис
- 3 документа в WPSOffice

Остальные в MS Office

В общей сложности 68 из 9328 документов сделано не в MS Office (0.07%)

За период 2023-2025 годов всего 3108 документов, из которых:
- 155 созданы в Р7-Офис
- 132 созданы в LibreOffice
- 14 созданы в WPS Office
- 4 созданы в MyOffice

Итого 305 документов из 3108 сделаны не в MS Office, это около 10%.

Подсчёт грубый, не все архивы сайтов госорганов РФ у меня под рукой, чаще файлы публикуют в PDF и тд.

В общем и целом анализ без строгой методологии.

Но некоторую картинку происходящего даёт. 10% это много или мало? Не знаю.

Это пример для чего ещё могут быт полезны веб архивы

#opendata #webarchives #documents
❤‍🔥7🔥7👍52
Попалось на глаза довольно давнее исследование [1] частотности применения комбинаций цифр в PIN кодах. Исследованию уже 13 лет, но, ИМХО, всё ещё актуальное. Кроме того датасет из 3.4 миллионов PIN кодов тоже доступен [2] и он относительно недавно обновлялся.

Применимо всё это не только к PIN кодам, но и ко всем аналоговым и цифровым замкам с цифрами.

Лично я раньше, регулярно, раз в месяц, устраивал себе день паранойи с ревизией паролей и мер безопасности данных и тд.

Потом слегка расслабился, стал делать это куда реже, но самые частые PINы совершенно точно не использую уже давно.

Ссылки:
[1] https://www.datagenetics.com/blog/september32012/
[2] https://github.com/Slon104/Common-PIN-Analysis-from-haveibeenpwned.com

#security #datasets #opendata
71👍1