Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Я тут регулярно ругаюсь на то как стремительно закрываются данные внутри РФ и в этом канале даже специальный хэштег есть #closeddata посвящённый случаям закрытия данных. Ни в коей мере не отказываясь от того что этот тренд развивается, для разнообразия, есть и другое мнение.

Есть проект Open Data Inventory [1] по наблюдению доступности и оценке этой доступности статистических данных ведёт его НКО Open Data Watch
основанная профессиональными исследователями и статистиками и в их понимании открытые данные - это статистика (что конечно не совсем так, но допустим).

Раз в два года они проводят оценку доступности данных по странам по критериям покрытия (coverage) и открытости (openness) официально публикуемых индикаторов.

И вот по их оценке открытость статистики РФ между 2020 и 2022 годом выросла аж на 3 балла, с 59 до 62, а позиция в общем рейтинге с 59й на 57ю.

Вы спросите как такое возможно? В основном из-за критериев оценки по доступности индикаторов, в данном случае появлении данных по уровню иммунизации и индикаторах результатам обучения, таким как SDG 4.1.1 [2] которые Росстат раскрывал в 2021 году.

Здесь, безусловно, надо оговорить то что открытость в восприятии макроэкономической статистики и о внутренних процессах - это два разных явления. Скрупулёзный анализ требует гораздо более качественных данных, с большей частотность, и большей гранулярностью чем макроэкономические годовые индикаторы охватывающие всю страну и с годовой задержкой.

Почти наверняка оценки в ODIN за 2024 год будут отличаться, не могу предсказать как, но то что будут сомнений нет. Новые оценки появятся не раньше чем к августу 2025 года.

Пока же можно посравнивать доступность статистики по разным странам за 2022 год.


Ссылки:
[1] https://odin.opendatawatch.com/
[2] https://eng.rosstat.gov.ru/4.1.1

#opendata #closeddata #statistics #openness
В рубрике популярных каталогов данных OpenSDG [1] просто ПО с открытым кодом используемое статистическими службами многих стран для публикации индикаторов устойчивого развития.

Особенность OpenSDG в том что это открытый код [2] профинансированный статслужбами Великобритании и США и разработанный в CODE [3], The Center for Open Data Enterprise.

Из-за простоты и бесплатности его как раз и используют, например, статслужба Армении [4], Конго [5], Великобритании [6] и ещё пара десятков стран и множество городов [7].

OpenSDG нельзя назвать полноценным порталом данных, скорее порталом индикаторов. Причём без стандартизированного API, но со стандартизированной выгрузкой всех индикаторов целиком и некоторым псевдо API для доступа к данным индикаторов.

Ссылки:
[1] https://open-sdg.org
[2] https://github.com/open-sdg/open-sdg
[3] https://www.opendataenterprise.org/
[4] https://sdg.armstat.am
[5] https://odd-dashboard.cd
[6] https://sdgdata.gov.uk
[7] https://open-sdg.org/community

#opendata #datacatalogs #opensdg #statistics
Вышла бета версия германской статистической системы GENESIS-Online используемой статслужбой страны для публикации индикаторов [1]. В целом удобно, но скорее консервативно чем современно.

Из плюсов:
- есть API
- есть выгрузка в CSV/XLSX
- всё достаточно быстро и удобно

Из минусов:
- документированное API требует регистрации и авторизации, недокументированное... недокументировано
- документированное API сделано предоставляет SOAP интерфейс, непонятно зачем в 2024 году
- нет поддержки SDMX
- нет массовой выгрузки, bulk download

В целом, это скорее даже удивительно насколько статистика ЕС удобнее в работе чем статистика Германии, по крайней мере инструментально.

Ссылки:
[1] https://www-genesis.destatis.de/datenbank/beta

#opendata #statistics #germany #datacatalogs #indicators
Я в ближайшие дни больше расскажу про большое обновление в Dateno.io которое мы недавно произвели, а там, в первую очередь, большое обновление индекса на 4 миллиона датасетов и личный кабинет с API [1].

А пока немного о том что есть в Dateno и нет в большинстве поисковиков по данным. Это то что Dateno теперь крупнейший поисковик по статистическим индикаторам по всему миру. Сейчас в базе данных более чем 6.7 миллионов индикаторов, в привязке к источникам данных, странам, темам и многому другому.

Основные источники статистики - это статистические порталы ряда стран и глобальные каталоги индикаторов от Всемирного Банка, Банка международных расчётов и ряда структур ООН.

Этих источников, на самом деле, значительно больше и до конца года мы их добавим. Есть ещё пара десятков глобальных и около сотни национальных порталов со статистикой.

Но, далеко не со всеми из них работать просто, и вот почему:
1. Далеко не все порталы статистики создаются на типовом ПО, основное типовое ПО для статистики это PxWeb и .Stat Suite. Сайты на базе PxWeb уже индексируется в Dateno, а на .Stat Suite будут в скором будущем. Но таковых не так много
2. Даже если порталы сделаны на одном из типовых ПО, не всегда они пригодны используют актуальные версии ПО. Например, статбанк Армении [2] работает на ПО PxWeb старой версии и чтобы его проиндексировать надо писать специальный парсер, потому что стандартное API не работает.
3. Далеко не все, даже лучшие международные примеры порталов статистики, предоставляют её в стандартизированных форматах и с возможностью дать ссылку на конкретный индикатор. Есть прекрасные примеры, вроде портала Банка международных расчётов [3], но и плохих примеров много, вроде портала статистики ООН [4]

Тем не менее и текущие 6.7 миллионов индикаторов - это много. Это возможность поиска страновой статистики удобным образом. К примеру, для поиска статистики по тем странам где нет порталов открытых данных или удобных сайтов статслужб.

В это обновление не попали данные Евростата и ЕЦБ, ещё нескольких структур ООН и не только, но они попадут в следующие и тогда число индикаторов достигнет 10-12 миллионов, а может быть и больше;)

А пока, если Вы ищете статистику, то Dateno - это хорошее место чтобы начать её искать.

Далее, я расскажу про то как работать с API Dateno в примерах и поиске датасетов по нестандартным темам, таким как криптовалюта, извлечение данных из документов и превращение банков документов в порталы данных и не только.

Ссылки:
[1] https://api.dateno.io
[2] https://statbank.armstat.am
[3] https://data.bis.org
[4] https://data.un.org

#opendata #dateno #statistics #datasets