Ivan Begtin
7.98K subscribers
1.85K photos
3 videos
101 files
4.56K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В рубрике как это работает у них о том как публикует статистические данные Европейский Центральный Банк (ECB).

На сайте ECB есть специальный раздел с данными "Browse data" [1] с возможностью просмотра их по категориям, концептам, географии и в виде наборов данных [2]. Особенность публикации в виде набора данных в том что каждый набор - это коллекция связанных/тематических показателей которых может быть от нескольких единиц до сотен тысяч и все данные публикуются сразу для массовой выгрузки (bulk download). Иначе говоря можно скачать разом (107 файлами) в форматах CSV и SDMX (XML) данные по сразу более чем 3.3 миллиона временных рядов, а по каждому ряду до нескольких десятков значений.

Одновременно с этим данные можно искать, причём единицей поиска представлен временной ряд привязанный к конкретной территории [3], фактически показатели фрагментированы по странам/территориям и такая фрагментация оправдана поскольку чаще всего пользователи ищут данные в привязке к конкретной стране. Это очень похоже на организацию данных в портале данных Банка международных расчётов (BIS) [4].

Одновременно с этим портал даёт возможность выгрузить отдельные временные ряды в CSV, XLSX, SDMX на их страницах и включает документированное API для получения данных в JSON [5] .

Достоинства:
- хороший баланс функций для тех кто работает с данными на сайте и теми кто работает с ними локально выгрузками и через API
- возможность bulk download
- хорошо документированное API
- подробные метаданные по каждому показателю

Недостатки:
- нет поддержки современных форматов вроде Parquet
- нет программной библиотеки для Python или R
- нет интеграции в "один клик", надо писать код для работы с API или использовать SDMX connector
- нет описания API в спецификации OpenAPI

Ссылки:
[1] https://data.ecb.europa.eu/data
[2] https://data.ecb.europa.eu/data/datasets
[3] https://data.ecb.europa.eu/search-results
[4] https://data.bis.org
[5] https://data.ecb.europa.eu/help/api/overview

#opendata #statistics #europe
В продолжение про то какие бывают форматы общедоступных данных, есть важный факт индикатор пересечения открытых данных с областями data science. Из, примерно, 29 миллионов ресурсов (файлов) привязанных к датасетам в Dateno, только 4700 - это файлы Parquet, ни одного файла Avro или Orc.

Только около 7 тысяч файлов - это данные в виде дампов Sqlite, и то почти все они - это данные экспортируем из разного рода каталогов геоданных и входящих в файлы geopackage.

Можно, конечно, предположить что вместо специальных форматов для машинного обучения специально публикуют CSV файлы для лучшей интеграции, но это далеко не безусловный тезис потому что по опыту, на каждый нормальный файл CSV файл приходится два файла с ошибками форматирования и экспорта.

А самые популярные общедоступные (public domain и открытые данные) данные остаются CSV, XML, XLSX, JSON, TAB, XLS и менее известные в инженерной среде, но известные в научной NetCDF.

К этому можно добавить ещё пучок файлов геоданных, но в целом состав основных данных именно таков. Всё, скорее всего, немного поменяется когда закончится индексация Kaggle и HuggingFace, но за их пределами использования форматов для data science почти не наблюдается.

И это отдельный длинный разговор почему так происходит.

#opendata #dateno #datasets #statistics
В рубрике как это устроено у них статистическая служба Мексики в лице INEGI, Национального института статистики и географии, публикует топографические данные статнаблюдений в векторном виде, Shape файлах [1], а также предоставляет API для доступа к большей части статистических публикаций и индикаторов [2]. Ещё одна важная их особенность в том что по каждому наблюдению все продукты которые на его основе создаются собраны вместе на вкладках исследования можно наблюдать:
- методологию/документацию
- таблицы в Excel
- открытые данные
- микроданные (если есть)
- статсборники если есть

Все их можно скачать разом, в режиме массовой выгрузки через систему DENUE [3] сводящую метаданные из всех баз данных поддерживаемых INEGI

Ссылки:
[1] https://www.inegi.org.mx/programas/topografia/50000/#descargas
[2] https://www.inegi.org.mx/servicios/api_indicadores.html
[3] https://www.inegi.org.mx/app/descarga/

#opendata #statistics #mexico #datasets #data
В рубрике как это работает у них ILOSTAT Bulk download facility [1] сервис массовой выгрузки данных статистического подразделения Международной организации труда (ILO).

Международная организация труда ведёт несколько баз статистики труда по всему миру и предоставляет их конечным пользователям в виде портала индикаторов [2], кроме того они предоставляют сервис Bulk download facility в котором предоставляют возможности по автоматической выгрузке всей их базы данных.

Кроме того ILO предоставляют библиотеку Rilostat на языке R [3] для автоматизированного доступа к этим данным.

Итого, в дополнение к базе и интерфейсу к индикаторам ILO предоставляют:
1) Возможность выгрузки всех данных массово
2) Доступ к сервису и данным через готовое API с открытым кодом (в виде библиотеки для R, в данном случае)

Ссылки:
[1] https://ilostat.ilo.org/data/bulk/
[2] https://ilostat.ilo.org/data/
[3] https://ilostat.github.io/Rilostat/

#opendata #opensource #statistics #ilo #data
В *рубрике закрытых данных в РФ* в январе я писал о том что исчезли отчёты Системного оператора единой энергетической системы [1] по состоянию энергетики, но обнаружил недавно что написал там не всё. Кроме отчётов исчезли ещё и ежесуточные индикаторы такие как:
- План генерации и потребления
- Факт генерации и потребления
- Генерация и потребление (сут)

И так по каждому из ОЭС в рамках ЕЭС.

Данные остались только в Интернет архива [2].

В разрезе отдельных энергокомпаний мне недавно необходимо было найти данные по электрогенерации и только в паре случаев удалось найти помесячные данные по электрогенерации за 2023 год, а за 2024 год уже ничего не нашлось.

Ссылки:
[1] https://t.iss.one/begtin/5359
[2] https://web.archive.org/web/20211107094307/https://www.so-ups.ru/functioning/ees/oes-center/oes-center-indicators/

#statistics #russia #opendata #closeddata #energy
РБК пишут что Росавиация перестала публиковать сведения [1] о структуре авиапарков самолетов в реестре эксплуатантов самолетов. Причём сделали они это под таким экзотическим предлогом как "оптимизация размещения информации". Было бы очень смешно, не будь противно от таких отговорок.

Решение то причём не основанное ни на одном нормативном документе, не припомню чтобы Правительство РФ или Минтранс РФ требовали закрытия этих сведений. Во всяком случае официально.

Как и во многих других подобных случаях возникает вопрос. Что если нужны эти сведения и в официальной публикации их более нет?

Я не буду упоминать существующие альтернативные источники данных внутри РФ, их тоже могут закрыть. Зачем же помогать закрывающим;)

Самый очевидный косвенный источник этих данных - это Flight Radar, OpenSKY, ADS Exchange и другие проекты по краудсорсингу наблюдения за полетами воздушных судов. До тех пор пока в России не преследуют тех кто ставил их, то оперативная информация по взлётам и посадкам (действующим самолётам) будет доступна. Её будет дороже собирать, но мало что изменится. А преследовать тех кто ставил ADS-B ресиверы крайне сложно, сами они не передают информацию, только получают.

У многочисленных проектов слежки за самолётами есть базы самих самолётов. Крупнейшая мне известная находится в сервисе OpenSKY [3], а также в проекте Open Aviation Data [4].

Спасибо "оптимизаторам" из Росавиации что напомнили про все эти проекты. Давно хотел об этом написать, да всё откладывал.

Это наглядный пример как раз решения задачи по data discovery с поиском альтернативных источников закрываемой статистики.

Ссылки:
[1] https://www.rbc.ru/business/25/06/2024/667b00219a7947de5642ddfe
[2] https://favt.gov.ru/dejatelnost-aviakompanii-reestr-komercheskie-perevozki/
[3] https://opensky-network.org/aircraft-database
[4] https://atmdata.github.io/sources/

#opendata #data #russia #aviation #closeddata #statistics #alternativedata
Ещё один пример закрытия данных Банк России приостанавливает публикацию статистики внебиржевого валютного рынка [1].

А ведь совсем недавно, в апреле, эту статистику стали публиковать расширенно [2].

Этого раздела больше нет на сайте ЦБ РФ [3], причем удалили даже архив, что непохоже на ЦБ РФ которые, к примеру, после прекращения публикации данных по экспорту в 2022 году архивные данные не удаляли.

Некоторые данные всё ещё доступны в Интернет-Архиве [4], но в целом событие печалит ещё и тем что ЦБ РФ теперь подчищает архивы и нужна регулярная архивация их сайта. В последний раз мы делали это для Национального цифрового архива [5] в 2021 году и это была веб архивация, она не охватывала данные закрытые формами и POST запросами

Ссылки:
[1] https://cbr.ru/press/pr/?file=638566558563054550DKP.htm
[2] https://www.cbr.ru/press/pr/?file=638489599567862726DATABASES.htm
[3] https://www.cbr.ru/hd_base/vko/
[4] https://web.archive.org/web/20240706093400/https://cbr.ru/hd_base/vko/
[5] https://ruarxive.org

#opendata #closeddata #cbrf #statistics #russia #webarchive #digitalpreservation
В рубрике как это работает у них Repozytorium Standardów Informacyjnych [1] репозиторий стандартов для информационного обмена созданный и поддерживаемый статистической службой Польши.

В каком-то смысле это уникальный проект. В первую очередь - это реестр типов данных и их описаний которые хранятся в государственных информационных системах. Это и описания физического лица, и то какие метаданные о физ лице собираются и описания организаций и геообъектов и ещё много чего.

Но не менее важно что в систему входит реестр всех информационных систем [2], а это 614 штук и схемы данных в этих информационных системах привязанные к реестру типов данных.

Самый интересный вопрос в том причём же тут статслужба? И вот эта логика как раз очень понятна. Статслуба Польши кроме базовой статистики производит ещё и очень много экспериментальной статистики, созданной на основе одной или нескольких ведомственных информационных систем. Например, это портал транспортной статистики TranStat [3]


Ссылки:
[1] https://rsi.stat.gov.pl
[2] https://rsi.stat.gov.pl/#/rsisystemy
[3] https://transtat.stat.gov.pl

#opendata #data #statistics #poland
Поработав в избытке с данными и со смыслом публикации разной статистики, в какой-то момент напишу лонгрид на тему того как хорошо и как плохо публикуют статистику в разных странах и территориях, а пока в виде выжимки накопленные мысли. Поскольку я на эту тему несколько раз уже писал в таком формате, то где-то могу и повторяться:
1. Унификация. Хорошо опубликованные статистические данные практически всегда хорошо унифицированы. У них есть так называется code lists, стандартизированные справочники территорий, видов деятельности и тд. Они унифицированы в единые форматы и с ними можно работать унифицированным образом с любым индикатором. Можно сказать что почти во всех развитых странах базы индикаторов доступны таким вот унифицированным образом. В современных национальных системах управления статпоказателями такая унификация почти всегда увязана на внедрение стандарта SMDX от 2 до 3 версии.
2. Массовая выгрузка. На английском языке она звучит как bulk download, возможность выкачать базу индикаторов целиком с минимальным объёмом усилий. Может выглядеть как 1-2 zip файла со всем содержимым, так делают в FAO, или тысячи csv/csv.gz файлов по одному по каждому индикатору, со всем содержимым индикатора и каталогом ссылок на все файлы. Так делают в Евростате и ILO.
3. Универсальный поиск. Статистические продукты бывают разные, иногда в разных информационных системах, в разных форматах, включая архивные статсборники. Универсальный поиск позволяет искать по ним всем. Начиная с интерактивных таблиц и заканчивая архивными материалами и даёт возможность найти нужные данные в нужном формате за заданный период.
4. Открытые данные по умолчанию. Практика альтернативная возможности массовой выгрузки когда статистические показатели с самого начала публикуются на стандартизированном портале открытых данных с уже имеющимся API этого портала и доступны для выгрузки через это стандартное API. Например, так делают в ЦБ Бразилии с дата порталом на базе CKAN и в Катаре с их госпорталом открытых данных на базе OpenDataSoft
5. Экспорт данных и доступ через API. Не просто экспорт в Excel, а как минимум выбор из 5-6 форматов начиная от самых простых вроде csv, продолжая форматами для Stata и других продуктов, автогенерацией кода для Python или R и наличию SDK к хотя бы паре популярных языков разработки для доступа к данным. У многих европейских порталов статданных есть неофициальные SDK, в других вроде статданных Гонконга автоматически генерируется код на Python на страницах интерактивных таблиц.
6. Технологичность. Тут можно было бы добавить и соответствие лучшим дата-инженерным практикам. Это включает: доступность данных в форматах parquet, документация к API по стандарту OpenAPI, общедоступные примеры работы через Postman или аналоги, общая документация в стиле технологических проектов с интерактивными примерами, а не в форме отчетности подрядчика по контракту в PDF. Технологичность - это про доступ и про документацию, как ни странно, но это самое актуальное для статданных.

#opendata #api #statistics #thoughts
Статистическая служба Малайзии внедряет AI Helper [1] в сайт для разработчиков прилагаемый к их порталу статистических данных. На простые вопросы вполне эффективно отвечает и даже умеет генерировать код для языков разработки которых нет в примерах на сайте. На сайте сейчас все примеры на Python и R, но можно получить код для Java сделав такой запрос к AI Helper'у.

В данном случае применение ИИ гос-вом самое что ни на есть безобидное.

Ссылки:
[1] https://developer.data.gov.my/#using-the-ai-helper

#opendata #ai #statistics #malaysia