Ivan Begtin
8K subscribers
1.88K photos
3 videos
101 files
4.59K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
РБК пишут что Росавиация перестала публиковать сведения [1] о структуре авиапарков самолетов в реестре эксплуатантов самолетов. Причём сделали они это под таким экзотическим предлогом как "оптимизация размещения информации". Было бы очень смешно, не будь противно от таких отговорок.

Решение то причём не основанное ни на одном нормативном документе, не припомню чтобы Правительство РФ или Минтранс РФ требовали закрытия этих сведений. Во всяком случае официально.

Как и во многих других подобных случаях возникает вопрос. Что если нужны эти сведения и в официальной публикации их более нет?

Я не буду упоминать существующие альтернативные источники данных внутри РФ, их тоже могут закрыть. Зачем же помогать закрывающим;)

Самый очевидный косвенный источник этих данных - это Flight Radar, OpenSKY, ADS Exchange и другие проекты по краудсорсингу наблюдения за полетами воздушных судов. До тех пор пока в России не преследуют тех кто ставил их, то оперативная информация по взлётам и посадкам (действующим самолётам) будет доступна. Её будет дороже собирать, но мало что изменится. А преследовать тех кто ставил ADS-B ресиверы крайне сложно, сами они не передают информацию, только получают.

У многочисленных проектов слежки за самолётами есть базы самих самолётов. Крупнейшая мне известная находится в сервисе OpenSKY [3], а также в проекте Open Aviation Data [4].

Спасибо "оптимизаторам" из Росавиации что напомнили про все эти проекты. Давно хотел об этом написать, да всё откладывал.

Это наглядный пример как раз решения задачи по data discovery с поиском альтернативных источников закрываемой статистики.

Ссылки:
[1] https://www.rbc.ru/business/25/06/2024/667b00219a7947de5642ddfe
[2] https://favt.gov.ru/dejatelnost-aviakompanii-reestr-komercheskie-perevozki/
[3] https://opensky-network.org/aircraft-database
[4] https://atmdata.github.io/sources/

#opendata #data #russia #aviation #closeddata #statistics #alternativedata
Ещё один пример закрытия данных Банк России приостанавливает публикацию статистики внебиржевого валютного рынка [1].

А ведь совсем недавно, в апреле, эту статистику стали публиковать расширенно [2].

Этого раздела больше нет на сайте ЦБ РФ [3], причем удалили даже архив, что непохоже на ЦБ РФ которые, к примеру, после прекращения публикации данных по экспорту в 2022 году архивные данные не удаляли.

Некоторые данные всё ещё доступны в Интернет-Архиве [4], но в целом событие печалит ещё и тем что ЦБ РФ теперь подчищает архивы и нужна регулярная архивация их сайта. В последний раз мы делали это для Национального цифрового архива [5] в 2021 году и это была веб архивация, она не охватывала данные закрытые формами и POST запросами

Ссылки:
[1] https://cbr.ru/press/pr/?file=638566558563054550DKP.htm
[2] https://www.cbr.ru/press/pr/?file=638489599567862726DATABASES.htm
[3] https://www.cbr.ru/hd_base/vko/
[4] https://web.archive.org/web/20240706093400/https://cbr.ru/hd_base/vko/
[5] https://ruarxive.org

#opendata #closeddata #cbrf #statistics #russia #webarchive #digitalpreservation
В рубрике как это работает у них Repozytorium Standardów Informacyjnych [1] репозиторий стандартов для информационного обмена созданный и поддерживаемый статистической службой Польши.

В каком-то смысле это уникальный проект. В первую очередь - это реестр типов данных и их описаний которые хранятся в государственных информационных системах. Это и описания физического лица, и то какие метаданные о физ лице собираются и описания организаций и геообъектов и ещё много чего.

Но не менее важно что в систему входит реестр всех информационных систем [2], а это 614 штук и схемы данных в этих информационных системах привязанные к реестру типов данных.

Самый интересный вопрос в том причём же тут статслужба? И вот эта логика как раз очень понятна. Статслуба Польши кроме базовой статистики производит ещё и очень много экспериментальной статистики, созданной на основе одной или нескольких ведомственных информационных систем. Например, это портал транспортной статистики TranStat [3]


Ссылки:
[1] https://rsi.stat.gov.pl
[2] https://rsi.stat.gov.pl/#/rsisystemy
[3] https://transtat.stat.gov.pl

#opendata #data #statistics #poland
Поработав в избытке с данными и со смыслом публикации разной статистики, в какой-то момент напишу лонгрид на тему того как хорошо и как плохо публикуют статистику в разных странах и территориях, а пока в виде выжимки накопленные мысли. Поскольку я на эту тему несколько раз уже писал в таком формате, то где-то могу и повторяться:
1. Унификация. Хорошо опубликованные статистические данные практически всегда хорошо унифицированы. У них есть так называется code lists, стандартизированные справочники территорий, видов деятельности и тд. Они унифицированы в единые форматы и с ними можно работать унифицированным образом с любым индикатором. Можно сказать что почти во всех развитых странах базы индикаторов доступны таким вот унифицированным образом. В современных национальных системах управления статпоказателями такая унификация почти всегда увязана на внедрение стандарта SMDX от 2 до 3 версии.
2. Массовая выгрузка. На английском языке она звучит как bulk download, возможность выкачать базу индикаторов целиком с минимальным объёмом усилий. Может выглядеть как 1-2 zip файла со всем содержимым, так делают в FAO, или тысячи csv/csv.gz файлов по одному по каждому индикатору, со всем содержимым индикатора и каталогом ссылок на все файлы. Так делают в Евростате и ILO.
3. Универсальный поиск. Статистические продукты бывают разные, иногда в разных информационных системах, в разных форматах, включая архивные статсборники. Универсальный поиск позволяет искать по ним всем. Начиная с интерактивных таблиц и заканчивая архивными материалами и даёт возможность найти нужные данные в нужном формате за заданный период.
4. Открытые данные по умолчанию. Практика альтернативная возможности массовой выгрузки когда статистические показатели с самого начала публикуются на стандартизированном портале открытых данных с уже имеющимся API этого портала и доступны для выгрузки через это стандартное API. Например, так делают в ЦБ Бразилии с дата порталом на базе CKAN и в Катаре с их госпорталом открытых данных на базе OpenDataSoft
5. Экспорт данных и доступ через API. Не просто экспорт в Excel, а как минимум выбор из 5-6 форматов начиная от самых простых вроде csv, продолжая форматами для Stata и других продуктов, автогенерацией кода для Python или R и наличию SDK к хотя бы паре популярных языков разработки для доступа к данным. У многих европейских порталов статданных есть неофициальные SDK, в других вроде статданных Гонконга автоматически генерируется код на Python на страницах интерактивных таблиц.
6. Технологичность. Тут можно было бы добавить и соответствие лучшим дата-инженерным практикам. Это включает: доступность данных в форматах parquet, документация к API по стандарту OpenAPI, общедоступные примеры работы через Postman или аналоги, общая документация в стиле технологических проектов с интерактивными примерами, а не в форме отчетности подрядчика по контракту в PDF. Технологичность - это про доступ и про документацию, как ни странно, но это самое актуальное для статданных.

#opendata #api #statistics #thoughts
Статистическая служба Малайзии внедряет AI Helper [1] в сайт для разработчиков прилагаемый к их порталу статистических данных. На простые вопросы вполне эффективно отвечает и даже умеет генерировать код для языков разработки которых нет в примерах на сайте. На сайте сейчас все примеры на Python и R, но можно получить код для Java сделав такой запрос к AI Helper'у.

В данном случае применение ИИ гос-вом самое что ни на есть безобидное.

Ссылки:
[1] https://developer.data.gov.my/#using-the-ai-helper

#opendata #ai #statistics #malaysia
Я уже рассказывал про геоклассификацию данных в Dateno и то что существенная фича в поиске - это возможность поиска по городам/регионам, на субрегиональном уровне. Классификация датасетов по субрегионам основана почти полностью на аннотировании каталогов данных и с этой точки зрения это довольно простая задача с понятным решением.

Как оказывается куда менее простой задачей является привязка датасетов к странам и макрорегионам.

Базово привязка эта привязка делается через привязку каталога данных которые, как правило, конкретными странами ограничены. К примеру, если есть национальный портал данных какой-то страны, то и данные почти всегда касаются этой страны. Но это самые простые случаи и в основном про порталы открытых данных и про геопорталы.

Сложности начинаются с научными данными. Большая их часть чёткой геопривязки может не иметь вообще, кроме ну разве что, академического института(-ов) авторов и их местонахождения. Исключение составляют редкие датасеты из наук о земле, лингвистики и ещё ряда научных дисциплин.

Другая сложность возникает со всей статистикой и производными индикаторами. Помимо стат. показателей по странам существует неимоверное число разных групп стран, от простых, до хитровыдуманных. К примеру, группы арабских стран, страны MENA, G20, G7, Андское сообщество, наименее развитые страны, страны без выхода к морю и ещё много какие. Причём, конечно, группы стран пересекаются, но не всегда входят в друг друга.

Внутри Dateno, при этом, для группировки стран используется список макрорегионов из UN M49. Разметить страны по вхождение в эти макрорегионы несложно и внутренний справочник для этого есть. А вот справочника вхождения стран в эти многочисленные группы и их пересечений - нет и его надо составлять де-факто полувручную и нет кого-то кто бы поддерживал такую живую базу данных или программную библиотеку.

Поэтому георазметка реальных мировых статистических данных - это боль, требующая большой ручной работы по привязке к макрорегионам.

Пока что отсутствие привязки каких-то датасетов к странам и макрорегионам не так критичны поскольку другие поисковики даже такого не поддерживают и есть фасеты где разметка куда хуже. К примеру, наличие информации о лицензии есть не более чем у 10% датасетов.

Тем не менее качество фасетов в Dateno влияет на пользовательский опыт и это важная задача для построения максимально достоверного поискового индекса по данным.

#dateno #statistics #indicators #geodata #geo #thoughts
В рубрике как это устроено у них публикация данных Международным валютным фондом (IMF). IMF - это значимое финансовое агентство при ООН , отвечающее как за международную финансовую помощь, так и за сбор данных о международных финансах. Значительная часть данных публикуется на основном сайте IMF (www.imf.org) [1], но, также, агентство использует несколько систем раскрытия данных.

- IMF Data [2] основной портал данных IMF с десятками датасетов для массовой выгрузки, сотнями показателей и возможностью доступа к данным индикаторов через SDMX API [3]. В основном все данные связанные с макропоказателями стран.
- Dissemination Standards Bulletin Board (DSBB) [4] портал для сбора и публикации данных в соответствии с разработанными стандартами Расширенной общей системы распространения данных. Эти данные собираются с официальных сайтов стран, как правило страниц на сайте ЦБ, опубликованных по определенным требованиям.
- Portwatch. Monitoring Trade Disruptions from Space [5] совместный проект IMF и Оксфордского университета по мониторингу портов с помощью спутников для идентификации и предупреждения событий которые могут помешать международной торговле. Предоставляет ленту событий, результаты мониторинга и другие данные. Все данные можно скачать, внутри сайта платформа ArcGIS Hub позволяющая массовую выгрузку данных
- Climate Change Indicators Dashboard [6] портал с индикаторами изменений климата по странам. Также на платформе ArcGIS Hub, и также все данные доступны для выгрузки.

Общие наблюдения по изменению в подходе к публикации данных IMF те что и для большей части структур ООН:
- переход к публикации открытых данных по умолчанию
- доступность данных одновременно для массовой выгрузки (bulk), API и в виде веб интерфейсов визуализации
- параллельное использование порталов раскрытия разработанных на заказ и типовых продуктов, в данном случае ArcGIS Hub


Ссылки:
[1] https://www.imf.org
[2] https://data.imf.org
[3] https://datahelp.imf.org/knowledgebase/articles/630877-api
[4] https://dsbb.imf.org/
[5] https://portwatch.imf.org/
[6] https://climatedata.imf.org/

#opendata #datasets #dataportals #statistics #finances #economics
В рубрике как это устроено у них Национальная служба сельскохозяйственной статистики США (NASS) [1] собирает и раскрывает данные по сельскохозяйственным территориям, урожаю, демографии, экономике и иным предметам статистического наблюдения по всей территории США с детализацией до отдельных графств, аналог муниципалитетов.

Все данные доступны, как классическим образом, в форме таблиц и построителя запросов, так и с возможностью получить базу статистики сразу и целиком в виде нескольких файлов общим объёмом в 3GB в сжатом виде, актуализируемых ежесуточно.

А также доступ организован через API системы Quick Stats где нужные данные можно получить быстро и в формате JSON. [3]

Дополнительно эти данные распространяются в виде геопространственных данных через несколько картографических сервисов [4]

Ссылки:
[1] https://www.nass.usda.gov
[2] https://www.nass.usda.gov/datasets/
[3] https://quickstats.nass.usda.gov/api
[4] https://croplandcros.scinet.usda.gov/

#opendata #usa #statistics #agriculture #datasets
Наконец то я дописал лонгрид про официальную статистику как дата продукт, частично пересекаясь с ранее написанным текстом про то как хорошо публиковать статистику. Вот тут текст https://begtin.substack.com/p/694

Пока писал не покидало ощущение что это же всё очевидно как-то, но... очевидно-неочевидно, а далеко не везде встречается.

#statistics #opendata #data
Я тут регулярно ругаюсь на то как стремительно закрываются данные внутри РФ и в этом канале даже специальный хэштег есть #closeddata посвящённый случаям закрытия данных. Ни в коей мере не отказываясь от того что этот тренд развивается, для разнообразия, есть и другое мнение.

Есть проект Open Data Inventory [1] по наблюдению доступности и оценке этой доступности статистических данных ведёт его НКО Open Data Watch
основанная профессиональными исследователями и статистиками и в их понимании открытые данные - это статистика (что конечно не совсем так, но допустим).

Раз в два года они проводят оценку доступности данных по странам по критериям покрытия (coverage) и открытости (openness) официально публикуемых индикаторов.

И вот по их оценке открытость статистики РФ между 2020 и 2022 годом выросла аж на 3 балла, с 59 до 62, а позиция в общем рейтинге с 59й на 57ю.

Вы спросите как такое возможно? В основном из-за критериев оценки по доступности индикаторов, в данном случае появлении данных по уровню иммунизации и индикаторах результатам обучения, таким как SDG 4.1.1 [2] которые Росстат раскрывал в 2021 году.

Здесь, безусловно, надо оговорить то что открытость в восприятии макроэкономической статистики и о внутренних процессах - это два разных явления. Скрупулёзный анализ требует гораздо более качественных данных, с большей частотность, и большей гранулярностью чем макроэкономические годовые индикаторы охватывающие всю страну и с годовой задержкой.

Почти наверняка оценки в ODIN за 2024 год будут отличаться, не могу предсказать как, но то что будут сомнений нет. Новые оценки появятся не раньше чем к августу 2025 года.

Пока же можно посравнивать доступность статистики по разным странам за 2022 год.


Ссылки:
[1] https://odin.opendatawatch.com/
[2] https://eng.rosstat.gov.ru/4.1.1

#opendata #closeddata #statistics #openness