Ivan Begtin
7.98K subscribers
1.85K photos
3 videos
101 files
4.56K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В рубрике как это устроено у них статистическая служба Мексики в лице INEGI, Национального института статистики и географии, публикует топографические данные статнаблюдений в векторном виде, Shape файлах [1], а также предоставляет API для доступа к большей части статистических публикаций и индикаторов [2]. Ещё одна важная их особенность в том что по каждому наблюдению все продукты которые на его основе создаются собраны вместе на вкладках исследования можно наблюдать:
- методологию/документацию
- таблицы в Excel
- открытые данные
- микроданные (если есть)
- статсборники если есть

Все их можно скачать разом, в режиме массовой выгрузки через систему DENUE [3] сводящую метаданные из всех баз данных поддерживаемых INEGI

Ссылки:
[1] https://www.inegi.org.mx/programas/topografia/50000/#descargas
[2] https://www.inegi.org.mx/servicios/api_indicadores.html
[3] https://www.inegi.org.mx/app/descarga/

#opendata #statistics #mexico #datasets #data
В рубрике как это работает у них ILOSTAT Bulk download facility [1] сервис массовой выгрузки данных статистического подразделения Международной организации труда (ILO).

Международная организация труда ведёт несколько баз статистики труда по всему миру и предоставляет их конечным пользователям в виде портала индикаторов [2], кроме того они предоставляют сервис Bulk download facility в котором предоставляют возможности по автоматической выгрузке всей их базы данных.

Кроме того ILO предоставляют библиотеку Rilostat на языке R [3] для автоматизированного доступа к этим данным.

Итого, в дополнение к базе и интерфейсу к индикаторам ILO предоставляют:
1) Возможность выгрузки всех данных массово
2) Доступ к сервису и данным через готовое API с открытым кодом (в виде библиотеки для R, в данном случае)

Ссылки:
[1] https://ilostat.ilo.org/data/bulk/
[2] https://ilostat.ilo.org/data/
[3] https://ilostat.github.io/Rilostat/

#opendata #opensource #statistics #ilo #data
В *рубрике закрытых данных в РФ* в январе я писал о том что исчезли отчёты Системного оператора единой энергетической системы [1] по состоянию энергетики, но обнаружил недавно что написал там не всё. Кроме отчётов исчезли ещё и ежесуточные индикаторы такие как:
- План генерации и потребления
- Факт генерации и потребления
- Генерация и потребление (сут)

И так по каждому из ОЭС в рамках ЕЭС.

Данные остались только в Интернет архива [2].

В разрезе отдельных энергокомпаний мне недавно необходимо было найти данные по электрогенерации и только в паре случаев удалось найти помесячные данные по электрогенерации за 2023 год, а за 2024 год уже ничего не нашлось.

Ссылки:
[1] https://t.iss.one/begtin/5359
[2] https://web.archive.org/web/20211107094307/https://www.so-ups.ru/functioning/ees/oes-center/oes-center-indicators/

#statistics #russia #opendata #closeddata #energy
РБК пишут что Росавиация перестала публиковать сведения [1] о структуре авиапарков самолетов в реестре эксплуатантов самолетов. Причём сделали они это под таким экзотическим предлогом как "оптимизация размещения информации". Было бы очень смешно, не будь противно от таких отговорок.

Решение то причём не основанное ни на одном нормативном документе, не припомню чтобы Правительство РФ или Минтранс РФ требовали закрытия этих сведений. Во всяком случае официально.

Как и во многих других подобных случаях возникает вопрос. Что если нужны эти сведения и в официальной публикации их более нет?

Я не буду упоминать существующие альтернативные источники данных внутри РФ, их тоже могут закрыть. Зачем же помогать закрывающим;)

Самый очевидный косвенный источник этих данных - это Flight Radar, OpenSKY, ADS Exchange и другие проекты по краудсорсингу наблюдения за полетами воздушных судов. До тех пор пока в России не преследуют тех кто ставил их, то оперативная информация по взлётам и посадкам (действующим самолётам) будет доступна. Её будет дороже собирать, но мало что изменится. А преследовать тех кто ставил ADS-B ресиверы крайне сложно, сами они не передают информацию, только получают.

У многочисленных проектов слежки за самолётами есть базы самих самолётов. Крупнейшая мне известная находится в сервисе OpenSKY [3], а также в проекте Open Aviation Data [4].

Спасибо "оптимизаторам" из Росавиации что напомнили про все эти проекты. Давно хотел об этом написать, да всё откладывал.

Это наглядный пример как раз решения задачи по data discovery с поиском альтернативных источников закрываемой статистики.

Ссылки:
[1] https://www.rbc.ru/business/25/06/2024/667b00219a7947de5642ddfe
[2] https://favt.gov.ru/dejatelnost-aviakompanii-reestr-komercheskie-perevozki/
[3] https://opensky-network.org/aircraft-database
[4] https://atmdata.github.io/sources/

#opendata #data #russia #aviation #closeddata #statistics #alternativedata
Ещё один пример закрытия данных Банк России приостанавливает публикацию статистики внебиржевого валютного рынка [1].

А ведь совсем недавно, в апреле, эту статистику стали публиковать расширенно [2].

Этого раздела больше нет на сайте ЦБ РФ [3], причем удалили даже архив, что непохоже на ЦБ РФ которые, к примеру, после прекращения публикации данных по экспорту в 2022 году архивные данные не удаляли.

Некоторые данные всё ещё доступны в Интернет-Архиве [4], но в целом событие печалит ещё и тем что ЦБ РФ теперь подчищает архивы и нужна регулярная архивация их сайта. В последний раз мы делали это для Национального цифрового архива [5] в 2021 году и это была веб архивация, она не охватывала данные закрытые формами и POST запросами

Ссылки:
[1] https://cbr.ru/press/pr/?file=638566558563054550DKP.htm
[2] https://www.cbr.ru/press/pr/?file=638489599567862726DATABASES.htm
[3] https://www.cbr.ru/hd_base/vko/
[4] https://web.archive.org/web/20240706093400/https://cbr.ru/hd_base/vko/
[5] https://ruarxive.org

#opendata #closeddata #cbrf #statistics #russia #webarchive #digitalpreservation
В рубрике как это работает у них Repozytorium Standardów Informacyjnych [1] репозиторий стандартов для информационного обмена созданный и поддерживаемый статистической службой Польши.

В каком-то смысле это уникальный проект. В первую очередь - это реестр типов данных и их описаний которые хранятся в государственных информационных системах. Это и описания физического лица, и то какие метаданные о физ лице собираются и описания организаций и геообъектов и ещё много чего.

Но не менее важно что в систему входит реестр всех информационных систем [2], а это 614 штук и схемы данных в этих информационных системах привязанные к реестру типов данных.

Самый интересный вопрос в том причём же тут статслужба? И вот эта логика как раз очень понятна. Статслуба Польши кроме базовой статистики производит ещё и очень много экспериментальной статистики, созданной на основе одной или нескольких ведомственных информационных систем. Например, это портал транспортной статистики TranStat [3]


Ссылки:
[1] https://rsi.stat.gov.pl
[2] https://rsi.stat.gov.pl/#/rsisystemy
[3] https://transtat.stat.gov.pl

#opendata #data #statistics #poland
Поработав в избытке с данными и со смыслом публикации разной статистики, в какой-то момент напишу лонгрид на тему того как хорошо и как плохо публикуют статистику в разных странах и территориях, а пока в виде выжимки накопленные мысли. Поскольку я на эту тему несколько раз уже писал в таком формате, то где-то могу и повторяться:
1. Унификация. Хорошо опубликованные статистические данные практически всегда хорошо унифицированы. У них есть так называется code lists, стандартизированные справочники территорий, видов деятельности и тд. Они унифицированы в единые форматы и с ними можно работать унифицированным образом с любым индикатором. Можно сказать что почти во всех развитых странах базы индикаторов доступны таким вот унифицированным образом. В современных национальных системах управления статпоказателями такая унификация почти всегда увязана на внедрение стандарта SMDX от 2 до 3 версии.
2. Массовая выгрузка. На английском языке она звучит как bulk download, возможность выкачать базу индикаторов целиком с минимальным объёмом усилий. Может выглядеть как 1-2 zip файла со всем содержимым, так делают в FAO, или тысячи csv/csv.gz файлов по одному по каждому индикатору, со всем содержимым индикатора и каталогом ссылок на все файлы. Так делают в Евростате и ILO.
3. Универсальный поиск. Статистические продукты бывают разные, иногда в разных информационных системах, в разных форматах, включая архивные статсборники. Универсальный поиск позволяет искать по ним всем. Начиная с интерактивных таблиц и заканчивая архивными материалами и даёт возможность найти нужные данные в нужном формате за заданный период.
4. Открытые данные по умолчанию. Практика альтернативная возможности массовой выгрузки когда статистические показатели с самого начала публикуются на стандартизированном портале открытых данных с уже имеющимся API этого портала и доступны для выгрузки через это стандартное API. Например, так делают в ЦБ Бразилии с дата порталом на базе CKAN и в Катаре с их госпорталом открытых данных на базе OpenDataSoft
5. Экспорт данных и доступ через API. Не просто экспорт в Excel, а как минимум выбор из 5-6 форматов начиная от самых простых вроде csv, продолжая форматами для Stata и других продуктов, автогенерацией кода для Python или R и наличию SDK к хотя бы паре популярных языков разработки для доступа к данным. У многих европейских порталов статданных есть неофициальные SDK, в других вроде статданных Гонконга автоматически генерируется код на Python на страницах интерактивных таблиц.
6. Технологичность. Тут можно было бы добавить и соответствие лучшим дата-инженерным практикам. Это включает: доступность данных в форматах parquet, документация к API по стандарту OpenAPI, общедоступные примеры работы через Postman или аналоги, общая документация в стиле технологических проектов с интерактивными примерами, а не в форме отчетности подрядчика по контракту в PDF. Технологичность - это про доступ и про документацию, как ни странно, но это самое актуальное для статданных.

#opendata #api #statistics #thoughts
Статистическая служба Малайзии внедряет AI Helper [1] в сайт для разработчиков прилагаемый к их порталу статистических данных. На простые вопросы вполне эффективно отвечает и даже умеет генерировать код для языков разработки которых нет в примерах на сайте. На сайте сейчас все примеры на Python и R, но можно получить код для Java сделав такой запрос к AI Helper'у.

В данном случае применение ИИ гос-вом самое что ни на есть безобидное.

Ссылки:
[1] https://developer.data.gov.my/#using-the-ai-helper

#opendata #ai #statistics #malaysia
Я уже рассказывал про геоклассификацию данных в Dateno и то что существенная фича в поиске - это возможность поиска по городам/регионам, на субрегиональном уровне. Классификация датасетов по субрегионам основана почти полностью на аннотировании каталогов данных и с этой точки зрения это довольно простая задача с понятным решением.

Как оказывается куда менее простой задачей является привязка датасетов к странам и макрорегионам.

Базово привязка эта привязка делается через привязку каталога данных которые, как правило, конкретными странами ограничены. К примеру, если есть национальный портал данных какой-то страны, то и данные почти всегда касаются этой страны. Но это самые простые случаи и в основном про порталы открытых данных и про геопорталы.

Сложности начинаются с научными данными. Большая их часть чёткой геопривязки может не иметь вообще, кроме ну разве что, академического института(-ов) авторов и их местонахождения. Исключение составляют редкие датасеты из наук о земле, лингвистики и ещё ряда научных дисциплин.

Другая сложность возникает со всей статистикой и производными индикаторами. Помимо стат. показателей по странам существует неимоверное число разных групп стран, от простых, до хитровыдуманных. К примеру, группы арабских стран, страны MENA, G20, G7, Андское сообщество, наименее развитые страны, страны без выхода к морю и ещё много какие. Причём, конечно, группы стран пересекаются, но не всегда входят в друг друга.

Внутри Dateno, при этом, для группировки стран используется список макрорегионов из UN M49. Разметить страны по вхождение в эти макрорегионы несложно и внутренний справочник для этого есть. А вот справочника вхождения стран в эти многочисленные группы и их пересечений - нет и его надо составлять де-факто полувручную и нет кого-то кто бы поддерживал такую живую базу данных или программную библиотеку.

Поэтому георазметка реальных мировых статистических данных - это боль, требующая большой ручной работы по привязке к макрорегионам.

Пока что отсутствие привязки каких-то датасетов к странам и макрорегионам не так критичны поскольку другие поисковики даже такого не поддерживают и есть фасеты где разметка куда хуже. К примеру, наличие информации о лицензии есть не более чем у 10% датасетов.

Тем не менее качество фасетов в Dateno влияет на пользовательский опыт и это важная задача для построения максимально достоверного поискового индекса по данным.

#dateno #statistics #indicators #geodata #geo #thoughts
В рубрике как это устроено у них публикация данных Международным валютным фондом (IMF). IMF - это значимое финансовое агентство при ООН , отвечающее как за международную финансовую помощь, так и за сбор данных о международных финансах. Значительная часть данных публикуется на основном сайте IMF (www.imf.org) [1], но, также, агентство использует несколько систем раскрытия данных.

- IMF Data [2] основной портал данных IMF с десятками датасетов для массовой выгрузки, сотнями показателей и возможностью доступа к данным индикаторов через SDMX API [3]. В основном все данные связанные с макропоказателями стран.
- Dissemination Standards Bulletin Board (DSBB) [4] портал для сбора и публикации данных в соответствии с разработанными стандартами Расширенной общей системы распространения данных. Эти данные собираются с официальных сайтов стран, как правило страниц на сайте ЦБ, опубликованных по определенным требованиям.
- Portwatch. Monitoring Trade Disruptions from Space [5] совместный проект IMF и Оксфордского университета по мониторингу портов с помощью спутников для идентификации и предупреждения событий которые могут помешать международной торговле. Предоставляет ленту событий, результаты мониторинга и другие данные. Все данные можно скачать, внутри сайта платформа ArcGIS Hub позволяющая массовую выгрузку данных
- Climate Change Indicators Dashboard [6] портал с индикаторами изменений климата по странам. Также на платформе ArcGIS Hub, и также все данные доступны для выгрузки.

Общие наблюдения по изменению в подходе к публикации данных IMF те что и для большей части структур ООН:
- переход к публикации открытых данных по умолчанию
- доступность данных одновременно для массовой выгрузки (bulk), API и в виде веб интерфейсов визуализации
- параллельное использование порталов раскрытия разработанных на заказ и типовых продуктов, в данном случае ArcGIS Hub


Ссылки:
[1] https://www.imf.org
[2] https://data.imf.org
[3] https://datahelp.imf.org/knowledgebase/articles/630877-api
[4] https://dsbb.imf.org/
[5] https://portwatch.imf.org/
[6] https://climatedata.imf.org/

#opendata #datasets #dataportals #statistics #finances #economics
В рубрике как это устроено у них Национальная служба сельскохозяйственной статистики США (NASS) [1] собирает и раскрывает данные по сельскохозяйственным территориям, урожаю, демографии, экономике и иным предметам статистического наблюдения по всей территории США с детализацией до отдельных графств, аналог муниципалитетов.

Все данные доступны, как классическим образом, в форме таблиц и построителя запросов, так и с возможностью получить базу статистики сразу и целиком в виде нескольких файлов общим объёмом в 3GB в сжатом виде, актуализируемых ежесуточно.

А также доступ организован через API системы Quick Stats где нужные данные можно получить быстро и в формате JSON. [3]

Дополнительно эти данные распространяются в виде геопространственных данных через несколько картографических сервисов [4]

Ссылки:
[1] https://www.nass.usda.gov
[2] https://www.nass.usda.gov/datasets/
[3] https://quickstats.nass.usda.gov/api
[4] https://croplandcros.scinet.usda.gov/

#opendata #usa #statistics #agriculture #datasets
Наконец то я дописал лонгрид про официальную статистику как дата продукт, частично пересекаясь с ранее написанным текстом про то как хорошо публиковать статистику. Вот тут текст https://begtin.substack.com/p/694

Пока писал не покидало ощущение что это же всё очевидно как-то, но... очевидно-неочевидно, а далеко не везде встречается.

#statistics #opendata #data
Я тут регулярно ругаюсь на то как стремительно закрываются данные внутри РФ и в этом канале даже специальный хэштег есть #closeddata посвящённый случаям закрытия данных. Ни в коей мере не отказываясь от того что этот тренд развивается, для разнообразия, есть и другое мнение.

Есть проект Open Data Inventory [1] по наблюдению доступности и оценке этой доступности статистических данных ведёт его НКО Open Data Watch
основанная профессиональными исследователями и статистиками и в их понимании открытые данные - это статистика (что конечно не совсем так, но допустим).

Раз в два года они проводят оценку доступности данных по странам по критериям покрытия (coverage) и открытости (openness) официально публикуемых индикаторов.

И вот по их оценке открытость статистики РФ между 2020 и 2022 годом выросла аж на 3 балла, с 59 до 62, а позиция в общем рейтинге с 59й на 57ю.

Вы спросите как такое возможно? В основном из-за критериев оценки по доступности индикаторов, в данном случае появлении данных по уровню иммунизации и индикаторах результатам обучения, таким как SDG 4.1.1 [2] которые Росстат раскрывал в 2021 году.

Здесь, безусловно, надо оговорить то что открытость в восприятии макроэкономической статистики и о внутренних процессах - это два разных явления. Скрупулёзный анализ требует гораздо более качественных данных, с большей частотность, и большей гранулярностью чем макроэкономические годовые индикаторы охватывающие всю страну и с годовой задержкой.

Почти наверняка оценки в ODIN за 2024 год будут отличаться, не могу предсказать как, но то что будут сомнений нет. Новые оценки появятся не раньше чем к августу 2025 года.

Пока же можно посравнивать доступность статистики по разным странам за 2022 год.


Ссылки:
[1] https://odin.opendatawatch.com/
[2] https://eng.rosstat.gov.ru/4.1.1

#opendata #closeddata #statistics #openness
В рубрике популярных каталогов данных OpenSDG [1] просто ПО с открытым кодом используемое статистическими службами многих стран для публикации индикаторов устойчивого развития.

Особенность OpenSDG в том что это открытый код [2] профинансированный статслужбами Великобритании и США и разработанный в CODE [3], The Center for Open Data Enterprise.

Из-за простоты и бесплатности его как раз и используют, например, статслужба Армении [4], Конго [5], Великобритании [6] и ещё пара десятков стран и множество городов [7].

OpenSDG нельзя назвать полноценным порталом данных, скорее порталом индикаторов. Причём без стандартизированного API, но со стандартизированной выгрузкой всех индикаторов целиком и некоторым псевдо API для доступа к данным индикаторов.

Ссылки:
[1] https://open-sdg.org
[2] https://github.com/open-sdg/open-sdg
[3] https://www.opendataenterprise.org/
[4] https://sdg.armstat.am
[5] https://odd-dashboard.cd
[6] https://sdgdata.gov.uk
[7] https://open-sdg.org/community

#opendata #datacatalogs #opensdg #statistics
Вышла бета версия германской статистической системы GENESIS-Online используемой статслужбой страны для публикации индикаторов [1]. В целом удобно, но скорее консервативно чем современно.

Из плюсов:
- есть API
- есть выгрузка в CSV/XLSX
- всё достаточно быстро и удобно

Из минусов:
- документированное API требует регистрации и авторизации, недокументированное... недокументировано
- документированное API сделано предоставляет SOAP интерфейс, непонятно зачем в 2024 году
- нет поддержки SDMX
- нет массовой выгрузки, bulk download

В целом, это скорее даже удивительно насколько статистика ЕС удобнее в работе чем статистика Германии, по крайней мере инструментально.

Ссылки:
[1] https://www-genesis.destatis.de/datenbank/beta

#opendata #statistics #germany #datacatalogs #indicators
Я в ближайшие дни больше расскажу про большое обновление в Dateno.io которое мы недавно произвели, а там, в первую очередь, большое обновление индекса на 4 миллиона датасетов и личный кабинет с API [1].

А пока немного о том что есть в Dateno и нет в большинстве поисковиков по данным. Это то что Dateno теперь крупнейший поисковик по статистическим индикаторам по всему миру. Сейчас в базе данных более чем 6.7 миллионов индикаторов, в привязке к источникам данных, странам, темам и многому другому.

Основные источники статистики - это статистические порталы ряда стран и глобальные каталоги индикаторов от Всемирного Банка, Банка международных расчётов и ряда структур ООН.

Этих источников, на самом деле, значительно больше и до конца года мы их добавим. Есть ещё пара десятков глобальных и около сотни национальных порталов со статистикой.

Но, далеко не со всеми из них работать просто, и вот почему:
1. Далеко не все порталы статистики создаются на типовом ПО, основное типовое ПО для статистики это PxWeb и .Stat Suite. Сайты на базе PxWeb уже индексируется в Dateno, а на .Stat Suite будут в скором будущем. Но таковых не так много
2. Даже если порталы сделаны на одном из типовых ПО, не всегда они пригодны используют актуальные версии ПО. Например, статбанк Армении [2] работает на ПО PxWeb старой версии и чтобы его проиндексировать надо писать специальный парсер, потому что стандартное API не работает.
3. Далеко не все, даже лучшие международные примеры порталов статистики, предоставляют её в стандартизированных форматах и с возможностью дать ссылку на конкретный индикатор. Есть прекрасные примеры, вроде портала Банка международных расчётов [3], но и плохих примеров много, вроде портала статистики ООН [4]

Тем не менее и текущие 6.7 миллионов индикаторов - это много. Это возможность поиска страновой статистики удобным образом. К примеру, для поиска статистики по тем странам где нет порталов открытых данных или удобных сайтов статслужб.

В это обновление не попали данные Евростата и ЕЦБ, ещё нескольких структур ООН и не только, но они попадут в следующие и тогда число индикаторов достигнет 10-12 миллионов, а может быть и больше;)

А пока, если Вы ищете статистику, то Dateno - это хорошее место чтобы начать её искать.

Далее, я расскажу про то как работать с API Dateno в примерах и поиске датасетов по нестандартным темам, таким как криптовалюта, извлечение данных из документов и превращение банков документов в порталы данных и не только.

Ссылки:
[1] https://api.dateno.io
[2] https://statbank.armstat.am
[3] https://data.bis.org
[4] https://data.un.org

#opendata #dateno #statistics #datasets
В качестве некоторых, самых очевидных примеров почему Dateno эффективнее поиска данных через GDS. Разница ощущается когда ищешь запросы связанные с экономикой и наиболее популярные у SEO'шников коммерческих сервисов. Например, поиск по ключевым словам "andorra population" и многим другим.

Google, даже в режиме поиска по бесплатным датасетам (режим Free) выдаёт в первой 20 результатов:
- tradingeconomics.com
- theglobaleconomy.com
- napoleoncat.com

Ни один из них ни открытым, ни свободным не является. Надо платить деньги и регистрироваться. Иначе говоря разметка Schema.org для этих датасетов на этих сайтах - недостоверная.

И среди них только где-то в глубине есть в глубине ссылка на data.humdata.org (проект ООН с данными статистики).

В Dateno первыми результатами идут данные Всемирного банка, данные ВОЗ, данные data.humdata.org и данные сообщества AmeriGEOSS.

А если мы изменим текст и напишем его на испанском Poblacion Andorra (Население Андорры) , то GDS не вернет результатов вовсе, а в Dateno результат найдётся.

Почему так? Потому что Google не индексирует каталоги геоданных потому что они не поддерживают Schema.org

Это один пример из многих, по мере индексации национальных статистических баз данных результаты поиска Dateno будут даже лучше.

#opendata #datasets #gds #dateno #andorra #statistics
В рубрике как это устроено у них я уже несколько раз писал про проект DBNomics [1] от французского think tank'а Cepremap и поддерживаемый пр-вом Франции.

Это огромный каталог, в основном, макроэкономических показателей из 92 источников, и в виде 35 тысяч датасетов и 1.4 миллиона временных рядов.

Реально огромная база индикаторов из всех ключевых источников. Чем-то похоже на то что у нас в Dateno, с той лишь разницей что в Dateno индикаторы - это лишь часть индексируемых данных и индексируются индикаторы вообще все, а не только экономические, но число источников пока и больше и меньше. Больше потому что сбор из стандартизированных источников, а меньше потому что основные данные не в них а в крупных больших базах индикаторов для которых надо писать отдельные парсеры.

Тем не менее, в нашей трактовке то что в DBNomics называется временным рядом, у нас скорее это датасет. Возможно даже, нам надо добавить отдельную типизацию данных по типам для большей точности.

Глядя на DBNomics всегда возникает вопрос, надо ли его индексировать или рассматривать только как источник информации о каталогах данных? Потому что он не первоисточник и по мере индексации первичных источников будет много дублей. А с другой стороны, данные в нём представлены куда более удобно и с ними легче работать.

До конца года хочется подключить к Dateno ещё хотя бы 5-6 миллионов наборов данных, что не так сложно, как хочется максимальной пользы от этого.

А у DBNomics также, есть открытый код, кстати, хорошее API и вообще это скорее дата продукт полноценный чем просто статистический портал.

Ссылки:
[1] https://db.nomics.world

#opendata #statistics #indicators #france #dateno
В рубрике как это устроено у них статистический портал Канады [1] фактически превращённый в портал открытых данных. В общей сложности более 12 тысяч наборов данных из которых 11.5 тысяч - это табличные данные индикаторов с возможностью их выгрузки в форматах CSV и SDMX, а также через открытое API [2].

Характерная особенность что их аналитические тексты - это де факто data stories в форме лонгридов к которым всегда приложены таблицы с данными в их же системе [3].

То есть даже те кто приходит почитать текст имеют возможность сразу открыть таблицу и изучить данные.

Внутри всё работает на SDMX движке и есть возможность работать с API основанном на SDMX для подключения к данным. [4]

В принципе, это иллюстрация одного из трендов развития статистических продуктов в сторону профессиональных стандартов работы с данными, в данном случае SDMX.

Ссылки:
[1] https://www150.statcan.gc.ca/n1/en/type/data?MM=1
[2] https://www.statcan.gc.ca/en/developers?HPA=1
[3] https://www150.statcan.gc.ca/n1/daily-quotidien/241003/dq241003a-eng.htm
[4] https://www150.statcan.gc.ca/t1/wds/sdmx/statcan/rest/data/DF_17100005/1.1.1

#statistics #canada #opendata #sdmx #api #data
Полезное чтение про данные, технологии и не только:
- The Death of Search [1] полезная статья о том как ИИ убивает поиск и что мы потеряем в процессе. Я бы переименовал её в The Death of Google потому что главная поисковая монополия пострадает более других. Но ещё не время пессимистичных прогнозов
- The Emergent Landscape of Data Commons: A Brief Survey and Comparison of Existing Initiatives [2] статья о инициативах публикации данных как общественного блага. Тема актуальная и про частные инициативы, и про государственные и про технологические НКО. Довольно близко к инициативам по общественной цифровой инфраструктуре (Digital Public Infrastructure, DPI)
- Congress should designate an entity to oversee data security, GAO says [3] в США Счетная палата (GAO) рекомендовала Конгрессу выбрать федеральное агентство и дать ему полномочия по защите данных. Сейчас такого агентства нет и это создаёт дополнительные риски, о чём GAO и пишут в своём докладе [4]
- OECD Digital Economy Outlook 2024 (Volume 2) [5] свежий доклад ОЭСР по цифровой экономике. Про данные мало, про многое другое много. Явные акценты на особенностях медиапотребления и на цифровой безопасности.
- How to evaluate statistical claims [6] хороший лонгрид о том как читать статистику

Ссылки:
[1] https://archive.is/ZSzAP
[2] https://medium.com/data-stewards-network/the-emergent-landscape-of-data-commons-a-brief-survey-and-comparison-of-existing-initiatives-abab7bbc4fe1
[3] https://fedscoop.com/congress-data-security-civil-rights-liberties-gao-report/
[4] https://www.gao.gov/assets/gao-25-106057.pdf
[5] https://www.oecd.org/en/publications/oecd-digital-economy-outlook-2024-volume-2_3adf705b-en.html
[6] https://seantrott.substack.com/p/how-to-evaluate-statistical-claims

#data #ai #privacy #statistics #readings