Ivan Begtin
7.99K subscribers
1.87K photos
3 videos
101 files
4.58K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Я знаю много источников данных о России, внутри России, за пределами Росси и не только. Большая часть того что я знаю является госданными, но есть и альтернативные источники данных, негосударственные.

Сейчас многие официальные источники исчезают или "превращаются в тыквы" (теряют детализацию или оперативность). Я подозреваю что все соцопросы сейчас превратятся именно что в тыквы, они уже то не очень, а теперь будут ещё хуже.

Вопрос к читателям, есть ли альтернативные данные по тому что происходит с российской экономикой и обществом сейчас? В идеале, на гиперлокальном уровне, до городов, но региональный и страновой уровни тоже важно.

Например, есть ли источники данных для ежедневного мониторинга цен на потребительскую корзину? Или уровень ожиданий у предпринимателей? Причём неважно, источники этих данных бесплатные или платные, главное чтобы достоверные и не на госданных.

Обсудим в чате @begtinchat

#opendata #data #indicators
В рубрике интересных проектов на открытых данных и создающих открытые данные база DB Nomics [1]. Это общедоступная база открытых данных показателей собранных из 65 источников таких как UN Data, портал открытых данных Всемирного банка, данные центральных банков многих стран, Евростата и так далее. Даже с сайта российского Росстата собирается несколько показателей [2]. Все содержимое сайта доступно через через открытое API [3] и в репозиториях на Git вместе с его кодом, который также полностью открыт [4]. Кроме того существуют клиенты для доступа к данным для языков программирования Python, R, Julia и для продуктов Mathlab, Stata и многих других. В общей сложности там собрано 24862 показателя, многие из которых обновляются ежедневно.

DB Nomics можно отнести к проектам для исследователей экономистов. Его команда работает во французском мозговом центре CEPREMAP и данные индикаторов, собираемых в проекте, используются для формирования макроэкномических моделей и прогнозов․ Таких как Macroeconomic outlook [5] от 23 декабря 2022 года.

Проектов собирающих данные показателей по странам довольно много, но важное отличие именно DB Nomics в открытости данных и кода и при этом довольно высоком качестве реализации.

Ссылки։
[1] https://db.nomics.world/
[2] https://db.nomics.world/ROSSTAT
[3] https://api.db.nomics.world/v22/apidocs
[4] https://git.nomics.world/dbnomics
[5] https://www.cepremap.fr/depot/2022/12/2022-12-23-Macroeconomic-Outlook.pdf

#opendata #dataset #economy #france #indicators
О доступности статистики

Часть 2/2

Где-то есть и ещё более интересные данные, вроде энергопотребления в Индии в виде ежесуточных индикаторов по штатам или множество экспериментальных индикаторов Евростата в ЕС.

Возвращаясь к доступности подобных данных в России, то повторюсь что не всё так плохо, интересные данные можно найти даже сейчас, но я лично не упоминаю их ровно по той причине что только расскажешь как и их тоже прикроют. Ситуация на сейчас "неплохо", но движение негативное, данных становится меньше, даже альтернативные данные могут в любой момент прикрыть цензурными/нецензурными действиями.

С другой стороны, к примеру, в Армении, норма - это ежемесячные данные АрмСтата, в PDF формате, со слабой доступностью данных даже по марзам (регионам). Похожая ситуация со многими постсоветскими странами. Но в защиту той же Армении могу сказать что расходы на информатизацию статистики были минимальны и дефицит данных возникает по бедности, а не из-за политических ограничений.

А, к примеру, в России я совершенно точно знаю что детальная статистика, например, по рождаемости с высокой гранулярностью собирается в ЕГР ЗАГС, но то что публикуется [9] это просто красивая картинка, не имеющая ценности. Почему же данные не публикуются? Может ими торгуют где-то как-то втихую? Не публикуется даже статистика потому что "зачем россиянам знать сколько их рождается и умирает". В той же системе ЕГР ЗАГС есть данные по смертности, но их целенаправленно не публикуют. Есть данные в разрезе регионов, муниципалитетов, месяцев, дней. Но их не публикуют. Потому что когда в государстве побеждает патернализм, то "экономика данных" превращается исключительно в формат гос-фетишизма, игры в хайп госмаркетологов и инструмент лоббирования и торговли с крупными цифровыми олигополиями и монополиями.

Ссылки:
[1] https://opendatacharter.org/principles/
[2] https://data.un.org
[3] https://data.worldbank.org
[4] https://data.bis.org
[5] https://www.statice.is/publications/experimental-statistics/deaths-ex/
[6] https://www.ons.gov.uk/peoplepopulationandcommunity/birthsdeathsandmarriages/deaths/datasets/weeklyprovisionalfiguresondeathsregisteredinenglandandwales
[7] https://www.health.tas.gov.au/health-topics/coronavirus-covid-19/current-risk-level-and-statistics/weekly-statistics
[8] https://ndap.niti.gov.in/catalogue
[9] https://zags.nalog.gov.ru/analytics

#opendata #statistics #datasets #indicators #thoughts
Чуть менее года назад я писал про Малазийский портал статистики OpenDOSM [1] и вот на днях повторно взглянул на него и обнаружил большой прогресс.

В Малайзии перевели портал открытых данных data.gov.my на этот движок [2], создали ещё один портал KKMNOW [3] для публикации статистики по здравоохранению и обновили OpenDOSM [4].

Во всех случаях выглядит это завораживающе прекрасно потому что на этих порталах:
- все данные экспортируются в CSV и Parquet
- есть хорошо документированное API
- у каждого датасета есть примеры кода для его немедленного использования (Python и R)
- подробная методология сбора данных
- многие индикаторы обновляются ежесуточно и еженедельно. График обновления данных строго соблюдается
- есть автоматически построенные графики по всем датасетам
- все индикаторы собраны в удобно представленные дашборды
- поиск внутри каждого датасета

Для публикации статистики государством - это что-то невероятное и с открытым кодом, он на каждом портале показан. Единственный минус это то что старый их национальный портал открытых данных на CKAN переведен в архив [5] и то что с таким подходом не работает принцип Open by default, потому что не все данные табличные, не все данные статистики и так далее. Но думаю что свой баланс в удобстве и открытости по умолчанию они найдут.

А пока это очень крутые движки для публикации статистики, удобные одновременно, и аналитикам, и разработчикам.


Ссылки:
[1] https://t.iss.one/begtin/4717
[2] https://data.gov.my/
[3] https://data.moh.gov.my
[4] https://open.dosm.gov.my/
[5] https://archive.data.gov.my/

#opendata #statistics #indicators #malaysia #datasets #datacatalogs
В рубрике интересных каталогов данных UN Arab Region Data and Policy Support Hub [1] и ARGP: Arab regional geospatial portal [2] порталы данных платформы регионального сотрудничества ООН посвящённые арабским странам.

Отличаются тем что агрегируют довольно много данных из других порталов ООН (data.un.org, data.worldbank.org) и других источников около 10 тысяч наборов данных часть из которых представлена статистическими индикаторами, часть геоданными. Поскольку агрегация данных выборочная лишь частично то много данных собрано не только по арабским странам.

Также декларируют наличие данных и моделей для машинного обучения. Хотя вот это для меня загадка поскольку почти все индикаторы там внутри - это годовые показатели, впрочем в геоданных есть наложение разных детализированных данных и там такое применение вполне логично.

Туда же можно отнести поисковую систему Manara (Istinara) позволяющая искать по миллионам ООНовских документам данным и картам. Конкретно сейчас поиск по данным у них был поломан, но поиск по картам работал вполне сносно

Ссылки:
[1] https://data.as-rcp.org
[2] https://data.as-rcp.org/GIS
[3] https://manara.as-rcp.org

#opendata #data #indicators #datacatalogs #un
Международные данные, подборка каталогов глобальных индикаторов и не только:
- Global Trade Data Portal [1] от Всемирной торговой организации. Помимо подборок данных и визуализаций от ВТО, там также представлены данные партнеров ВТО которые могут запрашивать исследователи для научных работ [2], самое интересное - это портовые грузоперевозки, ИМХО, впрочем для разных задач, разные данные.
- Data Futures Exchange [3] портал данных UNDP с разного рода показателями развития, а также множество продуктов на данных от того же UNDP включая GeoHub [4], каталог геоданных, и портал с данными для малых развивающихся островных государств SIDS [5]
- COVID-19 Data Portal [6] созданный в ЕС (EMBL-EBI) разросся до 30+ миллионов дата объектов из которых 29 миллионов это примеры и вирусные последовательности, ещё около 1 миллиона - это статьи и оставшиеся несколько десятков тысяч - это другие связанные с вирусом данные и данные по научной инфраструктуре.
- EUI Library Data Portal [7] большой систематизированный каталог описаний источников данных в European University Institute, Скорее даже не источник международных данных, а источник их описания.
- Gemstat Data Portal [8] портал данных проекта ООН по мониторингу качества питьевой воды по всему миру. Датчики во многих странах, данных много, очень много, но предоставляют их не самым удобным способом. Даже API не документировали.

Ссылки:
[1] https://globaltradedata.wto.org
[2] https://globaltradedata.wto.org/data-partnerships
[3] https://data.undp.org
[4] https://geohub.data.undp.org
[5] https://sids.data.undp.org
[6] https://www.covid19dataportal.org
[7] https://www.eui.eu/Research/Library/ResearchGuides/Economics/Statistics/DataPortal
[8] https://portal.gemstat.org

#opendata #dataportals #indicators #statistics
Свежий доклад ООН по Индикаторам устойчивого развития (SDG) [1]. Это те самые цели устойчивого развития которые являются одним из приоритетов ООН и по которым большинство стран публикуют свои показатели.

Из доклада можно узнать что:
- большая часть показателей не достигается
- всё ещё много проблем с тем что не по всем странам публикуются данные индикаторов и не всегда актуально

И, кстати, но это уже отдельная тема, много международных инициатив сейчас началось по достижению целей SDG в развивающихся странах и туда активно вовлечены бигтехи, которые или спонсируют такое, или даже помогают данными.

Ссылки:
[1] https://hlpf.un.org/sites/default/files/2024-05/SG%20SDG%20Progress%20Report%202024.pdf

#opendata #un #sdg #indicators #reports
Я уже рассказывал про геоклассификацию данных в Dateno и то что существенная фича в поиске - это возможность поиска по городам/регионам, на субрегиональном уровне. Классификация датасетов по субрегионам основана почти полностью на аннотировании каталогов данных и с этой точки зрения это довольно простая задача с понятным решением.

Как оказывается куда менее простой задачей является привязка датасетов к странам и макрорегионам.

Базово привязка эта привязка делается через привязку каталога данных которые, как правило, конкретными странами ограничены. К примеру, если есть национальный портал данных какой-то страны, то и данные почти всегда касаются этой страны. Но это самые простые случаи и в основном про порталы открытых данных и про геопорталы.

Сложности начинаются с научными данными. Большая их часть чёткой геопривязки может не иметь вообще, кроме ну разве что, академического института(-ов) авторов и их местонахождения. Исключение составляют редкие датасеты из наук о земле, лингвистики и ещё ряда научных дисциплин.

Другая сложность возникает со всей статистикой и производными индикаторами. Помимо стат. показателей по странам существует неимоверное число разных групп стран, от простых, до хитровыдуманных. К примеру, группы арабских стран, страны MENA, G20, G7, Андское сообщество, наименее развитые страны, страны без выхода к морю и ещё много какие. Причём, конечно, группы стран пересекаются, но не всегда входят в друг друга.

Внутри Dateno, при этом, для группировки стран используется список макрорегионов из UN M49. Разметить страны по вхождение в эти макрорегионы несложно и внутренний справочник для этого есть. А вот справочника вхождения стран в эти многочисленные группы и их пересечений - нет и его надо составлять де-факто полувручную и нет кого-то кто бы поддерживал такую живую базу данных или программную библиотеку.

Поэтому георазметка реальных мировых статистических данных - это боль, требующая большой ручной работы по привязке к макрорегионам.

Пока что отсутствие привязки каких-то датасетов к странам и макрорегионам не так критичны поскольку другие поисковики даже такого не поддерживают и есть фасеты где разметка куда хуже. К примеру, наличие информации о лицензии есть не более чем у 10% датасетов.

Тем не менее качество фасетов в Dateno влияет на пользовательский опыт и это важная задача для построения максимально достоверного поискового индекса по данным.

#dateno #statistics #indicators #geodata #geo #thoughts
Вышла бета версия германской статистической системы GENESIS-Online используемой статслужбой страны для публикации индикаторов [1]. В целом удобно, но скорее консервативно чем современно.

Из плюсов:
- есть API
- есть выгрузка в CSV/XLSX
- всё достаточно быстро и удобно

Из минусов:
- документированное API требует регистрации и авторизации, недокументированное... недокументировано
- документированное API сделано предоставляет SOAP интерфейс, непонятно зачем в 2024 году
- нет поддержки SDMX
- нет массовой выгрузки, bulk download

В целом, это скорее даже удивительно насколько статистика ЕС удобнее в работе чем статистика Германии, по крайней мере инструментально.

Ссылки:
[1] https://www-genesis.destatis.de/datenbank/beta

#opendata #statistics #germany #datacatalogs #indicators
В рубрике как это устроено у них я уже несколько раз писал про проект DBNomics [1] от французского think tank'а Cepremap и поддерживаемый пр-вом Франции.

Это огромный каталог, в основном, макроэкономических показателей из 92 источников, и в виде 35 тысяч датасетов и 1.4 миллиона временных рядов.

Реально огромная база индикаторов из всех ключевых источников. Чем-то похоже на то что у нас в Dateno, с той лишь разницей что в Dateno индикаторы - это лишь часть индексируемых данных и индексируются индикаторы вообще все, а не только экономические, но число источников пока и больше и меньше. Больше потому что сбор из стандартизированных источников, а меньше потому что основные данные не в них а в крупных больших базах индикаторов для которых надо писать отдельные парсеры.

Тем не менее, в нашей трактовке то что в DBNomics называется временным рядом, у нас скорее это датасет. Возможно даже, нам надо добавить отдельную типизацию данных по типам для большей точности.

Глядя на DBNomics всегда возникает вопрос, надо ли его индексировать или рассматривать только как источник информации о каталогах данных? Потому что он не первоисточник и по мере индексации первичных источников будет много дублей. А с другой стороны, данные в нём представлены куда более удобно и с ними легче работать.

До конца года хочется подключить к Dateno ещё хотя бы 5-6 миллионов наборов данных, что не так сложно, как хочется максимальной пользы от этого.

А у DBNomics также, есть открытый код, кстати, хорошее API и вообще это скорее дата продукт полноценный чем просто статистический портал.

Ссылки:
[1] https://db.nomics.world

#opendata #statistics #indicators #france #dateno