Ivan Begtin
8K subscribers
1.91K photos
3 videos
101 files
4.61K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В рубрике как это устроено у них European Health Information Gateway [1] портал данных Всемирной организации здравоохранения (WHO) на котором опубликованы десятки наборов данных с данными по статистике здравоохранения, целевым исследованиям, мониторингу и отчётам по европейским странам. Причём к Европе там отнесены и Турция, и Россия, и Армения и страны Центральной Азии. По каждой из стран доступно множество индикаторов и есть возможность работать с этими данными с помощью API [2].

Сам сайт представлен на двух языках, английском и русском, что тоже нестандартно для сайтов структур ООН, обычно там или только английский, или набор основных языков ООН.

Для тех кто ищет региональные данные не обязательно отправляться на сайт WHO, можно обратить внимание на их региональные порталы с данными. Другие примеры таких порталов по регионам:
- data.wpro.who.int - Western Pacific [3]
- opendata.paho.org - Americas [4]
- hip.searo.who.int - South-East Asia [5]

и так далее. Среди них европейский портал сделан существенно лучше, там, и удобное API,и отдельно датасеты и отдельно индикаторы.

Ссылки:
[1] https://gateway.euro.who.int/en/
[2] https://gateway.euro.who.int/en/api/
[3] https://data.wpro.who.int/
[4] https://opendata.paho.org/en
[5] https://hip.searo.who.int/dhis/dhis-web-commons/security/login.action

#opendata #datasets #europe #statistics #healthcare
В рубрике интересных каталогов данных я ранее писал про WIS 2.0 движок от Всемирной метеорологической организации (WMO) по сбору стандартизированных данных о погоде [1]. Но это относительно новый продукт, ведь большое число стран интегрировано с системами WMO и без него. И делают они это, не все но многие, с помощью другого продукта который называется OpenWIS [2].

Это продукт с открытым кодом созданный в The OpenWIS Association AISBL через кооперацию более чем десятка стран.

На базе OpenWIS работают порталы с данными о погоде в России [3], Таиланде [4], Индонезии [5], Южной Корее [6] и многих других странах.

Внутри OpenWIS форк продукта Geonetwork, специализированного каталога метаданных используемого для публикации и поиска по пространственным данным. Поскольку у Geonetwork много открытых API и интерфейсов то к этим порталам можно подключится даже когда их веб интерфейсы закрыты паролями. Например, у российской инсталляции OpenWIS открытое API по стандарту OAI-PMH [7] и, скорее всего и другие тоже есть.

Код OpenWIS не развивается уже несколько лет, явно постепенно метеорологические агентства будут переходить на WIS 2.0 и на другие решения, тем не менее эти порталы это тоже каталоги данных. В реестре каталогов Dateno их пока нет, кроме портала OpenWIS в Таиланде, который был идентифицирован как экземпляр Geonetwork хотя, правильнее всё же будет определять OpenWIS как отдельный тип каталогов данных.

С одной стороны данных в этих каталогах данных немного, сотни слоёв карт, максимум, а с другой стороны их сбор не требует сверхусилий и рано или поздно они появятся в поиске Dateno.

Ссылки:
[1] https://t.iss.one/begtin/5972
[2] https://github.com/OpenWIS/openwis
[3] https://meta.gisc-msk.wis.mecom.ru/openwis-portal/srv/en/main.home
[4] https://wis.tmd.go.th/openwis-user-portal/srv/en/main.home
[5] https://wis.bmkg.go.id/openwis-user-portal/srv/en/about.home
[6] https://dcpc.nmsc.kma.go.kr/openwis-user-portal/srv/en/main.home
[7] https://meta.gisc-msk.wis.mecom.ru/openwis-portal/srv/en/oaipmh?verb=Identify

#opendata #datacatalogs #data #meteorology #opensource
В качестве регулярных напоминаний, с 1 по 7 марта 2025 года по всему миру пройдут мероприятия Дней открытых данных (Open Data Days, ODD) [1]. Это множество выступлений, лекций, семинаров и встреч по всему миру. Кто то слушает выступления других, кто-то проводит самостоятельно.

Ежегодно в России в Москве его проводит Инфокультура (@infoculture), с 2020 года в дистанционном формате. О прошлом ODD можно узнать на его сайте [2]. В 2025 году он, также, будет проходить дистанционно. Традиционно ключевая тема ODD - это открытые данные, мы также делаем акцент на данных связанных с культурой и историческим наследием, а также данными используемыми в исследовательских целях. В этот мероприятие также планируем и если у Вас есть желание выступить, то можно заранее писать мне.

В Армении мы также проводим день открытых данных, но вживую, организуя его от Open Data Armenia (@opendataam) и акцент делаем не только культурном наследии, но и на журналистике и практическом применении данных. Можно посмотреть программу прошлого ODD [3]. Если Вы в Армении и у Вас есть интересный доклад про данные и открытые данные, тоже обязательно напишите.

И, конечно, напишите, если Вы готовы выступить спонсором или иначе поддержать эти мероприятия. Наших скромных ресурсов хватает чтобы их организовать, но никогда не хватает чтобы сделать это идеально 😉

И, наконец, Open Data Day - это не только большие мероприятия, это ещё и сотни небольших митапов по всему миру, хороший повод собраться и поговорить о важном. Можно не только смотреть и участвовать в наших мероприятиях, но и организовать своё, в своём городе, университете или по какой-то своей специальной теме. О таких мероприятиях мы обязательно пишем на наших ресурсах и помогаем привлечь к ним внимание.

Ссылки:
[1] https://opendataday.org
[2] https://opendataday.ru/msk
[3] https://odd.opendata.am

#opendata #opendataday #data #events
В рубрике как это устроено у них портал статистики Резервного банка Индии Database on Indian Economy [1] на котором публикуются сотни индикаторов и статистических данных страны и более тысячи таблиц в общей сложности.

Большая часть индикаторов годовые и квартальные, но есть и дневные и еженедельные показатели [2]. Портал отличается тем что совмещает визуализацию данных с возможностью получить в машиночитаемой форме через систему запросов к базе данных [3].

Из плюсов:
- много индикаторов
- есть оперативные показатели (до суток)
- централизованный поиск
- получение данных в CSV формате

Из минусов:
- нет документированного API (недокументированное есть)
- нет поддержки SDMX
- нет возможности массовой выгрузки (bulk download)

Если говорить объективно, то это очень консервативная штука сделанная на базе SAP BI и объективно неудобная, но на фоне многих других баз индикаторов в Индии она не так уже плоха.

Ссылки:
[1] https://data.rbi.org.in/#/dbie/home
[2] https://data.rbi.org.in/#/dbie/indicators
[3] https://data.rbi.org.in/#/dbie/dataquery_enhanced

#opendata #datasets #datacatalogs #statistics #india
Полезное чтение про данные технологии и не только:
- Ask HN: Predictions for 2025? [1] предсказания будущего для 2025 года в комментариях на Hacker News, а заодно там же ссылки на прошлые комментарии. Во первых видно как все ошибались в прошлые годы, во вторых виден пессимизм на следующий год
- Logging, the sensible defaults [2] очень коротко о том как надо и как не надо журналировать в больших облачных продуктах. Есть над чем подумать и поменять свои практики тоже
- Open Data Editor 1.2.0 [3] стабильная версия редактора пакетов открытых данных. Полезный инструмент, хотя и пока не так популярный как мог бы быть.

Ссылки:
[1] https://news.ycombinator.com/item?id=42490343
[2] https://gerlacdt.github.io/blog/posts/logging/
[3] https://blog.okfn.org/2024/12/05/announcement-open-data-editor-1-2-0-stable-version-release/

#opendata #prediction #tech #readings
К вопросу про открытые данные их количество и качество, я уже не раз обращался к теме с публикацией открытых данных Центральной Азии и Казахстана в частности, что слишком многие инициативы по открытым данным там не про быть а про казаться. В ту же копилку, портал открытых данных Казахстана data.egov.kz [1]. Помимо того что он не про открытые данные и того что там есть ограничения в виде запрета на скачивание более 100 записей (!!) и отсутствия свободных лицензий, так ещё и то что там называется данными это, как бы помягче, совсем ими не является. Вот пример, "набор данных" под названием "Контактные данные" [2]. Это просто одна строка. Всего лишь одна запись и она называется набором данных!

И это не единственный пример, таких одно-двух-трехстрочных записей много, вот ещё [3] [4] [5] [6] и ещё и ещё и ещё.

Надо ли объяснять что такие "наборы данных" полностью бесполезны, это, либо сведения которые никому не нужны, либо отдельные значения того что должно быть временным рядом.

При том что данных в стране немало, одних только данных Казстата и Нацпортала геоданных не меньше чем на data.egov.kz.

Это одна из причин почему мы до сих пор не индексируем нац портал открытых данных Казахстана в Dateno, хотя всего у нас в индексе более 34 тысяч наборов данных по стране [7] большая часть которых - это международная статистика (24 тысячи) и геопорталы страны (10 тысяч).

Ссылки:
[1] https://data.egov.kz
[2] https://data.egov.kz/datasets/view?index=bailanys_derekteri
[3] https://data.egov.kz/datasets/view?index=zhurgizilip_zhatkan_zertteuler
[4] https://data.egov.kz/datasets/view?index=basshylyk2
[5] https://data.egov.kz/datasets/view?index=number_of_active_borrowers3
[6] https://data.egov.kz/datasets/view?index=svedeniya_call_centr
[7] https://dateno.io/search?refinementList%5Bsource.countries.name%5D%5B0%5D=Kazakhstan

#opendata #kazakhstan #datacatalogs
К вопросу о том где и как искать данные и что такое каталоги данных, есть отдельная категория каталогов данных в виде репозиториев результатов научной деятельности в которых чего только нет, но обычно это статьи, диссертации, магистерские работы, книги и реже медиафайлы и курсы. Но там бывают и данные, чаще всего их доля не очень велика, если это не специализированный репозиторий именно для данных.

Университеты таким образом публикующие данные, чаще всего используют продукты вроде DSpace, Eprints, Elsevier Pure и ещё ряд других, менее популярных.

Ключевой вопрос включать ли их все в реестр каталогов Dateno? Если да, то по каким критериям? По числу датасетов? По доле датасетов от общей доли публикации? По потенциальной возможности что датасеты там могут появится в будущем?

Вот живой пример Архив открытого доступа Санкт-Петербургского государственного университета [1], один из немногих и возможно крупнейший ресурс раскрытия публикаций университетов в России. Всего в нём сейчас 47619 публикаций. И это не то чтобы мало, даже много. Но из них всего 17 публикаций являются наборами данных и помечены как тип Dataset. Это 0.03% от общего числа публикаций. Можно ли его считать каталогом открытых данных или нет? Добавлю что ещё и то что инсталляции DSpace без доп настроек не дают поиска по типу ресурса и чтобы найти даже эти 17 датасетов пришлось скачать метаданных все 47+ тысяч записей.

А также добавлю что есть множество репозиториев научных публикаций где датасетов совсем нет, это почти все репозитории публикаций в Армении, в Казахстане и многие репозитории российских университетов.

Но ведь данные там появится могут, так что же регулярно проверять что там данные появились и только тогда вносить их как каталоги данных?

Ссылки:
[1] https://dspace.spbu.ru
[2] https://dspace.spbu.ru/handle/11701/17114?mode=full

#opendata #openaccess #researchdata #datasets
Я, кстати, искал примеры живых данных в формате Parquet которые бы публиковались целенаправленно как открытые данные и таки нашёл.

Проект Open Performance Data Initiative (OPDI) [1] создан Евроконтролем в 2022 году для публикации данных об эффективности управления воздушным трафиком.

Данные на портале публикуются в виде Parquet файлов [2], с интервалами дат и инструкцией по их автоматической загрузке. По сути симуляция API.

Причём данных там немало. Данные о событиях за 10 дней собираются в Parquet файл размером до 150МБ что с учётом сжатия формата хранения раскрывается в сотни миллионов значений за три года.


Ссылки:
[1] https://www.opdi.aero
[2] https://www.opdi.aero/flight-event-data

#opendata #europe #transport #airtraffic #datasets
В рубрике открытых данных о которых никто не знает порталы открытых данных по биоразнообразию, в том числе в России. Я писал об этом примерно 1.5 года назад [1], но можно и повторить и обновить.

Глобальный проект GBIF (Global Biodiversity Information Facility) [2] открытый каталог данных по биоразнообразию наполняется из более чем 361 инсталляции специального типа каталога данных называемого IPT (Integrated Publishing Toolkit) [3] который, как правило, развертывают университеты или их подразделения занимающиеся исследованиями в этой области.

Таких порталов много, 361 точно есть, и о них, как правило, мало кто знает за пределами этой научной дисциплины. Тем не менее это полноценные порталы с условиями использования, машиночитаемыми данными, свободными лицензиями и экспортом метаданных по стандарту DCAT.

Вот их обновлённый список в России:
- https://ipt.zin.ru
- https://altb.asu.ru/ipt/
- https://ipt.ugrasu.ru:8080/ipt/
- https://ipt.ipae.uran.ru/
- https://ib.komisc.ru:8088/ipt/
- https://gbif.ocean.ru/ipt/
- https://gbif.krc.karelia.ru/ipt/
- https://gbif.ru:8080/ipt/

Поэтому возвращаясь к вопросу о том есть ли в России раскрытие научных данных. Да, есть. Там где наука интегрирована в мировую. А где не интегрирована - там нет.

Кстати, многие данные в GBIF привязаны не к стране исследовательского центра, а к странам где проводились исследования. Многие данные по биоразнообразию Центральной Азии публиковались российскими исследователями.

Ссылки:
[1] https://t.iss.one/begtin/4889
[2] https://www.gbif.org
[3] https://www.gbif.org/ipt

#opendata #biodiversity #biology #datacatalogs
И ещё про итоги года, самое время вспомнить про тренды открытости и доступности данных в мире.

1. Больше международных данных. Совершенно точно общедоступных данных становится больше, большая часть новых данных публикуются как открытые (под свободными) лицензиями. Например, на большинстве сайтов активных межгосударственных организаций разделы "Статистика" и "Исследования" переименовали в разделы "Данные" или "Данные и статистика" и "Данные и исследования". Я бы даже сказал что это стало нормой для почти всех структур входящих в ООН, к примеру.

2. Больше данных городов и муниципалитетов
. Местные/городские данные один из приоритетов OGP, порталы данных городов появляются во все большем числе стран и наиболее активно создаются порталы геоданных. А также именно в городах чаще используют SaaS решения вроде OpenDataSoft и ArcGIS Hub.

3. Больше данных для машинного обучения. Этот тренд исключительно нарастает, помимо Kaggle и Hugging Face данные публикуют на многочисленных других порталах и сайтах компаний, исследовательских центров и так далее.

4. Постепенное проникновение дата инженерии и дата сайенс в открытые данные. Это происходит медленно но в последние пару лет особенно заметно и то что данные всё чаще доступны для массовой выгрузки (bulk download) и в форматах вроде parquet (данные из порталов OpenDataSoft, данные французского нац портала портала, данные нац портала Малайзии)

5. Больше особенно ценных данных. Инициатива High Value Datasets в Европейском союзе развивается и за его пределами. Появляется всё больше данных имеющих прямую измеренную пользу для экономики и всё более закрепляется политика государств что открытость этих данных несёт больше пользы обществу и бизнесу в частности чем торговля ими.

6. Расширение вклада биг техов в открытость данных.
Это касается тех данных которые касаются общей инфраструктуры, данных полученных с помощью ИИ, данных необходимых для обучения LLM моделей. Чаще всего это не собственные данные, а чьи-то ещё переупакованные, обогащённые и тем не менее полезные. Например, данные в рамках Overture Maps.

7. Усиление движения открытого доступа (Open Access).
Что выражается не только в том что повышается доступность научных статей, но и в появлении всё большего числа порталов исследовательских данных открытого доступа. Также становится больше специализированных порталов данных привязанных к конкретным научным дисциплинам и их специфике.

8. Сложность восприятия ИИ среди open data активистов
. Главными бенефициарами открытости не только данных, но и любых других свободно распространяемых материалов оказываются big tech компании, а теперь ещё и OpenAI и лидеры рынка LLM моделей. На многих волонтеров начинает давить ощущение что именно биг техи, а не общество выигрывают от открытости данных.

#opendata #opengov #data #thoughts
Продолжая подводить итоги года, для меня лично в этом году важнейшим проектом был и останется в 2025 году - Dateno, поисковик по датасетам по всему миру который наша команда строила в 2024 году. Сейчас там 19 миллионов наборов данных, скоро будет больше, равно как и больше возможностей которые поисковик будет предоставлять.

Dateno, отчасти, возник спонтанно. Мне давно хотелось сделать большой проект на весь мир по открытым данным, но первоначально амбиции были только создать универсальный реестр всех дата-ресурсов (реестр каталогов данных), а далее так получилось что на их основе оказалось не так сложно построить поисковую машину.

За 2024 год удалось:
- проиндексировать более 19 миллионов датасетов
- подготовить харвестеры для более чем 15 типов порталов открытых данных, индикаторов и геоданных
- реализовать API доступное пользователям Dateno
- собрать внушительную базу пользователей
- подготовить всё необходимое для индексации ещё нескольких десятков миллионов наборов данных
- обогатить собранные карточки датасетов метаданными о странах, тематиках, правах на использование

Тут есть чем гордиться и много работы ещё предстоит.

1. Больше социально-экономических данных
.
Это касается индикаторов, временных рядов и иных данных которые чаще всего публикуются на порталах открытых данных и порталах индикаторов. Сейчас из запланированных крупных каталогов данных проиндексированы только около половины и дальше их будет больше.

Сейчас у Dateno есть небольшой уклон в такого рода данные поскольку они одни из наиболее востребованных и он может вырасти по мере индексации новых источников.

2. Значительно увеличить число наборов данных
Это очень простая задача если не беспокоиться о качестве данных, достаточно загрузить карточки датасетов из нескольких научных агрегаторов и это сразу добавить +20 миллионов наборов данных. Но, качество метаданных там ограничено только описанием, без ссылок на ресурсы к которым можно было бы обращаться напрямую. Такие датасеты несут куда меньше пользы для пользователей, хотя и из них в основном состоят поисковые индексы Google Dataset Search (GDS), OpenAIRE, BASE и ряда других поисковиков. Карточки датасетов без ресурсов позволяют резко нарастить индекс, но наличие ресурсов у карточки - это одна из наших внутренних метрик качества поискового индекса. Этот баланс качества и количества важен и он один из главных сдерживающих факторов роста индекса Dateno, тем не менее рост этот неизбежен.

3. Больше интеграционных возможностей

У Dateno уже есть API которым можно воспользоваться и далее это API будет развиваться в сторону его интеграции с инструментами для дата аналитиков и дата инженеров. Интеграция и API - это важные атрибуты любого сервиса, особенно для работы с данными. Невозможно всё придумать и сделать силами только одной команды и API позволяет другим улучшать и развивать свои продукты.

4. Больше возможностей

Сейчас Dateno позволяет только искать данные, но не проводить с ними какие-либо операции и это изменится. Не сразу и я не буду заранее говорить какие именно возможности появятся, но они будут.

Наша цель чтобы Dateno стал регулярным инструментом для каждого дата аналитика, дата инженера и дата сайентиста, так что работы ещё много)

#opendata #dateno #datasets #yearinreview
Подборка чтения про данные, технологии и не только:

- SOAR - крупнейший в мире атлас, каталог и архив карт, привязанных к карте мира. Более 712 тысяч карт по десяткам тематик, особенно интересны исторические карты, на мой взгляд. Поиск скорее неудобный, а вот отображение на карте мира очень неплохо [1]

- Open Science rewarded: Four Projects to receive the National Prize for Open Research Data [2] в Швейцарии есть премия Open Research Data (ORD) которой ежегодно награждаются исследователи делающие проекты и помогающие публиковать и развивать среду открытых исследовательских данных. Среди победителей такой проект как Pathoplexus [3] онлайн сервис и база данных человеческих патогенов включая геномные данные. Открытый код и открытые данные вместе. Проекты других победителей не менее интересны.

- OpenUK New Year Honours List [4] список персон отмеченных за вклад в открытый код и в открытые данные в Великобритании. Ежегодно публикуется НКО OpenUK одна из важных особенностей которой в том что финансируется она не госгрантами, а корпоративными спонсорами: Google, Github, Microsoft, Arm, Red Hat и другими.

- Web Almanac 2024 [5] ежегодный доклад о состоянии веба от HTTP Archive создан по итогам анализа 16.9М сайтов и 83ТБ данных, описан в 19 разделах включая разделы про структурированные данные, размеры веб страниц, шрифты, изображения, разметка и многое другое.

- What happens with legislative initiatives in the committees? [6] дата-сторителлинг в Парламенте Австрии с визуализацией законодательных инициатив, на немецком, но поддаётся автопереводу. К публикации приложены данные и код на языке R.

Ссылки:
[1] https://soar.earth/
[2] https://akademien-schweiz.ch/en/medien/press-releases/2024/offene-wissenschaft-ausgezeichnet-vier-projekte-erhalten-den-nationalen-preis-fur-offene-forschungsdaten/
[3] https://pathoplexus.org/
[4] https://openuk.uk/honours/
[5] https://almanac.httparchive.org/en/2024/
[6] https://www.parlament.gv.at/recherchieren/open-data/showcases/Was-passiert-mit-Gesetzesinitiativen-in-den-Ausschuessen

#opendata #opensource #openaccess #readings #geo #spatial
В рубрике как это устроено у них программа AirNow [1] по сбору информации и информированию граждан о качестве воздуха в Соединённых Штатах Америки. Ведётся федеральным агентством EPA и охватывает буквально все населённые пункты и графства, а также посольства в десятках стран по всему миру [2]. Если это не крупнейшая, то одна из крупнейших инициатив в мире по мониторингу качества воздуха по множеству критериев.

Для рядовых пользователей можно получить значения на сайте проекта, а для разработчиков и аналитиков доступны API [3] и данные [4]. Причём данные доступны для массовой выгрузки (можно скачать хоть всю базу целиком и сразу) с измерениями начиная с 1980 года.

Помимо данных посольств собираются ещё и данные от организацией партнеров по мониторингу, например, из Канады и Мексики. Поэтому, вместе с данными посольств, хотя и эта программа мониторинга действует внутри США, но частично охватывает и другие страны.

Ссылки:
[1] https://www.airnow.gov/
[2] https://www.airnow.gov/international/us-embassies-and-consulates/
[3] https://docs.airnowapi.org/
[4] https://www.epa.gov/outdoor-air-quality-data

#opendata #datasets #weather #airquality #usa
В рубрике интересных каталогов данных OpenAIP [1], открытая база и каталог данных по авиационной инфраструктуре.

Включает данные по воздушному пространству, аэропортам, препятствиям, контрольным пунктам и иным значимым сведениям почти по всем странам.

При этом детальность сильно варьируется, к примеру Европа описана максимально подробно, а Китай и Россия в основном в виде информации о аэропортах.

Но сама база велика, это:
- 46 тысяч аэропортов
- 23 тысячи записей о воздушном пространстве
- 335 тысяч препятствий
- 2 тысячи полей для авиамоделирования
- 3.7 тысячи навигационных маяков
и так далее, база хотя и не полна, но для открытого проекта весьма велика.

Данные из неё экспортируются в специальном разделе [2] по странам и в нескольких форматах включая специфичные для навигации и авиации SeeYou CUP, Openaip v1 AIP, OpenAIR и др. и это более 10 тысяч файлов данных (наборов данных скорее всего около 3-4 тысяч, поскольку одни и те же данные в могут быть в нескольких форматах. Собственно это и превращает проект из онлайн базы данных, в каталог данных где экспорт отдельных датасетов по странам вполне логичен.

Распространяется под свободной лицензией CC-BY-NC (свободное использование в некоммерческих целях). Часть кода доступно как открытый код [3]

Ссылки:
[1] https://www.openaip.net
[2] https://www.openaip.net/data/exports?page=1&limit=50&sortBy=createdAt&sortDesc=true
[3] https://github.com/openAIP

#aviation #opendata #datasets