Ivan Begtin
8.09K subscribers
1.99K photos
3 videos
102 files
4.7K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В рубрике интересных каталогов данных OpenAIP [1], открытая база и каталог данных по авиационной инфраструктуре.

Включает данные по воздушному пространству, аэропортам, препятствиям, контрольным пунктам и иным значимым сведениям почти по всем странам.

При этом детальность сильно варьируется, к примеру Европа описана максимально подробно, а Китай и Россия в основном в виде информации о аэропортах.

Но сама база велика, это:
- 46 тысяч аэропортов
- 23 тысячи записей о воздушном пространстве
- 335 тысяч препятствий
- 2 тысячи полей для авиамоделирования
- 3.7 тысячи навигационных маяков
и так далее, база хотя и не полна, но для открытого проекта весьма велика.

Данные из неё экспортируются в специальном разделе [2] по странам и в нескольких форматах включая специфичные для навигации и авиации SeeYou CUP, Openaip v1 AIP, OpenAIR и др. и это более 10 тысяч файлов данных (наборов данных скорее всего около 3-4 тысяч, поскольку одни и те же данные в могут быть в нескольких форматах. Собственно это и превращает проект из онлайн базы данных, в каталог данных где экспорт отдельных датасетов по странам вполне логичен.

Распространяется под свободной лицензией CC-BY-NC (свободное использование в некоммерческих целях). Часть кода доступно как открытый код [3]

Ссылки:
[1] https://www.openaip.net
[2] https://www.openaip.net/data/exports?page=1&limit=50&sortBy=createdAt&sortDesc=true
[3] https://github.com/openAIP

#aviation #opendata #datasets
В рубрике как это работает у них отдельный интересный пример работы статслужб на примере Office for National Statistics в Великобритании.

У них сайт службы де-факто превращён в портал данных. Не идеальный, например, нет перечня вообще всего что опубликовано, но очень интересный, потому что хорошо структурирован по разделам и работать с ним удобно по предметным областям.

Вот у него есть, как минимум, три важных особенности:
1. Что кроме самих данных статслужбы что они обязаны публиковать, они ещё и публикуют то что у них запрашивают (!!). Идея за этим проста, есть запросы на публикацию сведений по FOI (Freedom of Information Requests) и если запрашиваемые данные не содержат ничего персонального то деньги налогоплательщиков тратятся на создание датасета и этот датасет должен быть общедоступен. Очень правильная идея в своей основе. [1]

2. У них есть каталог временных рядов на основе переписи [2] с более чем 66 тысячами рядов. Поиск по ним неидеален, даже географических фасетов нет, но и в текущем виде работает.

3. И у них есть портал для разработчиков [3] по работе со стат данными, в первую очередь переписи, что позволяет с тем же банков временных рядов работать через API.

Опять же идеализировать нельзя, много чего нет, например, нет экспорта каталога данных в DCAT, нет поддержки SDMX, документированное API охватывает не всё, многие наборы данных на сайте только в Excel формате, но вот перечисленные три особенности реально полезны.

Ссылки:
[1] https://www.ons.gov.uk/businessindustryandtrade/business/businessservices/datalist?page=1&filter=user_requested_data
[2] https://www.ons.gov.uk/timeseriestool
[3] https://developer.ons.gov.uk/

#opendata #statistics #uk #datasets #datacatalogs
Ещё немного рефлексии по поводу второго срока Трампа и влияния на некоторые процессы которые я понимаю:

1. Открытость данных и не только в США никуда не денется. Президент Трамп в первый срок подписывал законы которые её продолжали и США продолжали финансировать многие инициативы в этой области. Открытость в развитых странах - это уже некий сложившийся устоявшийся консенсус, она особенно хорошо видна там где пересекается с коммерческими интересами (геоданные, некоторые иные крупные банки данных) и там где естественна в виду трансформации среды (наука), но и политическая открытость никуда не уходит.

2. Но некоторые данные могут исчезнуть, например, климатические. Такое уже было как раз в его первый президентский срок и связано это напрямую с его политической повесткой. Я бы не исключал необходимости в повторной инициативе data rescue. Схожая ситуация может быть с данными ряда агентств в США которые могут захотеть ликвидировать/преобразовать. Но, в США есть механизмы сохранения всего созданного гос-вом контента и почти наверняка как минимум публично доступные данные будут сохранены в библиотеке Конгресса и тд.

3. Международная повестка открытости продолжит смещаться в Европу. Это было и до Трампа, и продолжится при нём почти наверняка. Большую часть бюджета Open Government Partnership уже несколько лет формируют несколько европейских стран, Евросоюз (из общего бюджета) и многочисленные международные фонды. В этом плане ничего не изменится. Разве что могут скорректироваться бюджеты структур вроде USAID для которых уже давно открытые данные не цель, а инструмент реализации других инициатив. Именно не цель, а способ, в отличие от большей части стран ЕС.

#opendata #opengovernment #usa #trump
В прошлом году я поучаствовал в нескольких мероприятиях относящихся к тому что называют Digital Humanities и работе с данными в гуманитарных науках и понял что мне много что есть об этом сказать, но это будет долгий разговор.

Какие-то мысли отдельными тезисами фиксирую сейчас чтобы не потерять:
1. Работу с данными в гуманитарных науках можно разделить на три части: научную, культурную и образовательную.
2. Научная часть характерна тем что данные в науках особенно активно используются и культура работы с ними культивируется когда у этой работы есть экономический смысл. Иначе говоря, есть деньги - есть данные. Это справедливо для лингвистики, биоинформатики, метеорологии и ещё многих дисциплин которые в последние даже не годы, а десятилетия переходили в режим data-first (вначале-данные) когда данные или создаются, или используются, но всегда присутствуют, причём данные всё большего объёма.
3. Почти все гуманитарные науки всё ещё очень далеки от data-first подхода, слишком много дискуссий идёт вокруг того являются ли данные важным аспектом гуманитарных наук, много разговоров про то нужна ли инфраструктура для работы с ними, а если нужна то кто её будет делать, поддерживать и, самое главное, оплачивать.
4. С точки зрения профессиональной дата инженерии и естественных наук, в гуманитарных науках почти нет того что называют "большие данные" и применение ИИ. Здесь также ощущается "естественно-научный снобизм" когда для людей из условной биоинформатики всё что касается гуманитарных наук выглядит как "детский сад". Отдельный вопрос насколько такой взгляд обоснован, но он имеет место быть
5. Большая часть того что называют цифровыми гуманитарными проектами - это в меньшей степени научные и в большей степени культурные проекты. Они ближе к дата журналистике, дата сторителлингу и медиа, чем к чему-либо другому. Их можно смело относить к медиа проектам и форма их представления сильно доминирует над содержанием.
6. В странах с непостоянным прошлым культурные аспекты приобретают и сильный политический акцент текущей общественно-политической повестки.
7. Образовательный аспект самый сложный и заключается в таких вопросах как "должны ли историки программировать?", "должны ли искусствоведы уметь работать с данными?", "должны ли архивисты уметь работать в GIS системах?" и так далее. Опять же во многих научных дисциплинах такие вопросы уже не возникают. Юристы учатся и изучают LegalTech, экономисты осваивают R и Python.
8. Часто цифровую гуманитаристику приравнивают к лингвистике с чем лично я не готов согласится. Скорее это история + цифровая журналистика, современные способы представления не современных данных.
9. Второй серьёзный барьер после денег - это закрытость данных. Это касается, и архивов, и библиотек, и доступности данных и иных цифровых материалов под свободными лицензиями. Есть страны где с этим очень неплохо и есть те где всё довольно печально.
10. К примеру если начать проектировать аналог Europeana для ряда стран это будет просто невозможно. Просто потому что всё очень немного оцифровано и даже описи оцифрованы далеко не все.
11. Реальные изменения начинаются с тех кто выделяет средства на культурные проекты. Без их воли (и требований) не возникнет ни открытости, ни кооперации в достаточно серьёзном масштабе.
.
#digitalhumanities #culture #opendata
Я не так давно размышлял и писал про сложности того как некоммерческие проекты превращаются в коммерческие, когда какой-то open source продукт превращается его командой в SaaS сервис и сейчас наблюдаю подобное в области веб-архивации. Оказывается команда Webrecord в 2024 создала SaaS сервис Browsertrix [1] на базе одноимённого open source продукта по архивации сайтов. Ценник там не то чтобы сильно кусается, начинается с $30 в месяц, но, есть нюансы. Главный из них в том что конкурируют они сами с собой. У них есть довольно неплохой одноимённый движок [2] под AGPL который можно развернуть самостоятельно и сохранить свои веб-сайты.

С одной стороны это хорошая новость, а с другой это сложно сочетается с тем что они много создавали открытого кода по работе с WARC файлами и создали стандарт WACZ для более продвинутой архивации сайтов.

С точки зрения устойчивости проекта и бизнеса я их прекрасно понимаю, а с точки зрения пользователя их кода немного опасаюсь.

Хороших открытых продуктов по веб-архивации мало и они становятся коммерческими всё более и более(

Ссылки:
[1] https://webrecorder.net/browsertrix/
[2] https://github.com/webrecorder/browsertrix

#digitalpreservation #webarchives
Дашборд Германии (Dashboard Deutchland) [1] свежий проект германской статслужбы Destatis по визуализации ключевых индикаторов текущего состояния экономики.

Довольно простая и симпатичная штука со множеством панелей по разным областям с данными, в основном, с актуализацией в месяц, иногда с задержкой в 3 месяца.

Еженедельные и ежесуточные индикаторы тоже есть [2].

Плюс дают возможность зарегистрироваться и настроить личные дашборды.

А внутри используется открытое API того же Destatis и данные из других источников.

Ссылки:
[1] https://www.dashboard-deutschland.de/
[2] https://www.dashboard-deutschland.de/pulsmesser_wirtschaft/pulsmesser_wirtschaft_daily

#opendata #dataviz #germany #statistics #dashboards
В рубрике как это устроено у них пакет для Python под названием ... Германия, в оригинале deutschland [1] звучит странно, а содержание весьма логично. Этот пакет - это набор функций и классов для доступа к наиболее значимым наборам данных и API Германии. Сами данные предоставляются и API поверх данных и в виде сервисов предоставляются через портал bund.dev [2] где они задокументированы и общедоступны.

А пакет для python выглядит как логичное развитие и дополнение, значительно снижающие порог входа к использованию этих данных.

Заодно можно обратить внимание что чуть ли не основные примеры про работу с геоданными и данными регистра компаний.

Особенность в том что этот проект негосударственный и делается командой активистов.

Ссылки:
[1] https://github.com/bundesAPI/deutschland
[2] https://bund.dev

#germany #data #api #opendata
Hugging Face выпустили коллекцию графиков 🤗 Open-source AI: year in review 2024 [1].

Где много всяких визуализаций того как в области AI работают с данными, моделями и не только, а ещё там есть график The Circle of Sharing: How Open Datasets Power AI Innovation [2] где можно увидеть как повторно компаниями используются датасеты выложенные другими компаниями.

Другие графики не менее любопытные.
Ссылки:
[1] https://huggingface.co/spaces/huggingface/open-source-ai-year-in-review-2024
[2] https://huggingface.co/spaces/huggingface/open-source-ai-year-in-review-2024

#opendata #ai #dataviz #data
В рубрике как это устроено у них карта растительности Японии [1] доступна в виде в виде 16 Shape файлов по префектурам страны, общим объёмом 4.4GB с детализацией 1/25000.

Он же, уже преобразованный в формат GeoParquet объёмом в 6.2GB в каталоге Source Cooperative [2] где публикуется немало больших геодатасетов.

Таких подробных и открытых карт растительности в мире немного, на уровне страны мне ранее не попадались.

Хороший тест для любой геоинформационной системы способность отобразить такие данные.

Ещё одно наблюдение, в Японии данных публикуется много, но каким-то своим необычным способом. Национальные порталы вроде есть, но найти на них что-то значимое сложно.

Ссылки:
[1] https://gis.biodic.go.jp/webgis/sc-025.html?kind=vg67
[2] https://source.coop/repositories/pacificspatial/vegetation-jp/access

#datasets #opendata #japan
В рубрике как это устроено у них платформа ioChem-DB [1] каталог данных в области вычислительной химии и материаловедения, не сомневаюсь что большинство химиков работающих с химическими формулами с ним сталкивались.

Его особенность в том что это по-факту:
- специальный набор инструментов по подготовке и преобразованию данных
- модель данных для описания данных
- платформа на базе DSpace для публикации данных в первичном и в преобразованных форматах.

Основной сайт агрегирует данные собранные из других порталов.

Большая часть данных публикуется в форматах Chemical Markup Language (CML) [2] и под свободными лицензиями.

Важная особенность в том что названия и описания этих наборов данных могут быть крайне минималистичны и состоять только из какого-нибудь кода, например 000112758 [3]

Поэтому я лично не знаю как химики используют там поиск и не могу сказать что понимаю как добавлять такие данные в Dateno [4] потому что хоть это и датасеты, но кто сможет найти их с таким-то описанием?

Ссылки:
[1] https://www.iochem-bd.org
[2] https://www.xml-cml.org
[3] https://iochem-bd.bsc.es/browse/handle/100/87916
[4] https://dateno.io

#opendata #chemistry #opensource #datasets #dateno
В качестве напоминания, у Dateno есть телеграм канал @datenosearch где регулярно будут новости проекта, в основном на английском языке (на русском я тут в своём канале обо всём и так пишу). Тем не менее подписывайтесь, наиболее актуальные новости проекта, лайфхаки, примеры и тд будут именно там.

#dateno