Ivan Begtin
8.04K subscribers
1.94K photos
3 videos
102 files
4.65K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Свежий интересный доклад The UK government as a data provider for AI [1] о том используют ли LLM госсайты Великобритании и официальные государственные данные. Результаты таковы что контент с официальных сайтов активно используется, а датасеты из data.gov.uk практически нет. Результат совершенно неудивительный поскольку основные LLM тренировали на бесконечном количестве текстов собранных с помощью Common Crawl или своими ботам или из поискового индекса, как у Google и Microsoft. В общем-то не на данных, строго говоря. Причин этому много, я бы обозначил основной причиной что датасеты для ИИ в государстве никто не готовил и датасеты с большим числом текстов также.

Рекомендации в докладе вполне разумные и включают:
1. Публиковать данные более пригодными для ИИ (AI ready)
2. Сделать ревизию доступности контента для AI краулеров.
3. Создать национальную дата библиотеку для AI

Последний пункт это про создание специализированного каталога данных высокого качества. О таких проектах давно и много где говорят, вероятность появления его в Великобритании растёт, это не первый доклад где я о таком читаю.

Текст доклада опубликован Институтом открытых данных (Великобритания) и у них же в этом году выходило ещё одно исследование From co-generated data to generative AI [2] о том как устроено обучение ИИ на данных краудсорсинга и соцсетей. Ничего революционного, но чтение полезное.

Ссылки:
[1] https://theodi.cdn.ngo/media/documents/The_UK_government_as_a_data_provider_for_AI.pdf
[2] https://wp.oecd.ai/app/uploads/2024/12/From-co-generated-data-to-generative-AI-1.pdf

#opendata #datasets #ai #uk #readings
В рубрике как это работает у них отдельный интересный пример работы статслужб на примере Office for National Statistics в Великобритании.

У них сайт службы де-факто превращён в портал данных. Не идеальный, например, нет перечня вообще всего что опубликовано, но очень интересный, потому что хорошо структурирован по разделам и работать с ним удобно по предметным областям.

Вот у него есть, как минимум, три важных особенности:
1. Что кроме самих данных статслужбы что они обязаны публиковать, они ещё и публикуют то что у них запрашивают (!!). Идея за этим проста, есть запросы на публикацию сведений по FOI (Freedom of Information Requests) и если запрашиваемые данные не содержат ничего персонального то деньги налогоплательщиков тратятся на создание датасета и этот датасет должен быть общедоступен. Очень правильная идея в своей основе. [1]

2. У них есть каталог временных рядов на основе переписи [2] с более чем 66 тысячами рядов. Поиск по ним неидеален, даже географических фасетов нет, но и в текущем виде работает.

3. И у них есть портал для разработчиков [3] по работе со стат данными, в первую очередь переписи, что позволяет с тем же банков временных рядов работать через API.

Опять же идеализировать нельзя, много чего нет, например, нет экспорта каталога данных в DCAT, нет поддержки SDMX, документированное API охватывает не всё, многие наборы данных на сайте только в Excel формате, но вот перечисленные три особенности реально полезны.

Ссылки:
[1] https://www.ons.gov.uk/businessindustryandtrade/business/businessservices/datalist?page=1&filter=user_requested_data
[2] https://www.ons.gov.uk/timeseriestool
[3] https://developer.ons.gov.uk/

#opendata #statistics #uk #datasets #datacatalogs
В рубрике полезного чтения про данные, технологии и не только:
- The Unique Challenges of Open Data Projects: Lessons From Overture Maps Foundation [1] в блоге Linux Foundation об отличиях работы с открытыми данными и открытым кодом на примере Overture Maps. Написано так словно авторы переоценили свой опыт с открытым кодом применительно к открытым данным, какие-то тезисы кажутся очень очевидными для тех кто в теме давно, что не отменяет их актуальности, конечно.

- La France classée première européenne en matière d'open data pour la 4e année consécutive [2] текущее состояние открытых данных во Франции за 2024 год, на французском, но всё понятно и автопереводчики есть. Если кратко: а) Франция лидер в отчете Open Data Maturity. б) Приоритет на данных особой ценности. в) Приоритет на вовлечении сообщества.

- The State of Open Data 2024: Special Report [3] доклад от Digital Science про состояние открытых исследовательских данных (публикуемых на их платформе, конечно, и ряда других источников). Полезно для общего понимания трендов в этой области, с поправкой на то что они коммерческий провайдер исследовательской инфраструктуры.

- Datos Abiertos de los Registradores de España [4] свежезапущенный каталог открытых данных испанских регистраторов, по сути статистика по банкротствам, покупкам жилья и так далее. Много полезных индикаторов оформленных как открытые данные.

- Wspolna platforma kartografee geologicznej (WPKG) [5] недавно открытая картографическая платформа геологической службы Польши. Помимо большого числа слоёв ещё и публикуют 3D модель геологической структуры территории Польши которая выглядит весьма и весьма неплохо. Открытое API явным образом не обозначено, но внутри всё на базе ArcGIS сервера к которому можно подключиться онлайн без труда.

- qcsv pro [6] коммерческий продукт для обработки данных и публикации на порталах открытых данных на базе CKAN. Смотрю на него критическим взглядом. С одной стороны он не дотягивает до OpenRefine по функциональности обработки и очистки данных, с другой ограничения бесплатной версии в 1000 строк CSV это ну как бы его сильно обесценивает, а с третьей он жёстко ограничен экосистемой CKAN. Есть ощущение что экономика не должна сходится, но вот бизнес модель такую можно зафиксировать. Будет ли она успешной? Посмотрим.

- Open Data Editor [7] некоммерческий редактор открытых данных с открытым данным и возможностью с публикации данных в CKAN и Zenodo. По сути это открытый конкурент qsv pro, и я о нём ранее упоминал. Полезен всем кто готовит небольшие данные для публикации, к сожалению, не годится когда данные не совсем маленькие, например, от 500MB.

- Most violent or sexual offences went unsolved in crime hotspots in England and Wales last year [8] статья в The Guardian о том что раскрывается лишь 11% преступлений сексуального характера в Великобритании раскрывается. И даже важнее то что есть территории где раскрываемость сильно ниже чем по стране, отчасти из-за качества данных, а отчасти это отражает реальную ситуацию. Важно что в Великобритании принципиально возможен такой анализ поскольку полиция раскрывает данные до муниципального уровня на специальном сайте data.police.uk

Ссылки:
[1] https://www.linuxfoundation.org/blog/the-unique-challenges-of-open-data-projects-lessons-from-overture-maps-foundation
[2] https://www.data.gouv.fr/fr/posts/la-france-classee-premiere-europeenne-en-matiere-dopen-data-pour-la-4e-annee-consecutive/
[3] https://www.digital-science.com/state-of-open-data-report-2024/
[4] https://www.registradores.org/-/el-colegio-de-registradores-presenta-la-plataforma-open-data-que-ofrece-información-pública-para-su-consulta-de-forma-libre-y-gratuita
[5] https://geologia.pgi.gov.pl/mapy/
[6] https://qsvpro.dathere.com/
[7] https://opendataeditor.okfn.org/
[8] https://www.theguardian.com/uk-news/2025/jan/13/most-violent-or-sexual-offences-went-unsolved-in-uk-hotspots-last-year

#opendata #uk #poland #geodata #opensource