Ivan Begtin
7.99K subscribers
1.87K photos
3 videos
101 files
4.58K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В рубрике как это устроено у них перепись в Великобритании проходила 3 года назад, в 2021 году, с того момента уже давно доступны датасеты и многие региональные инструменты просмотра сведений о переписи. Например, в Северной Ирландии статистическое агентство NISRA предоставляет доступ к навигатору по данным переписи с детализацией до переписных участков [1], а также их данные доступны на их же портале открытых данных [2].

Причём можно увидеть что многие переписный участки - это всего несколько сотен сельских жителей, 2-3 села, максимум.

А статистика там довольно подробная, я бы сказал практически полезная для любой социологии.

Что можно добавить. Если в Вашей стране прошла перепись и она недоступна хотя бы в таком виде, то может быть переписи не проходило?

Ссылки:
[1] https://explore.nisra.gov.uk/area-explorer-2021/
[2] https://data.nisra.gov.uk/

#opendata #datasets #ireland #uk #northernireland #census
В рубрике как это работает у них Defra, государственное агентство Великобритании, опубликовало несколько наборов данных посвящённых Стратегическому картированию шума (Strategic noise mapping) [1] эти данные создавались путём измерения шума на дорогах, железных дорогах и в крупнейших агломерациях в течение 2021 года и в соответствии с законом The Environmental Noise (England) Regulations 2006 [2] обязывающем государство вести такой мониторинг.

Итоговые данные опубликованы в виде геоданных, форматах WFS, WMS и OGC API на портале Data Services Platform [3] в виде датасетов:
- шум на железных дорогах [4]
- шум на дорогах [5]
- шум в агломерациях [6]

А также можно скачать данные по территориям выбрав их нарисовав полигон на карте.

Это хороший пример, и открытости важных данных о качестве жизни, и инструментов доступа к этим данным с возможностью доступа по API, скачать датасеты целиком или по избранным территориям.

Ссылки:
[1] https://www.gov.uk/government/publications/strategic-noise-mapping-2022/explaining-the-2022-noise-maps
[2] https://www.legislation.gov.uk/uksi/2006/2238/contents/made
[3] https://environment.data.gov.uk
[4] https://environment.data.gov.uk/dataset/3fb3c2d7-292c-4e0a-bd5b-d8e4e1fe2947
[5] https://environment.data.gov.uk/dataset/562c9d56-7c2d-4d42-83bb-578d6e97a517
[6] https://environment.data.gov.uk/dataset/4739c0c3-e800-4cb1-89cd-e71115b191e9
[7] https://environment.data.gov.uk/explore/562c9d56-7c2d-4d42-83bb-578d6e97a517?download=true

#opendata #datasets #lifequality #data #noise #uk
Документы бюджета Великобритании Autumn Budget 2024 [1] интересно смотреть сразу с нескольких точек зрения. Во первых они публикуют документ бюджета в виде книги [2], с графиками и очень понятными таблицами и сразу с присвоением ISBN и хорошо отформатированной веб версией [3].

А во вторых, и это интереснее, отдельным приложением идёт документ с упоминанием всех источников данных [4]. Буквально в стиле "в таком то разделе, таком то параграфе приведены данные ссылка на которых вот тут".

А также множество сопровождающих документов.

После чтения бюджетов многих стран, в разных форматах, читать этот значительно легче и понятнее. Хотя лично я жду когда же когда-нибудь появится моделирование бюджетов и госполитики интерактивными и машинными инструментами.

Ссылки:
[1] https://www.gov.uk/government/publications/autumn-budget-2024
[2] https://assets.publishing.service.gov.uk/media/672232d010b0d582ee8c4905/Autumn_Budget_2024__web_accessible_.pdf
[3] https://www.gov.uk/government/publications/autumn-budget-2024/autumn-budget-2024-html
[4] https://assets.publishing.service.gov.uk/media/6722236e4da1c0d41942a986/Autumn_Budget_2024_-_Data_Sources__1_.pdf

#openbudgets #data #opendata #uk #readings
С конца ноября НКО OpenOwnership закрывают [1] свой проект Open Ownership Register [2] где была собрана база из 30 миллионов записей о конечных владельцах компаний.

Лично я так до конца и не понял почему они это делают, но в анонсе события указывается на сложности поддержания технической инфраструктуры и на фокусе на доступности данных, а не продукта основанного на данных.

Подозреваю что основной причиной было то что больших успехов достигнуть не удалось и кроме реестра бенефициаров Великобритании, всё остальное очень скромное по актуальности и по объёму.

Я когда-то списывался с ними по поводу данных по Армении, которые заявлялись как очень хорошие, а по факту там была информация всего по 8 компаниям и не то чтобы хорошо подготовленная.

В любом случае, хотя сайт у реестра уже плохо работает, раздел с выгрузкой данных всё ещё доступен [3] и обещают что он останется.

Текущая база - это 3.7ГБ файл JSON lines сжатый GZIP.

Для тех кто изучает подобные данные на практике будет очень полезно.

Ссылки:
[1] https://www.openownership.org/en/news/evolving-from-the-open-ownership-register-to-increase-our-impact/
[2] https://register.openownership.org
[3] https://register.openownership.org/download

#opendata #uk #transparency #datasets #data
В The Economist статья The British state is blind [1] о том что статслужба Великобритании неправильно считала миграцию в страну и сильно её занижала. По оценкам с 2019 года, как минимум, был недооценён въезд около 1 миллиона мигрантов.

Статья под пэйволом, но есть копии её текста [2].

Тут бы, конечно, сдержаться от саркастического смеха, но сложно.

Чем отличается британская статслужба от других? Только тем что попались и эту ошибку признают. Почему мы полагаем что другие официальные стат агентства работают лучше или что их данные достовернее? Официальная статистика во многих странах уже достаточно давно в кризисе. Во многих неразвитых и развивающихся странах всё ещё полно технических и методических вопросов хотя бы по основным статпоказателям, а во многих развитых странах альтернативные источники данных становятся приоритетнее,

А думаете статистика в вашей стране не врёт?

Ссылки:
[1] https://www.economist.com/britain/2024/12/04/the-british-state-is-blind
[2] https://us6.campaign-archive.com/?e=35defdcd70&u=1a990feb5c&id=c349203b07#mctoc4

#statistics #data #migration #uk
Свежий интересный доклад The UK government as a data provider for AI [1] о том используют ли LLM госсайты Великобритании и официальные государственные данные. Результаты таковы что контент с официальных сайтов активно используется, а датасеты из data.gov.uk практически нет. Результат совершенно неудивительный поскольку основные LLM тренировали на бесконечном количестве текстов собранных с помощью Common Crawl или своими ботам или из поискового индекса, как у Google и Microsoft. В общем-то не на данных, строго говоря. Причин этому много, я бы обозначил основной причиной что датасеты для ИИ в государстве никто не готовил и датасеты с большим числом текстов также.

Рекомендации в докладе вполне разумные и включают:
1. Публиковать данные более пригодными для ИИ (AI ready)
2. Сделать ревизию доступности контента для AI краулеров.
3. Создать национальную дата библиотеку для AI

Последний пункт это про создание специализированного каталога данных высокого качества. О таких проектах давно и много где говорят, вероятность появления его в Великобритании растёт, это не первый доклад где я о таком читаю.

Текст доклада опубликован Институтом открытых данных (Великобритания) и у них же в этом году выходило ещё одно исследование From co-generated data to generative AI [2] о том как устроено обучение ИИ на данных краудсорсинга и соцсетей. Ничего революционного, но чтение полезное.

Ссылки:
[1] https://theodi.cdn.ngo/media/documents/The_UK_government_as_a_data_provider_for_AI.pdf
[2] https://wp.oecd.ai/app/uploads/2024/12/From-co-generated-data-to-generative-AI-1.pdf

#opendata #datasets #ai #uk #readings