Ivan Begtin
7.99K subscribers
1.87K photos
3 videos
101 files
4.58K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В рубрике как это работает у них, данные о переписи населения в Великобритании в 2021 году․

В процессе переписи единицей географического измерения был переписной участок, или участок статистического наблюдения с весьма высокой степенью гранулярности, причём по каждому из них были выложены данные.

Например, таблица TS001 в данных переписи [1] содержит данные по числу жителей в привязке к такому кварталу. Это более 181 тысячи записи включающей код квартала, дату измерения и число резидентов. По объёму эти данные - это всего несколько мегабайт, по полезности же они весьма важны поскольку такие данные можно относить к ключевым, многие показатели на территориях рассчитываются в соотношении к числу жителей.

На основе этих данных можно довольно многое делать, и для бизнеса, и для государственных органов, например, инструмент определения численности населения по точке и радиусу [2] который скорее демонстрация возможностей, чем что-то востребованное, но на его примере можно увидеть что подумать о том востребованное можно создать։ инструменты планирования для ритейл компаний, системы измерения транспортной доступности на весьма гранулярном уровне и так далее.

Всё это происходит поскольку ONS (статистический орган Великобритании) раскрывает огромные объёмы данных и геоданных на портале геоданных [3] и на портале связанных данных [4] в интегрированном виде. А также через систему раскрытия данных о переписи Nomis [5].

Ссылки։
[1] https://www.nomisweb.co.uk/sources/census_2021_bulk
[2] https://www.datadaptive.com/pop/
[3] https://geoportal.statistics.gov.uk/
[4] https://statistics.data.gov.uk
[5] https://www.nomisweb.co.uk/

#opendata #datasets #uk #census
В рубрике интересного чтения про данные, технологии и не только։
- Reproducible Analytical Pipelines [1] методология построения воспроизводимых труб данных используемая командами правительства Великобритании. Например, с помощью такого подхода их статистическая служба сейчас создаёт так называемые быстрые индикаторы (fast indicators) в виде оперативных показателей реального времени с частотой обновления от 1 недели до 1 часа. [2]

- The Past, Present, and Future of Data Architecture [3] обзор современной архитектуры работы с данными, по сути краткое введение в Data Mesh. Мне многое нравится в этом подходе, data mesh дает акцент на хранении первичных данных и на систематизации/каталогизации данных, однако есть много усложняющих практических аспектов в том что все любят работать с данными и мало кто любит их документировать.

- How Ahrefs Saved US$400M in 3 Years by NOT Going to the Cloud [4] с одной стороны ничего нового, а с другой стороны очень конкретное напоминание что крупнейшие облачные сервисы - это очень удобно и очень дорого, если можно ими не пользоваться, то нужно ими не пользоваться.

Ссылки:
[1] https://analysisfunction.civilservice.gov.uk/support/reproducible-analytical-pipelines/
[2] https://dataingovernment.blog.gov.uk/2023/02/14/using-data-science-for-next-gen-statistics/
[3] https://medium.com/@diogo22santos/the-past-present-and-future-of-data-architecture-bd23dea0654b
[4] https://tech.ahrefs.com/how-ahrefs-saved-us-400m-in-3-years-by-not-going-to-the-cloud-8939dd930af8

#readings #data #dataengineering #uk #government
В Великобритании Центральный офис по цифре и данным анонсировал появление Data Maturity Assessment for Government (DMA) [1] руководство по оценке дата-зрелости органов власти и государственных организаций. Подробный документ с критериями уровней зрелости по 97 пунктам.

Там, конечно, есть и про открытые данные, но важнее не это а блок Topic 9: Setting your data direction в котором по умолчанию принимается что у организации есть стратегия работы с данными и далее лишь вопрос качества этой стратегии и коммуникации.

Что характерно в России ни на национальном уровне, ни на уровне отдельных органов и правительств субъектов федерации таких стратегий нет. Поэтому оценка по уровням зрелости будет невысокой.

А вот для многих постсоветских стран ещё раздумывающих над созданием офисов по цифре и данным стоит обратить внимание на этот документ, по сути он является руководством о том как системно организуется работа с данными в госсекторе.

Ссылки:
[1] https://cddo.blog.gov.uk/2023/03/27/strengthening-outcomes-for-the-public-through-better-data-maturity/
[2] https://www.gov.uk/government/publications/data-maturity-assessment-for-government-framework/data-maturity-assessment-for-government-framework-html

#opendata #data #government #regulation #policies #uk
Тем временем в Великобритании Правительство закрывает проект по цифровой закупке продуктов [1] в рамках Digital Marketplace. Многие из тех кто продавали таким образом госструктурам ПО и услуги считают что это большой шаг назад [2]. Мне вот не удалось найти объяснения этого шага, он выглядит довольно странно со стороны.

В лекциях чиновникам я регулярно рассказывал про эту инициативу как пример правильного подхода, жаль что на него теперь уже не сослаться.

Ссылки:
[1] https://www.digitalmarketplace.service.gov.uk/
[2] https://twitter.com/dominiccampbell/status/1649015861913477124?s=46&t=zIrjZL532Q-g_BoBMdJtaQ

#government #uk #procurement #digital
В рубрике интересных каталогов данных открытые каталоги данных на базе TriplyDb [1]. Это продукт с открытым кодом [2] и одноимённая компания для публикации связанных открытых данных. В принципе проникновение связанных данных (Linked Data) в порталы открытых данных оказалось довольно сложным занятием. До сих пор активное использование связанных данных есть только в интеграции научных данных и самый известный проект в этой области DBPedia, в порталах открытых данных до сих пор поддержка OWL/RDF чаще формальность чем реальность.

Тем не менее, Triply есть инсталляции 3-х каталогов:
- https://triplydb.com - каталог 1102 наборов данных
- https://druid.datalegend.net - система Druid в Университете Утрехта
- https://data.pldn.nl - платформа связанных данных Нидерландов

Другим интересным стартапом пытавшемся занять нишу порталов и сервисов данных с акцентом на связанных данных был Swirrl, но несколько лет назад их поглотила компания TPXimpact [3]
У них осталось немного инсталляций:
- https://opendatacommunities.org - официальная статистика Департамента по вопросам выравнивания, жилищного строительства и сообществ Великобритании
- https://statistics.gov.scot - Официальная статистика Шотландии
- https://beta.gss-data.org.uk - статистика по изменению климата по Великобритании

В целом это два наиболее известных мне примеров реального применения связанных данных и инфраструктуры на них за пределами академических задач и общественных проектов. Тем не менее за ними также интересно наблюдать и изучать практическое применение в будущем.

Ссылки:
[1] https://triply.cc
[2] https://github.com/TriplyDB
[3] https://pages.tpximpact.com/swirrl

#opendata #linkedata #opengov #uk #netherlands #datacatalogs #opensource
В рубрике как это устроено у них общественный портал открытых данных Шотландии Open Data Scotland [1] создан сообществом активистов в Шотландии в рамках проекта OD_BODS и включает описание 1887 наборов данных собранных из пары десятков источников данных. Особенность Шотландии в том что региональные власти до сих пор не создали портал открытых данных при том что их много на муниципальном уровне, у отдельных органов власти и у местных университетов. Активисты решили сделать такой портал самостоятельно и, что интересно, не поленились написать сборщики данных (харвестеры) для почти всех порталов данных и собирают данные автоматически.

Из интересного, на портале реализован довольно полезный раздел аналитики [2].

Весь проект с открытым кодом и открытыми метаданными [3], работает на статическом генераторе порталов данных JKAN.

Всё это о том что не надо ждать милости от природы когда власти вашей страны/региона/города решат создать портал открытых данных, его всегда можно создать самостоятельно. По крайней мере в тех странах где есть хоть какие-то данные.

Ссылки:
[1] https://opendata.scot
[2] https://opendata.scot/analytics/
[3] https://github.com/OpenDataScotland

#opendata #datasets #uk #scotland
В Великобритании готовят перезапуск Gov.uk и правительство (кабинет министров) прам-парам-пам, вы не поверите, но решили сделать мобильное приложение. Первым же пунктом у них звучит "Develop a GOV.UK app". И это особенно забавно звучит для тех кто помнит когда их цифровая служба чуть ли гордилась тем что не будет делать мобильные приложения.

Тем более что ещё с ноября 2012 года любая разработка мобильных приложений требовала явного одобрения кабинетом министров, так что мобильных приложений от госорганов в Великобритании было почти совсем ничего, очень мало.

Ждём вот уже скоро этого приложения. Можно сказать что уходит целая эпоха когда аргумент "давайте мы вместо приложения оптимизируем наш сайт под мобильные устройства" потерял уже самых стойких оппонентов.

UK когда-то были очень сильными лидерами в цифровизации государства а потом всё не то чтобы сдулось, но очень сильно потеряло у них внутренний темп развития. Смогут ли они перезапустить это всё в новой современной форме? Пока непонятно, но интересно

#government #uk #govservices
Тем временем в Великобритании вновь возвращаются принятию Online Safety Bill, проекта закона пережившего уже 3-х премьер министров и обязывающего платформы встраивать бэк-доры для служб Правительства UK для возможности поиска в мессенжерах на устройствах пользователей противоправного контента. Об этом многие специалисты в инфобезе бьют тревогу [1] и даже есть открытое письмо на эту тему [2]. Собственно представителей правозащитных организаций об этом и говорят что такое демонстративное пренебрежение правами людей со стороны либеральной демократии это очень плохой сигнал для всех стран [3].

Посмотрим чем закончится принятие это законопроекта. Я ставлю на то что если его примут, то компании предоставляющие услуги P2P коммуникаций скорее уйдут с рынка UK.

Ссылки:
[1] https://techcrunch.com/2023/07/05/uk-online-safety-bill-risks-e2ee/
[2] https://haddadi.github.io/UKOSBOpenletter.pdf
[3] https://twitter.com/OpenRightsGroup/status/1676860821857509376

#privacy #security #uk
Не все знают что в Шотландии до сих пор действует закон 1491 года об общественном имуществе The Common Good Act 1491 [1]. Язык его ещё не современный английский, читать его непросто несмотря на краткость, важно знать что он определяет то что местные советы в Шотландии ведут учёт общественного имущества, движимого и недвижимого, отдельно от учёта всего остального. К общественному имуществу относятся многие земли, здания и, например, картины.

Шотландские общественники сделали сайт Commongood.scot [2] с единым реестром такого имущества.

Сейчас там всего 2960 объектов, доступных на карте, в поиске и в виде открытых данных в формате CSV.

Ссылки:
[1] https://www.legislation.gov.uk/aosp/1491/19/contents
[2] https://commongood.scot/

#opendata #uk #scotland
В Великобритании правительственная цифровая служба анонсировала [1] сервис создания форм для госагенств GOV.UK Forms [2].

Идея проста, сделать универсальный генератор форм которые могли бы создавать специалисты без технических знаний. Аналог TypeForm, Google Forms и других коммерческих продуктов, но с учётом требований и особенностей госорганов.

Продукт чрезвычайно похож на Сингапурский государственный проект FormSG [3] который ещё и существует с открытым кодом и построенном на тех же принципах, конструктора форм, кроме всего прочего поддерживающего аутентификацию через государственных и частных провайдеров аутентификации в Сингапуре.

Что характерно, FormSG - это открытый код, можно скачать его себе и использовать даже не будучи государственным агентством.

Интересный вопрос в том почему только в Сингапуре и Великобритании есть такие проекты?

Ссылки:
[1] https://gds.blog.gov.uk/2023/10/03/how-were-opening-up-access-to-gov-uk-forms/
[2] https://www.forms.service.gov.uk
[3] https://form.gov.sg

#opensource #govtech #government #singapore #uk
В рубрике как это работает у них в Великобритании в Национальном архиве сохраняются копии всех сайтов ( и данных ) государственных органов страны и большая часть из них, когда меняют свои сайты, ссылаются на архивную копию в национальном архиве когда хотят сохранить доступ к материалам. Например, статистическая служба Великобритании несколько лет назад мводернизировала свой сайт и изменило базу хранения и предоставления статистических наборов данных. Данные все были сохранены, но к изменились ссылки и для тех кто хочет скачать архивные данные они предоставляют такую ссылку в разделе временных рядов [1].

В свою очередь копия сайта в национальном архиве [2] включает все документы которые были на оригинальном сайте.

А ещё точнее, множество копий за разные промежутки времени.


Ссылки:
[1] https://www.ons.gov.uk/timeseriestool
[2] https://webarchive.nationalarchives.gov.uk/ukgwa/20160105160709/https://www.ons.gov.uk/ons/index.html

#opendata #data #statistics #uk #webarchive #digitalpreservation #archives
В рубрике как это работает у них портал открытых данных Фолклендских островов [1] включает 560 наборов данных большая часть которых посвящена территории, океану, окружающей среде, животному миру островов и окружающей территории.

Общее население островов 3662 человека (по итогам 2021 года).

Бюджет островов также весьма невелик.

Если посравнивать с тем сколько данных публикуется в других странах, то это очень даже немало.

Ссылки:
[1]https://dataportal.saeri.org/

#opendata #data #uk #falklands #datacatalogs #datasets
В рубрике как это устроено у них открытые данные из OS Data Hub [1] портала открытых данных и API распространяемых британским Ordnance Survey. У них есть такой забавный термин как free open data, хотя формально open data всегда свободны по доступу. Термин этот имеет природу из того что рядом и на том же портале Ordnance Survey торгуют платными подписками на премиальное API и премиальные датасеты.

Поскольку они де-факто монополисты на геоданные в Великобритании то решения о том что базовые слои карт должны быть общедоступны принимались в 2018 году геопространственной комиссией Пр-ва.

Ссылки:
[1] https://osdatahub.os.uk

#opendata #datasets #uk #data #geodata
Удивительное дело насколько все не даёт покоя идея социального рейтинга/антирейтинга и в мире пытаются так или иначе сделать скоринговые системы массовыми. Например, во Франции тестируют рейтинг подозрительности в отношении безработных желающих получить пособия. В статье это называют одним из шагов к дегуманизации общества.

Другой пример с тем что выяснилось что алгоритм проверки заявок на выплату жилищных пособий в Великобритании оказался ошибочным и выдавал 2/3 ложных срабатываний. А это не просто много, это делало его работу, фактически, бесполезной. Сейчас журналисты задаются вопросом зачем же его применяли и то во сколько встало казне его ручная проверка.

До этого в Великобритании уже были сложности с применением алгоритмов по автоматической оценке кредитополучателей , опять же алгоритмом применяемом одним из правительственных департаментов. Тогда алгоритм проверки с помощью ИИ просто отключили.

#privacy #scoring #uk #france #ai
В рубрике как это устроено у них открытые данные в Великобритании. Самый очевидный опыт когда дело касается открытых данных. Один из эпицентров движухи про открытые данные в мире был именно в Великобритании и один из первых порталов государственных открытых данных data.gov.uk также появился именно там.

Сейчас там 67 тысяч наборов данных и сам портал выглядит если не запущенным, то точно не развивающимся уже несколько лет. Особенно если сравнить с общеевропейским порталом data.europe.eu или порталом открытых данных Франции data.gouv.fr.

Малоизвестная широкой публике особенность открытости данных в Великобритании - это огромное число академических порталов раскрытия данных. Фактически данные публикуются всеми исследовательскими центрами и университетами, либо в общих порталах открытого доступа и раскрытия research outputs, либо на специальных порталах с research data.

Параллельно с этим в Великобритании существует множество порталов открытых данных городов и отдельных графств, множество геопорталов и тд. В реестре Dateno сейчас 382 каталога данных страны и почти наверняка есть ещё неучтённые. Из каталогов которые можно выделить:

Открытые данные
- Resource Data https://www.resourcedata.org

Геоданные
- NERC Geonetwork https://csw-nerc1.ceda.ac.uk/geonetwork/
- CEDA Geonetwork https://csw.ceda.ac.uk/geonetwork

Научные данные
- British Antarctic Survey Data https://data.bas.ac.uk

#opendata #datasets #uk #datacatalogs
В рубрике как это устроено у них текст How to build a National Data Library [1] в блоге Open Data Institute о создании Национальной библиотеки данных в Великобритании.

Национальная библиотека данных - это инициатива по созданию и предоставлению особо ценных данных исследователям и стартапам и с акцентом на их применение в задачах создания и развития AI. Open Data Institute ещё месяц назад публиковали первоначальное видение этой инициативы [2].

Кроме того National Data Library упомянута в манифесте Лейбористов [3], нынешней правящей партии как часть их экономической программы.

Сама инициатива более напоминает современную реализацию исследовательского портала данных для ИИ, по модели аналогичного корейского проекта и похожих проектов в ряде других стран. А упоминание библиотеки это, на самом деле, отсылка к Британской библиотеке, так сказать "British Library for Data".

Проект всё ещё на стадии проектирования и есть разные варианты его реализации, но можно обратить внимание на приоритеты в его создании в виде научного и экономического эффекта. Иначе говоря такой проект может содержать немного открытых данных, но создаваться с прицелом на академическую аудиторию.

В Великобритании есть как минимум две похожие инициативы. Первая - это UK Biobank с данными по здравоохранению и вторая UK Data Archive с данными по экономике и социальным наукам.

Ссылки:
[1] https://theodi.org/news-and-events/blog/how-to-build-a-national-data-library/
[2] https://theodi.org/news-and-events/consultation-responses/the-odis-input-to-the-ai-action-plan-an-ai-ready-national-data-library/
[3] https://labour.org.uk/change/kickstart-economic-growth/

#opendata #data #uk #datapolicy #datastrategy
Свежий доклад The value of corporate transparency in tackling crime [1] от британского Department for Business and Trade (DBT) о ценности сведений о регистре компаний для рынка после реформы ведения реестра. Что интересно, в докладе упоминаются оценки рынка пользователей информации о прозрачности реестра компаний, сравнивается измерение ценности этих сведений до и после реформ.

А реформы, напомню были вызваны Economic Crime and Corporate Transparency Act 2023 [2], законом в соответствии с которым изменились требования к верификации сведений в реестре компаний в Великобритании, началась чистка реестра от недостоверных сведений и появились новые принципы раскрытия данных, в том числе в машиночитаемой форме.

Собственно этот отчёт - это продолжение внедрения этого закона и оценка экономического эффекта от доступности данных.

Текст полезный, в первую очередь, тем кто оценивает экономические эффекты от доступности данных.

Ссылки:
[1] https://www.gov.uk/government/publications/the-value-of-corporate-transparency-in-tackling-crime
[2] https://www.gov.uk/government/publications/economic-crime-and-corporate-transparency-act-outline-transition-plan-for-companies-house/economic-crime-and-corporate-transparency-act-outline-transition-plan-for-companies-house

#opendata #uk #reports #laws #aml