Ivan Begtin

Не все знают про то что существует не только много стандартов раскрытия информации в форматах открытых данных, но и стандартов организации процесса их сбора и взаимодействия. Самый известный в мире и неизвестный в России это стандарт IATI по раскрытию международной помощи, в основном развитыми странами в адрес развивающихся. А также есть стандарт раскрытия данных о лоббистах Lobbying Transparency. https://lobbyingtransparency.net/standards/ Почему его нет в России? Глобальный ответ в том что в России сжимается доля среднего класса который мог бы понять что это и зачем это нужно. Более точечный ответ в том что отсутствие закона о лоббизме помогает создаёт большой пласт "soft lobbyists" вокруг разного рода координационных структур при Правительстве и отдельных госорганов. И не только, конфликты интересов внутри государства в России учитываются и публикуются очень плохо. #opendata #opengov #transparency #standards

lobbyingtransparency.net

Standards

The International Standards for Lobbying Regulation are the result of two years of collaborative work with civil society led by Transparency International, Access Info Europe, Sunlight Foundation and Open Knowledge International. This initiative is unique…

248 views05:47

Ivan Begtin

Как я писал ранее, одно из направлений развития в инженерии данных и DataOps - это упаковка и доставка данных в виде контейнеров [1]. Наиболее активно развивающейся спецификацией для открытых данных является Frictionless Data [2], однако история про контейнеры с данными имеет куда более глубокие корни и направление "упаковки данных" давно существуют в научной среде.

ResearchObject [3] - это проект и набор спецификаций по описанию и упаковке данных в научной среде с ориентацией на воспроизведение результатов исследований. Наиболее актуальная спецификация RO-Crate [4] использует описание метаданных в формате связанных данных для описания как происхождения данных так и описания каждого включённого файла.

Одна из областей в которой давно уже активно идёт и используется стандартизация - это биоинформатика. Набор стандартов COMBINE (COmputational Modeling in BIology NEtwork) [5] включает как их моделирование, так и контейнеры для обмена данными и их преобразование, например, в контейнеры ResearchObject.

К другим спецификациям можно отнести Big data bag [6] объединяющие ResearchObject и спецификацию архивации данных BagIt [7].

У этой же инициативы есть ещё одно отражение, репозитории кода являются также результатами исследований и Mozilla Science Lab запустили инициативу Code as Research Object [8]

Другой заметный стандарт - это ReproZip [9], стандарт контейнер по упаковке данных и спецификации по воспроизведению исследований. Разрабатывается в инженерном подразделении New York University и основная его цель в том чтобы избежать замыкания в экосистеме одного вендора (да, в науке это повсеместно).

Применение подобных решений пока гораздо больше заточено под научные данные в биоинформатике, социологии, инженерных науках. Их внедрение требует, в первую очередь, готовность исследователей работать с техническими инструментами, наличия архивов и репозиториев поддерживающих подобные стандарты.

Ссылки:
[1] https://t.iss.one/begtin/1925
[2] https://frictionlessdata.io
[3] https://www.researchobject.org/
[4] https://researchobject.github.io/ro-crate/1.0/
[5] https://co.mbine.org/
[6] https://github.com/fair-research/bdbag
[7] https://datatracker.ietf.org/doc/rfc8493/
[8] https://mozillascience.github.io/code-research-object/
[9] https://www.reprozip.org/

#opendata #data #standards

1.5K viewsIvan Begtin, 01:23

Add a comment

Ivan Begtin

Government Digital Service в Великобритании опубликовали серию стандартов по работе с государственными данными и API [1] и отдельно открытые стандарты по описанию метаданных для наборов данных и табличных файлов и описания самих табличных файлов [2]. Большая часть рекомендаций касается использования стандарта Dublin Core для ведения метаданных, стандарта OpenAPI для проектирования и документирования API.

Все они связаны с появлением Open Standards Board [3] состоящем из знаковых лиц с большим опытом работы с данными,в том числе за пределами Великобритании [4], можно сказать что это реформа в области стандартизации работы с данными в госсекторе. Кроме того есть ряд рассматриваемых сейчас стандартов обмена информацией [5]. Можно обратить внимание что при написании стандартов прямо указывается что аудитория их использования - это data scientist'ы и те кто публикуют госданные [6]. А также много интересных идей и обсуждений непосредственно в Github репозитории открытых стандартов [7] включая стандартизацию печати документов, наличия у каждого госдокумента уникального идентификатора и так далее.

Лично я не могу не отметить лаконичность описания каждого стандарта, формата, рекомендации. Это совершенно несопоставимо с чтением всего что касается стандартизации на международном уровне или у нас в стране (да и ещё много где).

Ссылки:
[1] https://www.gov.uk/guidance/gds-api-technical-and-data-standards
[2] https://www.gov.uk/government/publications/recommended-open-standards-for-government
[3] https://www.gov.uk/guidance/choosing-open-standards-for-government
[4] https://www.gov.uk/government/groups/open-standards-board
[5] https://www.gov.uk/government/publications/open-standards-for-government
[6] https://www.gov.uk/government/publications/open-standards-for-government/country-codes
[7] https://github.com/alphagov/open-standards/issues

#data #standards

GOV.UK

API technical and data standards

Design, build and operate APIs in a consistent way

1.4K viewsIvan Begtin, 06:32

Add a comment

Ivan Begtin

Я давно планировал написать про проблемы стандартизации работы с данными, она не так заметна в узкосфокусированных областях, но становится более чем актуальной когда много разных, часто малоуправляемых, источников данных публикующих данные о схожих объектах в разных форматах.

Прежде чем продолжить надо дать два определения:

стандарты метаданных - это способы описания хранимых наборов данных и иных цифровых объектов (digital assets). Они используются для того чтобы максимально полно хранить сведения о происхождении данных, первоисточнике, частоте обновления, форматах и иной сопутствующей информации которая необходима при обработке этих данных. Эти стандарты используются при каталогизации данных.

стандарты данных - это описание структур данных внутри набора данных. Они используются для того чтобы максимально удобно описать то что содержится в данном наборе данных. Стандарты данных используются при подготовке данных и их распространении.

И тех и других существует великое множество, я приведу кратко основные и далее уже по проблемам с ними связанными.

Подробнее в посте на Substack https://begtin.substack.com/p/11

#data #standards #regulation

Ivan’s Begtin Newsletter on digital, open and preserved government

#11. Стандарты работы с данными

Хрун-Варвар согласно стандартам Пупземелья считался чуть ли не академиком, поскольку умел думать, не шевеля при этом губами. (с) Цвет волшебства

2.2K viewsIvan Begtin, 18:24

Ivan Begtin

Обновилась документация, появился новый портал с документацией [1], по проекту Frictionless Data. Теперь там довольно удобно собраны примеры, описания и руководства по работе с этим фреймворком. Лично я уделяю ему столько внимания потому что на сегодняшний день - это одна из наиболее продуманных инициатив с открытым кодом по стандартизации наборов данных.

Альтернативы ему, или коммерческие, с централизованными реестрами/репозиториями такими как QRI, или узкоспециализированные под академическую работу - RO-CRATE или под архивацию цифровых объектов такие как BagIt.

Но, конечно, есть и множество альтернатив: DataCrate [2], BioCompute [3], стандарты RDA [4], стандарты Force11 [5], CodeMeta [6] и многочисленные стандарты публикации данных и метаданных используемые на национальном уровне и в рамках отдельных отраслей (биоинформатика, лингвистика и тд).

Впрочем большая часть стандартов, всё же, про научную сферу, а Frictionless Data про общепринятую. Ещё год-два и публиковать данные в виде "голого" CSV или XML файла будет неприличным. Упакованные данные куда ценнее и пригоднее к работе.

Ссылки:
[1] https://framework.frictionlessdata.io
[2] https://github.com/UTS-eResearch/datacrate
[3] https://github.com/biocompute-objects/BCO_Specification
[4] https://rd-alliance.org/
[5] https://www.force11.org/
[6] https://codemeta.github.io/

#opendata #data #standards

framework.frictionlessdata.io

frictionless-py | Frictionless Framework

Data management framework for Python that provides functionality to describe, extract, validate, and transform tabular data (DEVT Framework). It supports a great deal of data sources and formats, as well as provides popular platforms integrations. The framework…

1.7K viewsIvan Begtin, 09:10

Ivan Begtin

Первый в мире стандарт по алгоритмической прозрачности принят правительством Великобритании [1]. В описании Algorithmic Transparency Standard [2] присутствует технический стандарт заполнения сведений об алгоритмических системах [3], а также шаблон и руководство по заполнению [4]

Стандарт был разработан в CDDO, The Cabinet Office’s Central Digital and Data Office, службе созданной в апреле 2021 года с фокусом на цифровые продукты и данные.

Здесь важно напомнить что в Великобритании уже существуют Национальная стратегия данных [5] и Национальная стратегия ИИ [6], а работа по созданию этого стандарта предварялась несколькими исследованиями и анализом применения ИИ и регулирования ИИ в других странах.

Ссылки:
[1] https://www.gov.uk/government/news/uk-government-publishes-pioneering-standard-for-algorithmic-transparency
[2] https://www.gov.uk/government/collections/algorithmic-transparency-standard
[3] https://www.gov.uk/government/publications/algorithmic-transparency-data-standard
[4] https://www.gov.uk/guidance/provide-information-on-how-you-use-algorithmic-tools-to-support-decisions-pilot-version
[5] https://www.gov.uk/government/publications/uk-national-data-strategy/national-data-strategy
[6] https://www.gov.uk/government/publications/national-ai-strategy/national-ai-strategy-html-version

#ai #policy #standards #uk

GOV.UK

UK government publishes pioneering standard for algorithmic transparency

The CDDO has launched an algorithmic transparency standard for government departments and public sector bodies, delivering on commitments made in the National Data Strategy and National AI Strategy.

1.5K viewsIvan Begtin, 06:49

Ivan Begtin

Для тех кто изучает практики обмена данными я напомню про такой инструмент/экосистему как Frictionless Data [1]. Это проект Open Knowledge Foundation по стандартизации обмена данными, в первую очередь табличными.

Проект большой и, что самое главное, начавшийся со стандартов [2] и постепенно, неспешно, охватывающий разные области применения. Особенно в научной-академической среде [3] где сейчас его внедряют в исследовательских репозиториях.

Ссылки:
[1] https://frictionlessdata.io
[2] https://frictionlessdata.io/standards/

#opendata #data #standards

Frictionless Data

Data software and standards

1.4K viewsIvan Begtin, 14:09

Ivan Begtin

Весьма интересный Block Protocol [1] стандарт/протокол про интеграцию между данными и интерактивными элементами. Позволяют через данные и схемы стыковать таблицы, загрузки файлов, отображение карточек персон и так далее по заранее готовым шаблонам. Большая работа и интересная идея, стоит отслеживать его развитие. За стандартом находится команда Hash.ai [2] стартапа по созданию "Github'а для симуляций", также любопытный продукт. Немного за пределами моих интересов, но их подход к учёту и систематизации данных очень любопытен.

Ссылки:
[1] https://blockprotocol.org
[2] https://hash.ai

#protocols #standards #data

Block Protocol

An open standard for data-driven blocks

1.3K viewsIvan Begtin, 20:21

Ivan Begtin

Возвращаясь к теме обнаружения данных (data discovery) то более всего она актуальна когда у компании/организации очень много разных систем и данных и есть потребность ответить себе на вопрос как узнать что и где хранится. Я ещё в допандемийное время много читал лекций про карты данных систематизацию источников данных, в первую очередь, в органах власти и госучреждениях. Но в основном я рассказывал про нетехнические методы, а есть и вполне технические, и разного рода ПО и сервисы каталогизации данных - это именно про такое.

Про примеры в виде проектов с открытым кодом Amundsen, Datahub, OpenMetadata я уже писал, как и про коммерческие каталоги. Важно помнить что все они созданы по модели стартапов, от самого минимума до постепенного расширения в тех направлениях где есть востребованность.

А есть и гораздо более системные масштабные проекты и это Egeria [1], продукт с открытым кодом от The Linux Foundation, в котором сложно найти удобный UI, зато есть дотошнейшее описание более 800 понятий который относятся. Например, то о чём я ранее рассказывал как "semantic types" (cемантические типы данных), там определено как Glossary Terms [2] и приведена их структура, значительно сложнее чем в большинстве коммерчески доступных сервисах.

В целом Egeria - это такой сверх-систематизированный заход на понимание природы корпоративных данных, процессов, людей, групп, подразделений, правил и инструментов и ещё всего остального связанного с данными в корпоративной среде.

По моим ощущениям всё скорее движется к систематизации стандартов OpenMetadata [3] и OpenLineage [4] или появлением нового стандарта, потому что OpenMetadata слишком ассоциировано с одноименным продуктом, а OpenLineage даёт чрезмерную вариативность, очень упрощён.

Ссылки:
[1] https://egeria-project.org/
[2] https://egeria-project.org/types/3/0330-Terms/
[3] https://docs.open-metadata.org/openmetadata/schemas/entities
[4] https://openlineage.io/

#datadiscovery #opendata #data #datatools #standards

egeria-project.org

Egeria Project - Open metadata and governance for enterprises

Open metadata and governance for enterprises - automatically capturing, managing and exchanging metadata between tools and platforms

1.3K viewsIvan Begtin, edited 05:58

Ivan Begtin

Новости стандартизации, в W3C официально принят и опубликован стандарт Decentralized Identifiers (DIDs) v1.0 [1] в котором описана структура и логика присвоения постоянных идентификаторов объектов находящихся в децентрализованных реестрах.

Фактически - это стандарт для создания аналогов DOI, Handle и других подобных идентификаторов, но на основе Blockchain'а. Идея и область применения весьма интересные, одна из областей где децентрализованные технологии оправданы. Этот стандарт долгое время был черновиком и за этой время появилось более 100 идентификаторов/протоколов/спецификаций на его основе [2]․ Многие, но не все, из них относятся явно к крипте.

Из важных и интересных вопросов в том как будут эволюционировать существующие институции выдачи постоянных идентификаторов.

Ссылки:
[1] https://www.w3.org/TR/2022/REC-did-core-20220719/
[2] https://www.w3.org/TR/did-spec-registries/

#standards #blockchain #w3c #identifiers

www.w3.org

Decentralized Identifiers (DIDs) v1.0

Decentralized identifiers (DIDs) are a new type of identifier that
enables verifiable, decentralized digital identity. A DID refers to any
subject (e.g., a person, organization, thing, data model, abstract entity, etc.)
as determined by the controller of…

2.0K viewsIvan Begtin, 10:53

Ivan Begtin

В рубрике как это работает у них, небольшой обзор проектов по работе с данными в биоинформатике. Небольшой потому что сама эта тема огромна, а публикуемые данные значительно превосходят любой портал открытых государственных данных.

Я сделаю акцент не на обработки больших наборов данных, а на проектах по повышению понимания данных и их систематизации.

Bioschemas

Многие знают про существование Schema.org как совместной инициативы поисковиков Google, Microsoft, Yahoo и Yandex для создания реестра для разметки именованных объектов. Bioschemas [1] - это расширение Schema.org объектами относящимся к химическим веществам, генам, таксонам, молекулам и другим данным важным для исследователей. Создание проекта финансируется Евросоюзом в рамках программы ELIXIR [2]. Проект идет уже более 5 лет [3] и его основная цель в том чтобы метаданные в каталогах и репозиториях данных связанных с науками о жизни были бы стандартизированы и удобны для работы.

Data Discovery Engine

Помимо структурированного описания объектов и понятий в каталогах данных важна ещё и возможность поиска по этому структурированному описанию. Data Discovery Engine [4] - это проект с руководствами по описанию метаданных и по их сбору из существующих каталогов данных таких как CD2H, N3C, Outbreak.info и NIAID Data Portal. Сейчас там агрегируются наборы данных (Datasets) и программные инструменты (Computational Tools), а в основе профили объектов определённые в Schema.org

FAIRSharing

Помимо Bioschemas в мире существуют сотни других стандартов публикации метаданных, как в науках о жизни, так и в других науках. FAIRSharing [5] - это один из крупнейших в мире каталогов таких стандартов в реестре которого собраны руководства, схемы, описания идентификаторов, рекомендации и тд. для данных публикуемых исследователями.
—

Ссылки:
[1] https://bioschemas.org
[2] https://www.elixir-europe.org/about-us/how-funded/eu-projects/excelerate
[3] https://docs.google.com/document/d/1vfRIT7Jk-RixpA7-_8vWLpXgFuYi2rjecx2wn04E2x0/edit#heading=h.7p6phpp9ttsf
[4] https://discovery.biothings.io/
[5] https://fairsharing.org

#opendata #openscience #openaccess #standards #data

bioschemas.org

Bioschemas - Bioschemas

Bioschemas relies and extends from schema.org and aims to reuse existing standards and reach consensus among a wide number of life sciences organizations and communities.

1.8K viewsIvan Begtin, 18:55

Ivan Begtin

Google решили пристыдить Apple создав специальный сайт Get the message [1] для кампании по внедрению протокола/стандарта RCS [2] для передачи текстовых сообщений.

RCS - это, действительно, стандарт и, действительно, Apple его не поддерживает, только тут важно помнить что RCS в отличие от iMessage не поддерживает опции end-to-end шифрования (шифрования точка-точка) [3] и подвержено "законному перехвату". В Google, активно промоутирующих RCS, не могут этого не знать. Поэтому открытые стандарты - это хорошо, но открытые небезопасные стандарты по умолчанию - это ничего хорошего.

Впрочем и закрытость экосистемы Apple - это тоже ничего хорошего ни для кого кроме самой компании, но как-то не хочется выбирать между проприетарной безопасностью и непропроприетарной госслежкой.

Ссылки:
[1] https://www.android.com/get-the-message/
[2] https://www.gsma.com/futurenetworks/rcs/
[3] https://indianexpress.com/article/technology/social/google-new-chat-service-wont-be-secure-like-imessage-and-whatsapp-amnesty-international-5147050/

#standards #google #apple #messaging #rcs #privacy

Android

Enable RCS Chats on Android & iPhone: Get The Message

Enjoy clearer pictures, better group chats, and seamless communication between Android & iPhone with RCS. Learn to enable RCS messaging on your device.

1.8K viewsIvan Begtin, 11:38

Ivan Begtin

Тем временем, буквально недавно, в июле, появилось предложение по изменению в стандарт HTTP добавлением типа запроса QUERY для запросов в базы данных [1] [2] нечто что имеет самое непосредственное отношение к современным базам данных, индексированию веб сайтов и работе большого числа веб ресурсов.

По сути идея в том чтобы иметь тип запросов который, с одной стороны, должен нести нагрузку при передаче от клиента, а с другой поддерживать кеширование, то что сейчас не обеспечивается для POST запросов ну или вернее обеспечивается путем настройки кеширующих веб-серверов, на уровне кеш серверов ключ-значение и так далее.

У меня лично нет уверенности в строгой необходимости такого изменения. Запросы в HTTP ещё давно проектировались по модели CRUD (GET, POST, DELETE, PUT и PATCH), а аналога SELECT никогда небыло. Большая часть REST API и запросов Ajax работают на базе GET или POST запросов.

Будет ли эффективен запрос QUERY? Хочется увидеть референсную реализацию и тестирование производительности.

Ссылки:
[1] https://datatracker.ietf.org/doc/draft-ietf-httpbis-safe-method-w-body/
[2] https://horovits.medium.com/http-s-new-method-for-data-apis-http-query-1ff71e6f73f3

#data #standards

1.9K viewsIvan Begtin, edited 14:39

Ivan Begtin

К вопросу о проектах по замене SQL на другие языки запросов, а есть и другой путь, создания спецификации описывающей все известные операции по работе с данными и работе SQL поверх неё и использования конверсии из её описания в SQL запросы.

Такой проект есть, он называется Substrait [1]. Его автор сооснователь проектов Apache Calcite, Apache Arrow, Apache Drill и ряда стартапов таких как Sundesk и Dreamio.

Основная идея в том чтобы стандарт для дата-операций был универсальным и через него можно было бы выполнять запросы к хранилищам данных.

Уже есть много референсных реализаций спецификации для Ibis, Dpyr, Apache Calcite, Trino и Spark.

Для тех кто не сталкивался с этими продуктами - все они представляют уровни абстракции для работы с данными. Например, Ibis в Python [3] даёт возможность делать SQL запросы без SQL. Удобно для тех кто любит Python way для работы с данными.

Substrait выглядит весьма перспективно, если вендоры в этом направлении потянутся, то может стать глобальной спецификацией и даже стандартом.

Ссылки:
[1] https://substrait.io/
[2] https://docs.google.com/presentation/d/1HQReIM6uB1Dli_yXfELOJWAE6KsvXAoUmHLlTYZ8laA/edit#slide=id.g1476627d6f9_0_213
[3] https://ibis-project.org

#standards #data #bigdata #dataengineering

3.0K viewsIvan Begtin, 08:50

Ivan Begtin

Свежий стандарт по публикации результатов научной деятельности в открытом доступе Cross Domain Interoperability Framework (CDIF): Discovery Module [1] создан в рамках проекта WorldFAIR [2] и охватывает самые разнообразные объекты, но, что важнее, он описывает их публикацию используя schema.org что существенно повышает их находимость для поисковиков, в первую очередь, Google, но не только. Существенная часть стандарта про публикацию наборов данных, с отсылками в другим стандартам, включая DCAT, DataCite, ISO19115, EML, FGDC CSDGM, CERIF и DDI. Странно разве что отсутствие упоминания OAI-PHM. Как бы то ни было, потенциально это новый стандарт, который может быть вскоре одобрен в ЕС.

Ссылки:
[1] https://zenodo.org/records/10252564
[2] https://worldfair-project.eu/2023/12/05/cross-domain-interoperability-framework-cdif-discovery-module-v01-draft-for-public-consultation/

#opendata #datastandards #eu #standards #data #openaccess

Zenodo

Cross Domain Interoperability Framework (CDIF): Discovery Module (v01 draft for public consultation)

In support of the WorldFAIR project and other activities to improve the implementation of the FAIR principles, the Cross-Domain Interoperability Framework (CDIF) Working Group is producing a suite of recommendations and guidelines. The CDIF will include…

1.8K viewsIvan Begtin, 11:47

About

Blog

Apps

Platform