Ivan Begtin
7.99K subscribers
1.87K photos
3 videos
101 files
4.58K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
К вопросу о "терминологических спорах". Их тоже очень любят в академической среде и поэтому там регулярно разрабатываются тезаурусы. Тезаурус, практически всегда - это не что-то сделанное на бегу, а полноценный и большой проект.

Пример подобного тезауруса - это HASSET [1], британский справочник по гуманитарным и социальным наукам созданный в рамках UK Data Service. Справочник включает чуть более 11800 терминов отклассифицированных как:
- Preferred Terms (предпочитетельные)
- Use For (UFs) or Non-Preferred Terms (используемые для...)
- Broader Terms (BTs) (широкие)
- Narrower Terms (NTs) (узкие)
- Related Terms (RTs) (связанные)

Справочник представлен как связанные данные и связан со онтологией SKOS [2]

А также его можно получить целиком по ссылке [3].

Другой пример профессионально сделанного тезауруса про данные - это тезаурус данных Network of the National Library of Medicine в США [4] где по каждому термину приведены все первоисточники на основе которых он строился и даже при тезаурусе в 70 понятий у него указываются все авторы и составители персонально
---
The Data Thesaurus is the updated eScience Thesaurus which was created by Kevin Read in 2013 and previously resided on the eScience Portal for Librarians (Read et al., 2013). The Thesaurus was rebranded and updated in 2018 by Tess Grynoch for the NNLM RD3 site.
---
Таких примеров ещё много. И не только в области работы с данными, а во всех профессиональных областях. Один и тот же термин в области бухучёта может означать совсем не то же что в регулировании госуслуг, к примеру.

Списки и глоссарии терминов устроены так что ты или делаешь их "тяп-ляп", например делаешь сайт по какой-то теме и выводишь их списком, либо придумываешь свои термины или интерпретацию с прицелом на то что они стали общепринятыми, либо подходишь к этому профессионально и описываешь каждый термин в модели полноценной базы данных тезауруса.

Ссылки:
[1] https://hasset.ukdataservice.ac.uk
[2] https://lod.data-archive.ac.uk/v2-skoshasset/page/en-GB/
[3] https://hasset.ukdataservice.ac.uk/hasset-guide/obtaining-hasset.aspx
[4] https://nnlm.gov/data/thesaurus

#terms #data #glossary
В рубрике интересных проектов на данных, о данных, публикующих данные Open Terms Archive [1] архив условий использования в виде коллекций условий использования, API, наборов данных и метаданных.

Включает такие коллекции как:
- Generative AI
- Platform Governance Archive
- P2B Compliance
- France Élections
- Dating
- France
- Contrib

Все коллекции хранятся на Github'е с автоматическим отслеживанием изменений и хранением всех версий в Git.

Проект отмеченный на многих международных площадках и даже зарегистрированный как Digital Public Good

Ссылки:
[1] https://opentermsarchive.org
[2] https://github.com/OpenTermsArchive

#datasets #opendata #opensource #terms #privacy #bigtech
Для тех кто любит применять правильные термины, оказывается ещё в июле 2024 г. вышел словарь CODATA Research Data Management Terminology [1] с подборкой англоязычных терминов по управлению исследовательскими данными.

В принципе то термины там относительно универсальны, но определения даны через призму работу исследователей, поэтому корректно их воспринимать именно в контексте исследовательских данных, принципов FAIR и открытого доступа.

Например, определение открытых данных звучит как:

Data that are accessible, machine-readable, usable, intelligible, and freely shared. Open data can be freely used, re-used, built on, and redistributed by anyone – subject only, at most, to the requirement to attribute and sharealike.[2]

Этот словарь доступен через портал Research Vocabularies Australia [3] агрегатор и поисковик по всем словарям используемым в исследовательских целях в Австралии.

Ссылки:
[1] https://vocabs.ardc.edu.au/viewById/685
[2] https://vocabs.ardc.edu.au/repository/api/lda/codata/codata-research-data-management-terminology/v001/resource?uri=https%3A%2F%2Fterms.codata.org%2Frdmt%2Fopen-data
[3] https://vocabs.ardc.edu.au

#opendata #semanticweb #data #datacatalogs #terms