Ivan Begtin
7.99K subscribers
1.87K photos
3 videos
101 files
4.58K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
О том как устроена классификация данных, семантические типы, бизнес глоссарии у меня накопилось уже на большой лонгрид. Типизация данных сильно заточена под их понимание.

Пока вот такая картинка/схема того как будет устроен реестр идентификаторов/сементических типов Metacrafter registry [1].

Главная особенность описания данных в том что многие данные не могут идентифицироваться без ошибок, это принципиально невозможно в виду частой повторяемости одних и тех же форматов идентификаторов.

Частично это можно исправить задавая категории правил, зная язык (разговорный) текстов в данных и зная привязку к стране. Чтобы составить хорошие правила нужна хорошая модель идентификаторов/семантических типов с которыми они связаны, а таких моделей нет, только практики и несколько научных публикаций.

Ссылки:
[1] https://github.com/apicrafter/metacrafter-registry

#data #reading #dataunderstanding
В качестве примера утилиты metacrafter [1] по распознаванию типов данных две очень разные базы данных , в одной копия данных по сетевой инфраструктуры в РФ собранная из bgpview, а в другой база федеральных госконтрактов заключенных с 2007 по 2011 годы.

Обе базы содержат вложенные объекты и хранятся в MongoDB, поэтому анализ данных происходит ещё и вглубь объектов.

И распознаются уже более половины значащих полей с данными, распознаются с привязкой к зарегистрированным семантическим типам данных.

Но ещё есть многое что нужно дорабатывать и добавлять. Например, ещё не распознаются и не определяются коды ASN, в реестре типов уже есть, а в правила они ещё не добавлены. Или старые коды продукции в России - ОКП, тоже не определяются как и ряд редко используемых справочников.

Есть доля ложных срабатываний по кодам стран, которые определяются как language tag, потому что значения код ISO 3166 Alpha2 почти полностью входят в коды RFC 5646 и так далее. Но это всё решает усложнением правил.

Уже сейчас почти в каждой базе данных есть хотя бы несколько идентифицируемых семантических типов данных.

Куда более сложная задача, о которой я писал ранее, это выявление / понимание типов данных без предобучения, на основе повторяющихся шаблонов и связывание наборов данных, в том числе, через подобные типы данных

Ссылки:
[1] https://github.ccom/apicrafter/metacrafter

#opensource #dataunderstanding