Для тех кто интересуется моими регулярными постами про семантические типы данных, я выложил в открытый доступ расширенный набор правил metacrafter-rules [1] для утилиты metacrafter [2].
В расширенном наборе правил присутствуют:
- правила для идентификации интернет кодов, частых идентификаторов и дат
- множество правил для данных специфичных для России/русского языка по идентификации геолокаций, адресов, справочных кодов, разного рода госидентификаторов и так далее.
Всего правил, включая эти, расширенные, 245 из которых 143 идентифицируют по наименованию поля, а 105 по значениям в этом поле/колонке. Ещё 312 правил есть для идентификации дат во всех популярных видах и языках их написания.
Напомню что metacrafter из коробки поддерживает NoSQL и с его помощью можно идентифицировать семантические типы данных в MongoDB, а также файлах JSON, XML, JSONL, BSON. При этом табличные файлы и SQL базы данных также поддерживаются.
Ссылки:
[1] https://github.com/apicrafter/metacrafter-rules
[2] https://github.com/apicrafter/metacrafter
#opensource #datatools #data #semanticdatatypes #understandingdata
В расширенном наборе правил присутствуют:
- правила для идентификации интернет кодов, частых идентификаторов и дат
- множество правил для данных специфичных для России/русского языка по идентификации геолокаций, адресов, справочных кодов, разного рода госидентификаторов и так далее.
Всего правил, включая эти, расширенные, 245 из которых 143 идентифицируют по наименованию поля, а 105 по значениям в этом поле/колонке. Ещё 312 правил есть для идентификации дат во всех популярных видах и языках их написания.
Напомню что metacrafter из коробки поддерживает NoSQL и с его помощью можно идентифицировать семантические типы данных в MongoDB, а также файлах JSON, XML, JSONL, BSON. При этом табличные файлы и SQL базы данных также поддерживаются.
Ссылки:
[1] https://github.com/apicrafter/metacrafter-rules
[2] https://github.com/apicrafter/metacrafter
#opensource #datatools #data #semanticdatatypes #understandingdata
GitHub
GitHub - apicrafter/metacrafter-rules: Rules for metacrafter metadata identification and classfication tool
Rules for metacrafter metadata identification and classfication tool - GitHub - apicrafter/metacrafter-rules: Rules for metacrafter metadata identification and classfication tool
В рубрике интересных наборов данных WikiTables [1] набор данных из 1.6 миллионов таблиц извлечённых из английской Википедии и сопровождающий его набор состоящих из записей в этих таблицах слинкованными с объектами в DBPedia. Помимо того что это само по себе интересная и важная задача при создании связанного графа знаний, это ещё и огромная база для обучения разного рода алгоритмом.
Данные связаны со статьёй TabEL: Entity Linking in WebTables [2] ещё 2015 года и ещё много где использовались и используются они и по сей день.
Лично я эти данные использую для проверки и обучения утилиты metacrafter для идентификации семантических типов данных, но им не ограничиваясь.
Ссылки:
[1] https://websail-fe.cs.northwestern.edu/TabEL/index.html
[2] https://www.semanticscholar.org/paper/TabEL%3A-Entity-Linking-in-Web-Tables-Bhagavatula-Noraset/8ffcad9346c4978a211566fde6807d6fb4bfa5ed?p2df
#readings #data #datasets #research #understandingdata #datadiscovery
Данные связаны со статьёй TabEL: Entity Linking in WebTables [2] ещё 2015 года и ещё много где использовались и используются они и по сей день.
Лично я эти данные использую для проверки и обучения утилиты metacrafter для идентификации семантических типов данных, но им не ограничиваясь.
Ссылки:
[1] https://websail-fe.cs.northwestern.edu/TabEL/index.html
[2] https://www.semanticscholar.org/paper/TabEL%3A-Entity-Linking-in-Web-Tables-Bhagavatula-Noraset/8ffcad9346c4978a211566fde6807d6fb4bfa5ed?p2df
#readings #data #datasets #research #understandingdata #datadiscovery
www.semanticscholar.org
[PDF] TabEL: Entity Linking in Web Tables | Semantic Scholar
TabEL differs from previous work by weakening the assumption that the semantics of a table can be mapped to pre-defined types and relations found in the target KB, and enforces soft constraints in the form of a graphical model that assigns higher likelihood…