Ivan Begtin
8.1K subscribers
2K photos
3 videos
102 files
4.72K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Написал краткий обзор новых возможностей [1] в Dateno, включая открытую статистику, расширенный поисковый индексы, фасеты и API.

Лонгриды буду и далее разворачивать на Substack на русском языке, а на английском языке на Medium [2]

Ссылки:
[1] https://open.substack.com/pub/begtin/p/dateno?r=7f8e7&utm_campaign=post&utm_medium=web&showWelcomeOnShare=true
[2] https://medium.com/@ibegtin/just-recently-we-updated-our-dateno-dataset-search-dateno-io-065276450829

#opendata #datasearch #dateno #datadiscovery
Знаете ли Вы что... DBPedia - это не только цельная база данных, но и большой каталог наборов данных созданных на её основе. Все они собраны на портале databus.dbpedia.org [1], например, в виде коллекции дата файлов извлеченных из последней итерации обработчика Википедии.

Хотя лично у меня до сих пор немало сомнений насколько концепции Semantic Web И Linked Data приживутся за пределами научного мира, но что точно способствует их популяризации так это доступность больших наборов данных. А в DBPedia Databus определённо данных много. Это немалый, хотя и малоизвестный каталог открытых данных.

Ссылки:
[1] https://databus.dbpedia.org
[2] https://databus.dbpedia.org/dbpedia/collections/latest-core

#opendata #datasets #datadiscovery
Есть задачи для которых LLM совсем не годятся, а есть те которые годятся очень даже. Например, есть довольно узкая, но очень частая задача автоматического документирования данных.

У меня есть набор запросов к LLM на которых я это тестирую автодокументирование наборов данных. На полях/колонках которые содержат слова позволяющие по смыслу понять что там LLM выдает очень вменяемые ответы.

Это сколько же инструментов надо теперь переделать чтобы повысить их эффективность😂

В рамках экспериментов с Dateno у меня где-то несколько сотен тысяч схем CSV файлов которые можно превратить во что-то что было бы чем-то большим чем просто схема. В документацию.

#opendata #thoughts #datadiscovery #dataengineering #dataquality #datadocumentation