Написал краткий обзор новых возможностей [1] в Dateno, включая открытую статистику, расширенный поисковый индексы, фасеты и API.
Лонгриды буду и далее разворачивать на Substack на русском языке, а на английском языке на Medium [2]
Ссылки:
[1] https://open.substack.com/pub/begtin/p/dateno?r=7f8e7&utm_campaign=post&utm_medium=web&showWelcomeOnShare=true
[2] https://medium.com/@ibegtin/just-recently-we-updated-our-dateno-dataset-search-dateno-io-065276450829
#opendata #datasearch #dateno #datadiscovery
Лонгриды буду и далее разворачивать на Substack на русском языке, а на английском языке на Medium [2]
Ссылки:
[1] https://open.substack.com/pub/begtin/p/dateno?r=7f8e7&utm_campaign=post&utm_medium=web&showWelcomeOnShare=true
[2] https://medium.com/@ibegtin/just-recently-we-updated-our-dateno-dataset-search-dateno-io-065276450829
#opendata #datasearch #dateno #datadiscovery
Ivan’s Begtin Newsletter on digital, open and preserved government
Обновления в Dateno
Статистика, API, новые фасеты и ещё больше данных.
Знаете ли Вы что... DBPedia - это не только цельная база данных, но и большой каталог наборов данных созданных на её основе. Все они собраны на портале databus.dbpedia.org [1], например, в виде коллекции дата файлов извлеченных из последней итерации обработчика Википедии.
Хотя лично у меня до сих пор немало сомнений насколько концепции Semantic Web И Linked Data приживутся за пределами научного мира, но что точно способствует их популяризации так это доступность больших наборов данных. А в DBPedia Databus определённо данных много. Это немалый, хотя и малоизвестный каталог открытых данных.
Ссылки:
[1] https://databus.dbpedia.org
[2] https://databus.dbpedia.org/dbpedia/collections/latest-core
#opendata #datasets #datadiscovery
Хотя лично у меня до сих пор немало сомнений насколько концепции Semantic Web И Linked Data приживутся за пределами научного мира, но что точно способствует их популяризации так это доступность больших наборов данных. А в DBPedia Databus определённо данных много. Это немалый, хотя и малоизвестный каталог открытых данных.
Ссылки:
[1] https://databus.dbpedia.org
[2] https://databus.dbpedia.org/dbpedia/collections/latest-core
#opendata #datasets #datadiscovery
Есть задачи для которых LLM совсем не годятся, а есть те которые годятся очень даже. Например, есть довольно узкая, но очень частая задача автоматического документирования данных.
У меня есть набор запросов к LLM на которых я это тестирую автодокументирование наборов данных. На полях/колонках которые содержат слова позволяющие по смыслу понять что там LLM выдает очень вменяемые ответы.
Это сколько же инструментов надо теперь переделать чтобы повысить их эффективность😂
В рамках экспериментов с Dateno у меня где-то несколько сотен тысяч схем CSV файлов которые можно превратить во что-то что было бы чем-то большим чем просто схема. В документацию.
#opendata #thoughts #datadiscovery #dataengineering #dataquality #datadocumentation
У меня есть набор запросов к LLM на которых я это тестирую автодокументирование наборов данных. На полях/колонках которые содержат слова позволяющие по смыслу понять что там LLM выдает очень вменяемые ответы.
Это сколько же инструментов надо теперь переделать чтобы повысить их эффективность😂
В рамках экспериментов с Dateno у меня где-то несколько сотен тысяч схем CSV файлов которые можно превратить во что-то что было бы чем-то большим чем просто схема. В документацию.
#opendata #thoughts #datadiscovery #dataengineering #dataquality #datadocumentation