Ivan Begtin
7.99K subscribers
1.88K photos
3 videos
101 files
4.58K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Свежее что почитать про данные

Measuring the value of data and data flows [1] любопытный документ от вышел от имени ОЭСР с подходами к оценке экономики данных, оценке значения данных и потоков данных. В основном основан он на экономике США, но упоминаются там и другие страны. Много цифр, графиков и оценок полезных для содержательных дискуссий.

European Research Data Landscape [2] результаты исследования в виде опроса учёных про инфраструктуру данных Евросоюза. Общая оценка что уровень использования и публикации данных довольно высокий и там же в исследовании есть рейтинг порталов научных данных по соответствию принципам FAIR. Этих порталов очень много! Основное что происходит - это ранее закрытые порталы открываются.

Semantic Media: Mapping Meaning on the Internet [3] свежая книга, платная, $18 про развитие semantic web и онтологий. Для тех кто не сталкивался, semantic web это довольно продвинутые, но сложные в изучении инструменты. Самая успешная практическая их адаптация - это Wikidata

Research in programming Wikidata [4] замечательная подборка курсов по тому как работать с Викидата, созданна командой Андрея Крижановского из Петрозаводского государственного университета. Есть и на русском языке [5]. Для тех кто хочет формировать интересные наборы данных там много практического SPARQL с примерами запросов.

Ссылки:
[1] https://www.oecd-ilibrary.org/science-and-technology/measuring-the-value-of-data-and-data-flows_923230a6-en
[2] https://op.europa.eu/en/publication-detail/-/publication/03b5562d-6a35-11ed-b14f-01aa75ed71a1/language-en
[3] https://www.wiley.com/en-us/Semantic+Media:+Mapping+Meaning+on+the+Internet-p-9781509542598
[4] https://en.wikiversity.org/wiki/Research_in_programming_Wikidata
[5] https://ru.wikiversity.org/wiki/%D0%9F%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%92%D0%B8%D0%BA%D0%B8%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85

#readings #data #opendata #wikidata #ontology #semanticweb
В рубрике интересных открытых проектов на открытых данных, французский проект Inventaire [1] для коллаборативного ведения списков собственных книг и возможности делиться информацией с друзьями, коллегами и тд., в том числе запоминая кому и когда какие книжки ты отдавал или у кого ты их брал.

Особенность проекта в том что книжки сопоставляются с записями в Wikidata, а также данные проекта доступны в виде дампов [2] и API [3]

У проекта открытый код [4], его автор давний контрибьютор в Wikidata, а этот проект развивает с 2015 года.

Как и у всех подобных проектов, главные вопрос в экономической модели. Его создатель изначально делал проект на чистом энтузиазме, с 2019 года создал НКО в форме некоммерческой ассоциации и получил небольшие гранты от нидерландского фонда NLNet.

Ссылки:
[1] https://inventaire.io
[2] https://data.inventaire.io/
[3] https://api.inventaire.io/#/Entities
[4] https://github.com/inventaire/inventaire
[5] https://wiki.inventaire.io/wiki/Economic_model

#opendata #data #wikidata
В рубрике интересных проектов с открытыми данными небольшой проект Govdirectory [1] по визуализации аккаунтов органов власти в соцсетях по странам. Внутри данные из Wikidata, импортируются на регулярной основе и автор отправляет желающих что-то поправить - править сразу в Wikidata. По некоторым странам вроде Норвегии [2] внесено много и подробно. По другим, вроде России [3] довольно мало, а по большинству стран просто ничего нет, поскольку в каталоге всего 28 стран. Впрочем это Википроект где каждый может добавить что-либо, включая страну, поскольку код открыт и контрибьюторы там активны [4].

Ссылки:
[1] https://www.govdirectory.org
[2] https://www.govdirectory.org/norway/
[3] https://www.govdirectory.org/russia/
[4] https://github.com/govdirectory

#opendata #datasets #wikipedia #wikidata
Любопытная статья [1] и связанные с ней наборы данных [2] про WikiWebQuestions, набор данных SPARQL аннотированных данных из Wikidata и о том что большие языковые модели вроде LLaMa меньше галлюцинируют и точность их ответов повышается. Всячески полезное чтение и возвращение к вопросу о том насколько и как структурированные и качественно аннотированные базы данных могут повлиять на качество ИИ-инструментов. До сих пор в основе больших языковых моделей были очень большие базы текстов, а тут базы фактов. При всей неидеальности и неполноте Wikidata баз таких объёмов и такой структуризации одновременно очень мало.

Ссылки:
[1] https://arxiv.org/abs/2305.14202
[2] https://github.com/stanford-oval/wikidata-emnlp23

#ai #opendata #wikidata #datasets #research #readings
Для тех кто любит моделировать данные и думать о том как они устроены, интересное мероприятие Data Modelling Days 2023 от команды Wikidata [1] это 3-х дневное мероприятие от фонда Wikimedia Deutschland о том как устроен проект Wikidata, как создаются в нём новые сущности и свойства и как вносятся объекты.

За пределами научного применения Wikidata - это самый заметный и самый практически применимый продукт основанный на связанных данных, семантической сети и со SPARQL интерфейсом. Это из тех проектов где люди как раз и занимаются о том как устроены данные. С приоритетом на GLAM (Galleries, Libraries, Archives, and Museums) и библиографию, но и по другим областям там очень много всего. Сравнивать его можно разве что с DBPedia (крупнейший проект по превращению Википедии в Linked Data) или с DataCommons (инициатива Google).

Если у меня получится найти время, я там точно хочу послушать о том как создатели Википедии думают о проектировании схем данных.

Ссылки:
[1] https://www.wikidata.org/wiki/Wikidata:Events/Data_Modelling_Days_2023

#opendata #databases #wikidata #wikimedia #events
Не все знают что в основе проекта Wikidata лежит расширение для MediaWiki под названием Wikibase [1]. Это продукт с открытым кодом созданный в Wikimedia Deutschland и используемый для баз объектов в стиле Mediawiki, со встроенным редактором свойств, схем, объектов, API и поддержкой связанных данных. У Wikibase существует множество инсталляций база которых собрана на Wikibase.world (тоже инсталляция Wikibase)).

Главное отличие Wikibase от того же Semantic MediaWiki, в том что в Semantic Mediawiki есть попытка приблизить текст к структуре, а в Wikibase это попытка приблизить данные к Wiki.

По природе своей проекты на Wikibase включая Wikidata гораздо ближе к сообществам библиотекарей, архивистов, историков и тд. Очень многие проекты на его основе сфокусированы на библиографии, языках и тд.

Но постепенно, та же Wikidata, наполняется референсными данными с которыми можно работать напрямую используя API и библиотеки вроде WikidataIntegrator [3].

Главные плюсы - системность решения, главные минусы - негибкость в отображении данных. Например, у меня в работе есть множество больших реестров которым нужны интерфейсы редактирования и визуализации, с обновлением схем и тд.

Я о некоторых писал, какие-то менее известны:
- реестр всех государственных доменных имён в РФ (от 10 до 200 тысяч)
- реестр семантических типов данных (до 5000)
- реестр порталов данных (от 10 до 20 тысяч)
- каталогов всех цифровых слепков сайлов из Ruarxive (от 10 тысяч)

Вести их в Wikibase было бы правильно, но жуть как неудобно если это не повседневный инструмент. Причём главным образом из-за отсутствия табличного, массового режима обновления данных. Хотя и интеграция с Wikidata актуальна во проектах.

Ссылки:
[1] https://www.mediawiki.org/wiki/Wikibase/Using_Wikibase
[2] https://wikibase.world/query/#PREFIX%20wdt%3A%20%3Chttps%3A%2F%2Fwikibase.world%2Fprop%2Fdirect%2F%3E%0APREFIX%20wd%3A%20%3Chttps%3A%2F%2Fwikibase.world%2Fentity%2F%3E%0A%0ASELECT%20%3FitemLabel%20%3Furl%20%3Fitem%20WHERE%20%7B%0A%20%20%20%20%3Fitem%20wdt%3AP3%20wd%3AQ10%20.%0A%20%20%20%20%3Fitem%20wdt%3AP1%20%3Furl%20.%0A%20%20%20%20%3Fitem%20wdt%3AP13%20wd%3AQ54%20.%0A%20%20%20%20SERVICE%20wikibase%3Alabel%20%7B%20bd%3AserviceParam%20wikibase%3Alanguage%20%22%5BAUTO_LANGUAGE%5D%2Cen%22.%20%7D%0A%7D
[3] https://github.com/SuLab/WikidataIntegrator

#opensource #wikidata #wiki