Мало кто знает что Тим Бернерс Ли, рыцарь британской империи, изобретатель World Wide Web и один из основателей Open Data Institute в Великобритании ещё и является активным разработчиком.
В его аккаунте на Github'е можно увидеть его активность [1]. С одной стороны это очень хорошо, он значительный контрибьютор и создатель кода по связанным данным, а сейчас и разработка идёт на проектом Solid, по декомпозиции веба таким образом чтобы пользователь сохранял контроль над своими данными, а с другой стороны проект хартии открытых данных выглядит заброшенным [2].
Ссылки:
[1] https://github.com/timbl/
[2] https://opendatacharter.net/
#linkeddata #opendata
В его аккаунте на Github'е можно увидеть его активность [1]. С одной стороны это очень хорошо, он значительный контрибьютор и создатель кода по связанным данным, а сейчас и разработка идёт на проектом Solid, по декомпозиции веба таким образом чтобы пользователь сохранял контроль над своими данными, а с другой стороны проект хартии открытых данных выглядит заброшенным [2].
Ссылки:
[1] https://github.com/timbl/
[2] https://opendatacharter.net/
#linkeddata #opendata
GitHub
timbl - Overview
timbl has 15 repositories available. Follow their code on GitHub.
Тем временем в мире открытых данных данных всегда была и есть тема которой много в научном мире за пределами России и мало у нас. Это тема связанных данных (Linked Data).
На LOD Cloud [1] собрана большая база всех наборов данных превращенных в связанные данные. Задача эта трудоёмкая, но успешно решаемая теми кто создает открытые данные как результат научной деятельности или как результат общественной ценности. На январь 2019 год в LOD Cloud 1,234 набора данных в центре которых находится DBPedia [2] и другие проекты фонда Wikimedia.
Несмотря на высокий порог входа на использование данных в связанной форме и несмотря на сложности с публикацией - число наборов данных растёт.
От себя добавлю что лично я много лет занимался этой темой и отошел от неё только по той причине что не вижу прямого (быстрого) применения связанных данных в бизнесе и общественных проектах. Но в науке они являются стандартом-де-факто во многих областях: биология, лингвистика и др.
Ссылки:
[1] https://lod-cloud.net
[2] https://dbpedia.org
#opendata #linkeddata
На LOD Cloud [1] собрана большая база всех наборов данных превращенных в связанные данные. Задача эта трудоёмкая, но успешно решаемая теми кто создает открытые данные как результат научной деятельности или как результат общественной ценности. На январь 2019 год в LOD Cloud 1,234 набора данных в центре которых находится DBPedia [2] и другие проекты фонда Wikimedia.
Несмотря на высокий порог входа на использование данных в связанной форме и несмотря на сложности с публикацией - число наборов данных растёт.
От себя добавлю что лично я много лет занимался этой темой и отошел от неё только по той причине что не вижу прямого (быстрого) применения связанных данных в бизнесе и общественных проектах. Но в науке они являются стандартом-де-факто во многих областях: биология, лингвистика и др.
Ссылки:
[1] https://lod-cloud.net
[2] https://dbpedia.org
#opendata #linkeddata
lod-cloud.net
The Linked Open Data Cloud
The Linked Open Data Cloud Diagram
Обновлённый сайт официальной статистики Шотландии [1] теперь полностью data-ориентированный.
Основной акцент сделан на доступности наборов данных, возможности выгрузить их в CSV и форматах связанных данных (N-Triples), а также на работе с данными через API. Много руководств и разъяснений о том как пользоваться API, выгружать наборы данных и многое другое.
Всё это на программном продукте Swirrl [2] в котором изначально заложен механизм работы со связанными данными.
Пример применения этого движка можно увидеть и на сайте муниципальной статистики Великобритании [3]
Я лично считаю что в основе любой статистической системы сейчас должен быть принцип data-first (вначале данные). Всё остальное: визуализация, интерпретация и анализ - должны быть основаны на опубликованной методологии, не более того.
Ссылки:
[1] https://statistics.gov.scot/home
[2] https://www.swirrl.com/
[3] https://opendatacommunities.org
#opendata #linkeddata
Основной акцент сделан на доступности наборов данных, возможности выгрузить их в CSV и форматах связанных данных (N-Triples), а также на работе с данными через API. Много руководств и разъяснений о том как пользоваться API, выгружать наборы данных и многое другое.
Всё это на программном продукте Swirrl [2] в котором изначально заложен механизм работы со связанными данными.
Пример применения этого движка можно увидеть и на сайте муниципальной статистики Великобритании [3]
Я лично считаю что в основе любой статистической системы сейчас должен быть принцип data-first (вначале данные). Всё остальное: визуализация, интерпретация и анализ - должны быть основаны на опубликованной методологии, не более того.
Ссылки:
[1] https://statistics.gov.scot/home
[2] https://www.swirrl.com/
[3] https://opendatacommunities.org
#opendata #linkeddata
Swirrl
PublishMyData
Transforming how government publishes data.
OpenCitation один из крупнейших инфраструктурных проектов по сбору данных о научном цитировании [1] на декабрь 2020 года включает:
- 60 778 357 библиографических ресурсов;
- 759 516 507 ссылок на цитаты.
Общим объёмом в 3 терабайта данных в форматах N-Triple, Scholix, CSV. [2]
Проект осуществляется при поддержке The Global Sustainability Coalition for Open Science Services (SCOSS) [3], одна из глобальных инициатив по поддержке открытости науки.
Для тех кому сложно развернуть собственную инфраструктуру, в проекте также предусморена доступность всех данных через REST API и SPARQL, а также как связанных данных [4].
В принципе можно обратить внимание что открытых наукометрических баз данных становится всё больше, а также растёт их финансирование и поддержка исследовательскими центрами. Становится интересно когда будет происходить качественных переход одного из таких проектов до уровня конкуренции с коммерческими наукометрическими системами.
Ссылки:
[1] https://opencitations.net
[2] https://opencitations.net/download
[3] https://scoss.org/
[4] https://opencitations.net/querying
#openaccess #opendata #linkeddata
- 60 778 357 библиографических ресурсов;
- 759 516 507 ссылок на цитаты.
Общим объёмом в 3 терабайта данных в форматах N-Triple, Scholix, CSV. [2]
Проект осуществляется при поддержке The Global Sustainability Coalition for Open Science Services (SCOSS) [3], одна из глобальных инициатив по поддержке открытости науки.
Для тех кому сложно развернуть собственную инфраструктуру, в проекте также предусморена доступность всех данных через REST API и SPARQL, а также как связанных данных [4].
В принципе можно обратить внимание что открытых наукометрических баз данных становится всё больше, а также растёт их финансирование и поддержка исследовательскими центрами. Становится интересно когда будет происходить качественных переход одного из таких проектов до уровня конкуренции с коммерческими наукометрическими системами.
Ссылки:
[1] https://opencitations.net
[2] https://opencitations.net/download
[3] https://scoss.org/
[4] https://opencitations.net/querying
#openaccess #opendata #linkeddata
В последнее время я вижу всё больше попыток создания языков запросов в противовес SQL, как альтернатива или как расширение языка. И тут я не могу не вспомнить что такая большая попытка предпринималась ещё давно - это SPARQL (the standard query language and protocol for Linked Open Data on the web or for RDF triplestores) [1].
Стандартизированный W3C ещё в 2008 году вместе с другими стандартами Semantic Web и LOD он выглядел как замена если не SQL, то как некий универсальный протокол для доступа к данным который можно было реализовать с помощью SQL или каким-угодно ещё образом на бекэнде.
Казалось бы ещё тогда - был стандарт, было несколько продуктов его поддерживающих, были даже институциональные попытки его внедрить и применять. Вспомнить тот же Virtuoso [2] продукт от OpenLink.
Но, не только с коммерческим, но и с практическим внедрением у SPARQL оказались большие проблемы. SPARQL и форматы для связанных данных получили развитие в научной среде, особенно в науках и исследовательских базах данных со строгой онтологической структурой. Эта технология хорошо стала частью Wikidata построенного на базе Semantic MediaWiki, но массовой адаптации и изучения новой технологии не произошло.
Я видел лишь несколько, относительно, успешных внедрений связанных данных, RDF и SPARQL в госпроектах и ни одного в современных, особенно высоконагруженных, коммерческих приложениях.
При том что, конечно, очень хочется чтобы мир был поструктурированнее, но практические задачи далеки от этих стандартов. А развитие открытых данных в сторону 5 звезд которые когда-то пропагандировал Тим Бернерс-Ли оказалось недостижимой и малореалистичной мечтой.
А что думаете вы, может ли SPARQL получить новую жизнь, переродиться или ждать нового стандарта/пул технологий для сложных данных?
Ссылки:
[1] https://www.w3.org/TR/rdf-sparql-query/
[2] https://virtuoso.openlinksw.com/
#opendata #sparql #linkeddata #semanticweb
Стандартизированный W3C ещё в 2008 году вместе с другими стандартами Semantic Web и LOD он выглядел как замена если не SQL, то как некий универсальный протокол для доступа к данным который можно было реализовать с помощью SQL или каким-угодно ещё образом на бекэнде.
Казалось бы ещё тогда - был стандарт, было несколько продуктов его поддерживающих, были даже институциональные попытки его внедрить и применять. Вспомнить тот же Virtuoso [2] продукт от OpenLink.
Но, не только с коммерческим, но и с практическим внедрением у SPARQL оказались большие проблемы. SPARQL и форматы для связанных данных получили развитие в научной среде, особенно в науках и исследовательских базах данных со строгой онтологической структурой. Эта технология хорошо стала частью Wikidata построенного на базе Semantic MediaWiki, но массовой адаптации и изучения новой технологии не произошло.
Я видел лишь несколько, относительно, успешных внедрений связанных данных, RDF и SPARQL в госпроектах и ни одного в современных, особенно высоконагруженных, коммерческих приложениях.
При том что, конечно, очень хочется чтобы мир был поструктурированнее, но практические задачи далеки от этих стандартов. А развитие открытых данных в сторону 5 звезд которые когда-то пропагандировал Тим Бернерс-Ли оказалось недостижимой и малореалистичной мечтой.
А что думаете вы, может ли SPARQL получить новую жизнь, переродиться или ждать нового стандарта/пул технологий для сложных данных?
Ссылки:
[1] https://www.w3.org/TR/rdf-sparql-query/
[2] https://virtuoso.openlinksw.com/
#opendata #sparql #linkeddata #semanticweb
В рубрике как это работает у них, государственный портал открытых данных Чехии data.gov.cz [1].
Содержит 142 тысяч наборов данных из которых 137 тысяч наборов данных - это данные кадастровой службы страны.
Обладает рядом весьма интересных особенностей, специфичных только для него.
1. Портал построен на базе связки генератора статических страниц Jekyll + Github. В результате у него феноменальная скорость открытия страниц, лучше чем у любого известного мне портала с данными.
2. Внутри движок который работает на связанных данных (Linked Data), API портала, также, доступно в виде SPARQL и интеграционный движок тоже на базе связанных данных
3. Есть целый каталог стандартов раскрытия написанных в W3C стиле [2]
4. Значительная часть наборов данных обновляется ежедневно
5. На портал ничего не загружается, все данные представлены прямыми ссылками на оригинальные госсайты
6. У многих наборов данных есть сведения о временном и географическом покрытии в привязке к справочникам.
В целом это один из лучших порталов открытых данных которые я видел, по логике, организации и подозреваю что и стоимости. Из недостатков - это отсутствие данных большого объёма для задач по data science и отсутствие среза научных данных открытого доступа, которых в Чехии тоже много
Ссылки:
[1] https://data.gov.cz
[2] https://data.gov.cz/ofn/
#opendata #czech #dataportals #linkeddata #datacatalogs #europe
Содержит 142 тысяч наборов данных из которых 137 тысяч наборов данных - это данные кадастровой службы страны.
Обладает рядом весьма интересных особенностей, специфичных только для него.
1. Портал построен на базе связки генератора статических страниц Jekyll + Github. В результате у него феноменальная скорость открытия страниц, лучше чем у любого известного мне портала с данными.
2. Внутри движок который работает на связанных данных (Linked Data), API портала, также, доступно в виде SPARQL и интеграционный движок тоже на базе связанных данных
3. Есть целый каталог стандартов раскрытия написанных в W3C стиле [2]
4. Значительная часть наборов данных обновляется ежедневно
5. На портал ничего не загружается, все данные представлены прямыми ссылками на оригинальные госсайты
6. У многих наборов данных есть сведения о временном и географическом покрытии в привязке к справочникам.
В целом это один из лучших порталов открытых данных которые я видел, по логике, организации и подозреваю что и стоимости. Из недостатков - это отсутствие данных большого объёма для задач по data science и отсутствие среза научных данных открытого доступа, которых в Чехии тоже много
Ссылки:
[1] https://data.gov.cz
[2] https://data.gov.cz/ofn/
#opendata #czech #dataportals #linkeddata #datacatalogs #europe
В рубрике как это устроено у них каталоги связанных данных в мире. Их немного, но они есть.
ASCDC LOD Datasets Platform [1
Платформа публикации связанных данных от тайваньской Academia Sinica Center for Digital Cultures
13 наборов данных и 633,847 записей
Universal Dependencies [2
Проект по аннотированию грамматики различных языков с наборами данных под эти языки. Более 250 наборов данных.
Ссылки:
[1] https://data.ascdc.tw
[2] https://universaldependencies.org
#opendata #linkeddata #datacatalogs
ASCDC LOD Datasets Platform [1
Платформа публикации связанных данных от тайваньской Academia Sinica Center for Digital Cultures
13 наборов данных и 633,847 записей
Universal Dependencies [2
Проект по аннотированию грамматики различных языков с наборами данных под эти языки. Более 250 наборов данных.
Ссылки:
[1] https://data.ascdc.tw
[2] https://universaldependencies.org
#opendata #linkeddata #datacatalogs