В рубрике как это устроено у них новый каталог открытых данных Словакии data.slovensko.sk заменил предыдущий портал data.gov.sk (более недоступен). Новый портал переписали на CSharp и его код доступен [1]. Из его особенностей - это ориентация на SPARQL, доступность возможности работы со SPARQL эндпоинтом, а также то что краулит из 12 каталогов открытых данных страны и подлерживает каталоги датасетов по стандартам DCAT-AP, SPARQL и CKAN API.
Выглядит любопытно, но эта картина была бы неполной если бы:
1. Разработчики не поломали бы все ссылки на data.gov.sk которые были в европейском data.europe.eu где новый портал даже не зарегистрирован, а старый уже недоступен и ссылки "протухли"
2. Нет общедоступной документации API нового каталога
3. Нет экспорта DCAT AP или CKAN API у нового каталога.
В целом очень неаккуратно. Про SPARQL я скажу так, у него и Semantic Web есть очень много сторонников в европейских проектахза госсчёт, но к современной дата инженерии он имеет смутное отношение. Вообще никакого, если честно. Экспорт данных в Parquet, удобное REST API и, может быть, даже GraphQL эндпоинт куда важнее.
Ссылки:
[1] https://github.com/slovak-egov/nkod-portal
#opendata #slovakia #eu #standards #data #datasets
Выглядит любопытно, но эта картина была бы неполной если бы:
1. Разработчики не поломали бы все ссылки на data.gov.sk которые были в европейском data.europe.eu где новый портал даже не зарегистрирован, а старый уже недоступен и ссылки "протухли"
2. Нет общедоступной документации API нового каталога
3. Нет экспорта DCAT AP или CKAN API у нового каталога.
В целом очень неаккуратно. Про SPARQL я скажу так, у него и Semantic Web есть очень много сторонников в европейских проектах
Ссылки:
[1] https://github.com/slovak-egov/nkod-portal
#opendata #slovakia #eu #standards #data #datasets
👍4
Вышла вторая версия стандарта Data Package [1] ранее он назывался Frictionless Data. Полезен он будет всем кто публикует табличные CSV файлы которые с его помощью очень хорошо описываются. Это большой плюс, особенно для тех кто не является дата инженерами или аналитиками, а рядовыми учёными, пользователям и тд.
Это же и минус. Лично я вспоминаю что мало какие интересные данные публиковал за последние годы именно в CSV. В основном же это были JSON lines файлы или parquet. А стандарт пока CSV ориентированный, что не отменяет его полезности если с CSV Вы работаете и активно. Или если пользователи готовят всё ещё данные в Excel, а надо бы что-то получше.
Так что ругаю я зря, а хвалю не зря. Стандарт надо использовать и развивать спектр поддерживающих его инструментов.
Ссылки:
[1] https://datapackage.org
#opensource #standards #opendata #data #okfn
Это же и минус. Лично я вспоминаю что мало какие интересные данные публиковал за последние годы именно в CSV. В основном же это были JSON lines файлы или parquet. А стандарт пока CSV ориентированный, что не отменяет его полезности если с CSV Вы работаете и активно. Или если пользователи готовят всё ещё данные в Excel, а надо бы что-то получше.
Так что ругаю я зря, а хвалю не зря. Стандарт надо использовать и развивать спектр поддерживающих его инструментов.
Ссылки:
[1] https://datapackage.org
#opensource #standards #opendata #data #okfn
👍4🔥3
В рубрике интересных открытых данных StanDat - International Standards Database [1] коллекция наборов данных и база данных по международным стандартам, представлено в разных разрезах, доступно для скачивания. Все данных из International Standardization Organization (ISO) представленные в виде таблиц, но без текстов самих стандартов, только метаданные и статистика. Полезно для тех кто отслеживает международную стандартизацию.
Лицензию и открытый код найти не удалось.
Ссылки:
[1] https://shiny.uio.no/standat/
#opendata #datasets #standards
Лицензию и открытый код найти не удалось.
Ссылки:
[1] https://shiny.uio.no/standat/
#opendata #datasets #standards
👍7🤗1
В рубрике как это устроено у них publiccode.yml [1] [2] стандарт публикации открытого кода созданного за счёт государственного или местных бюджетов (public software). Изначально разработан итальянскими госразработчиками, потом преобразованный в международный стандарт.
Пока не очень популярен на Github'е, поиск находит всего 24 репозитория path:**/publiccode.yml path:/, но вполне себе находится в Google за пределами Github'а inurl:publiccode.yml -site:github.com на сайтах gitlab.com, opencode.de, code.europe.eu и различных госинсталляций Gitlab'а
Структура метаданных чем-то похожа на стандарты описания датасетов и цифровых документов.
Хорошая идея, но пока не популярная, тем не менее постепенно развивающаяся как минимум в Италии и Германии.
Ссылки:
[1] https://yml.publiccode.tools/
[2] https://github.com/publiccodeyml/publiccode.yml
#opensource #government #standards
Пока не очень популярен на Github'е, поиск находит всего 24 репозитория path:**/publiccode.yml path:/, но вполне себе находится в Google за пределами Github'а inurl:publiccode.yml -site:github.com на сайтах gitlab.com, opencode.de, code.europe.eu и различных госинсталляций Gitlab'а
Структура метаданных чем-то похожа на стандарты описания датасетов и цифровых документов.
Хорошая идея, но пока не популярная, тем не менее постепенно развивающаяся как минимум в Италии и Германии.
Ссылки:
[1] https://yml.publiccode.tools/
[2] https://github.com/publiccodeyml/publiccode.yml
#opensource #government #standards
✍3❤2👍2💯1
A framework for Al-ready data [1] свежий доклад от Open Data Institute о том как публиковать наборы данных для машинного обучения. Характерно что ссылаются на стандарт Croissant и Hugging Face и не ссылаются на Frictionless Data.
Всё выглядит разумно с примерами из публикации открытых данных и открытой научной инфраструктуры.
Ссылки:
[1] https://theodi.org/insights/reports/a-framework-for-ai-ready-data/
#opendsata #readings #standards
Всё выглядит разумно с примерами из публикации открытых данных и открытой научной инфраструктуры.
Ссылки:
[1] https://theodi.org/insights/reports/a-framework-for-ai-ready-data/
#opendsata #readings #standards
👍4✍1
Вышла 3-я редакция стандарта формата для изображений PNG [1]. Почему это событие? Потому что предыдущая, вторая редакция [2], выходила в 2003 году (22 года назад!)
Что нового:
- признание анимированных PNG (APNG)
- правильная поддержка HDR
- официальная поддержка данных Exif
А также многое другое, но каких то особенных действий предпринимать не нужно поскольку большая часть популярных инструментов и так поддерживали эти расширения PNG и без принятого стандарта.
Ссылки:
[1] https://www.w3.org/TR/png-3/
[2] https://www.w3.org/TR/2003/REC-PNG-20031110/
#standards
Что нового:
- признание анимированных PNG (APNG)
- правильная поддержка HDR
- официальная поддержка данных Exif
А также многое другое, но каких то особенных действий предпринимать не нужно поскольку большая часть популярных инструментов и так поддерживали эти расширения PNG и без принятого стандарта.
Ссылки:
[1] https://www.w3.org/TR/png-3/
[2] https://www.w3.org/TR/2003/REC-PNG-20031110/
#standards
www.w3.org
Portable Network Graphics (PNG) Specification (Third Edition)
This document describes PNG (Portable Network Graphics), an extensible file format for the lossless, portable,
well-compressed storage of static and animated raster images. PNG provides a patent-free replacement for GIF and can also
replace many common…
well-compressed storage of static and animated raster images. PNG provides a patent-free replacement for GIF and can also
replace many common…
✍7🤩4👍2
Знаете ли Вы что... существует спецификация /llms.txt в виде сайта [1] с документацией. Спецификация - это что-то вроде карты сайта (sitemap) совмещенного с подробной документацией, но отформатированное в Markdown и приспособленное для упрощённого поглощения с помощью LLM.
Мне казалось что очень хотеть чтобы LLM съел твой контент - это странное желание, но для кого-то, видимо важное, и десятки сайтов спецификацию поддерживают [2], например, такой файл доступен у Sourcegraph [3] и у Bitcoin.com [4] и у LMStudio [5]
В большинстве случаев это документация к продуктам, иногда весьма и весьма детальная.
В отличие от MCP вокруг это спецификации хайп не наблюдается, но знать о ней стоит всем кто документацию к своим продуктам создаёт.
Ссылки:
[1] https://llmstxt.org/
[2] https://llmstxt.site/
[3] https://sourcegraph.com/docs/llms.txt
[4] https://www.bitcoin.com/llms.txt
[5] https://lmstudio.ai/llms.txt
#opensource #standards #ai
Мне казалось что очень хотеть чтобы LLM съел твой контент - это странное желание, но для кого-то, видимо важное, и десятки сайтов спецификацию поддерживают [2], например, такой файл доступен у Sourcegraph [3] и у Bitcoin.com [4] и у LMStudio [5]
В большинстве случаев это документация к продуктам, иногда весьма и весьма детальная.
В отличие от MCP вокруг это спецификации хайп не наблюдается, но знать о ней стоит всем кто документацию к своим продуктам создаёт.
Ссылки:
[1] https://llmstxt.org/
[2] https://llmstxt.site/
[3] https://sourcegraph.com/docs/llms.txt
[4] https://www.bitcoin.com/llms.txt
[5] https://lmstudio.ai/llms.txt
#opensource #standards #ai
👍7