Я периодически рассказываю о внутренностях не только Dateno, но и реестра каталогов данных на которых он основан. Я начинал его делать ещё в до самого поисковика и изначально он был разделен на две части.
1-я - это чистовые дата каталоги, по которым метаданные, в основном, собранные вручную. Они были в репозитории в каталоге entries и каждая запись выглядела как YAML файл по определённой структуре. У них был префикс 'cdi' для идентификаторов.
2-я - это временные записи, которые не проходили ручную верификацию и которых было около половины всех каталогов. По ним не были заполнены большая часть сведений которые часто из реестра удалялись. Эти записи были родом из системы поиска каталогов данных которая иногда находила те из них которые уже давно удалены. Они существовали с префиксом "temp" и были в каталоге scheduled.
В итоге оказалось что при обновлении метаданных каждый раз была необходимость удалять старый префикс и назначать новый, а также в том что разделение неэффективно. Приходилось дублировать все операции по обогащению данных на два каталога.
Поэтому одно из важных актуальных изменений реестра в том чтобы свести их в единую модель. И сейчас в последней версии реестра на Github'е [1] лежит датасет с переназначенными идентификаторами и теперь можно приступать к повышению качества каталога автоматизировав присвоение тегов, тем и описаний каждому из них. Это, кстати, то для чего можно применить LLM почти наверняка.
Но это то что является disruptive change поскольку даже временные каталоги данных индексировались в Dateno и их переиндексирование и обновление поиска поменяет некоторые ссылки и в реестре [2] и для датасетов в будущем. Поэтому на самом поиске это отразится не раньше чем через какое-то время, не в ближайшем обновлении.
Реестр - это важная часть качества поиска Dateno поскольку характеристики каталога данных транслируются на датасеты. Если, к примеру, источник данных посвящён здравоохранению то и его параметры переносятся на наборы данных в нём проиндексированные. Это позволяет искать даже те датасеты которые которые своих метаданных имеют мало или почти не содержат. К примеру, почти все датасеты на серверах ArcGIS и Geoserver, но вот их обогащение почти невозможно проводить автоматически, потому на них нет описания содержания этих данных. Геокаталоги, не все, но многие, автоматически документируются довольно плохо. Их наличие делает Dateno одним из наиболее полных поисковиков по геоданным, но искать их сложно если только эти данные не описаны где-то ещё, например, в каталогах Geonetwork со ссылками на георесурсы.
Ссылки:
[1] https://github.com/commondataio/dataportals-registry/
[2] https://dateno.io/registry
#dateno #opendata #datasets
1-я - это чистовые дата каталоги, по которым метаданные, в основном, собранные вручную. Они были в репозитории в каталоге entries и каждая запись выглядела как YAML файл по определённой структуре. У них был префикс 'cdi' для идентификаторов.
2-я - это временные записи, которые не проходили ручную верификацию и которых было около половины всех каталогов. По ним не были заполнены большая часть сведений которые часто из реестра удалялись. Эти записи были родом из системы поиска каталогов данных которая иногда находила те из них которые уже давно удалены. Они существовали с префиксом "temp" и были в каталоге scheduled.
В итоге оказалось что при обновлении метаданных каждый раз была необходимость удалять старый префикс и назначать новый, а также в том что разделение неэффективно. Приходилось дублировать все операции по обогащению данных на два каталога.
Поэтому одно из важных актуальных изменений реестра в том чтобы свести их в единую модель. И сейчас в последней версии реестра на Github'е [1] лежит датасет с переназначенными идентификаторами и теперь можно приступать к повышению качества каталога автоматизировав присвоение тегов, тем и описаний каждому из них. Это, кстати, то для чего можно применить LLM почти наверняка.
Но это то что является disruptive change поскольку даже временные каталоги данных индексировались в Dateno и их переиндексирование и обновление поиска поменяет некоторые ссылки и в реестре [2] и для датасетов в будущем. Поэтому на самом поиске это отразится не раньше чем через какое-то время, не в ближайшем обновлении.
Реестр - это важная часть качества поиска Dateno поскольку характеристики каталога данных транслируются на датасеты. Если, к примеру, источник данных посвящён здравоохранению то и его параметры переносятся на наборы данных в нём проиндексированные. Это позволяет искать даже те датасеты которые которые своих метаданных имеют мало или почти не содержат. К примеру, почти все датасеты на серверах ArcGIS и Geoserver, но вот их обогащение почти невозможно проводить автоматически, потому на них нет описания содержания этих данных. Геокаталоги, не все, но многие, автоматически документируются довольно плохо. Их наличие делает Dateno одним из наиболее полных поисковиков по геоданным, но искать их сложно если только эти данные не описаны где-то ещё, например, в каталогах Geonetwork со ссылками на георесурсы.
Ссылки:
[1] https://github.com/commondataio/dataportals-registry/
[2] https://dateno.io/registry
#dateno #opendata #datasets
GitHub
GitHub - commondataio/dataportals-registry: Registry of data portals, catalogs, data repositories including data catalogs dataset…
Registry of data portals, catalogs, data repositories including data catalogs dataset and catalog description standard - commondataio/dataportals-registry
❤4✍2👍1
Мою презентация с сегодняшнего Дня открытых данных в России можно посмотреть онлайн https://www.beautiful.ai/player/-OKHlQrIzuA3Bba4k-Uz
Она была полностью посвящена Dateno и практике поиска датасетов. Это не первая и не последняя моя презентация по этой теме, но как водораздел обновления Dateno до 22 миллионов датасетов.
#opendata #dateno
Она была полностью посвящена Dateno и практике поиска датасетов. Это не первая и не последняя моя презентация по этой теме, но как водораздел обновления Dateno до 22 миллионов датасетов.
#opendata #dateno
Beautiful.ai
Dateno 01.03.2025
Get started with Beautiful.ai today.
👍15
Forwarded from Dateno
🚀 Dateno Enters Industrial Operation – Redefining Global Dataset Search
We’re excited to announce that Dateno has officially transitioned to full-scale industrial operation! 🎉 Now, data professionals worldwide can seamlessly access over 20 million high-quality datasets with advanced filtering, API integration, and continuously updated sources.
🔍 What makes Dateno stand out?
✅ Extensive dataset collection – 20M+ datasets indexed, aiming for 30M.
✅ Advanced filtering – Search by dataset owner, geography, topic, and more.
✅ AI-powered search – Recognizes semantic relationships (DOI, geolocation).
✅ API-first approach – Seamless integration into analytics & ML pipelines.
✅ High-quality, ad-free data – Focused on clean, structured, and trustworthy datasets.
💡 What’s next?
🔹 Expanding the dataset index to cover even more industries & research fields.
🔹 Improving search quality & user experience.
🔹 Enhancing AI-driven search for more relevant results.
🔹 Adding new API capabilities for seamless integration.
🔹 Launching tools to help professionals derive deeper insights.
Dateno is more than a search engine – it’s an ecosystem built to make data discovery effortless. 🌍
Join us and experience the next level of fast, precise, and integrated dataset search!
👉 Learn more: dateno.io
📩 Contact us: [email protected]
#Dateno #DataSearch #MachineLearning #BigData #AI
We’re excited to announce that Dateno has officially transitioned to full-scale industrial operation! 🎉 Now, data professionals worldwide can seamlessly access over 20 million high-quality datasets with advanced filtering, API integration, and continuously updated sources.
🔍 What makes Dateno stand out?
✅ Extensive dataset collection – 20M+ datasets indexed, aiming for 30M.
✅ Advanced filtering – Search by dataset owner, geography, topic, and more.
✅ AI-powered search – Recognizes semantic relationships (DOI, geolocation).
✅ API-first approach – Seamless integration into analytics & ML pipelines.
✅ High-quality, ad-free data – Focused on clean, structured, and trustworthy datasets.
💡 What’s next?
🔹 Expanding the dataset index to cover even more industries & research fields.
🔹 Improving search quality & user experience.
🔹 Enhancing AI-driven search for more relevant results.
🔹 Adding new API capabilities for seamless integration.
🔹 Launching tools to help professionals derive deeper insights.
Dateno is more than a search engine – it’s an ecosystem built to make data discovery effortless. 🌍
Join us and experience the next level of fast, precise, and integrated dataset search!
👉 Learn more: dateno.io
📩 Contact us: [email protected]
#Dateno #DataSearch #MachineLearning #BigData #AI
2🎉12⚡5🔥5❤2🤩2👍1
Читаю работу OpenAlex: End-to-End Process for Topic Classification [1] от команды графа по научным работам OpenAlex о том как они классифицируют научные работы по каким темам и там у них есть иерархическая модель разметки работ по уровням Domains -> Fields -> Subfields -> Topics, причём тем (topics) довольно много и они привязаны все к статьям в Википедии. А вообще они построили свою классификацию через идентификацию макрокластеров [3] сообществ через цитирование. Большая и интересная тема, с понятной сложностью и результатами.
Я на всё это смотрю с точки зрения улучшения классификации датасетов в Dateno [4]. Сейчас в Dateno используется два классификатора. Европейский Data Theme [5] используемый в их портале data.europe.eu, но у него всего 13 тем очень верхнеуровневых и тематические категории (topic category) из ISO 19115 [6] которых 19 штук и тоже без иерархии. Тематические категории используются в каталогах данных на базе Geonetwork и в программе INSPIRE Евросоюза и они применимы к геоданным, в первую очередь.
Это одна из особенностей Dateno, да и остальных индексаторов датасетов. По разным блокам и типам каталогов данных свои тематические категории, не связанные между собой и кроме обычных датасетов и геоданных есть ещё и большие банки статистических данных живущих по своим правилам и своим группам.
Сложностей несколько:
- в отличие от научных работ здесь нет цитирования или аналогичных связей, значительно сложнее строить смысловые кластеры. Их можно строить на названиях, оригинальных тематиках в первоисточнике, тематиках самого первоисточника, но не на цитировании и не на связях.
- язык науки в мире почти весь английский, а там где не английский то французский, но в целом все исходят из того что он английский. А среди датасетов много данных на самых разных языках. Тут как раз проще со статистикой которая почти всегда имеет английскую версию и сложнее с остальным.
Тем не менее своя классификация необходима и её идеальные параметры были бы когда одна тема охватывает не более 10 тысяч наборов данных или временных рядов. То есть если мы имеем базу в 22 миллиона набора датасетов, то тематик должно быть не менее 2.2 тысяч, а ещё лучше не менее 5 тысяч. Тогда пользователь получает возможность быстро сузить поиск до нужной ему темы. Тогда у Dateno появляется ещё одна важная модель его применения, это подписка на появление нужных данных в одной или нескольких узких областях избегая ложных срабатываний при ключевых словах.
Без ИИ тут, кстати, не обойтись и ребята из OpenAlex использовали модель GPT 3.5 Turbo [7] для кластеризации научных работ и подбора названий выявленным кластерам.
Ссылки:
[1] https://docs.google.com/document/d/1bDopkhuGieQ4F8gGNj7sEc8WSE8mvLZS/edit?tab=t.0
[2] https://docs.google.com/spreadsheets/d/1v-MAq64x4YjhO7RWcB-yrKV5D_2vOOsxl4u6GBKEXY8/edit?gid=983250122#gid=983250122
[3] https://zenodo.org/records/10560276
[4] https://dateno.io
[5] https://op.europa.eu/en/web/eu-vocabularies/concept-scheme/-/resource?uri=https://publications.europa.eu/resource/authority/data-theme
[6] https://apps.usgs.gov/thesaurus/term-simple.php?thcode=15&code=000
[7] https://www.leidenmadtrics.nl/articles/an-open-approach-for-classifying-research-publications
#opendata #opensource #dateno #thoughts
Я на всё это смотрю с точки зрения улучшения классификации датасетов в Dateno [4]. Сейчас в Dateno используется два классификатора. Европейский Data Theme [5] используемый в их портале data.europe.eu, но у него всего 13 тем очень верхнеуровневых и тематические категории (topic category) из ISO 19115 [6] которых 19 штук и тоже без иерархии. Тематические категории используются в каталогах данных на базе Geonetwork и в программе INSPIRE Евросоюза и они применимы к геоданным, в первую очередь.
Это одна из особенностей Dateno, да и остальных индексаторов датасетов. По разным блокам и типам каталогов данных свои тематические категории, не связанные между собой и кроме обычных датасетов и геоданных есть ещё и большие банки статистических данных живущих по своим правилам и своим группам.
Сложностей несколько:
- в отличие от научных работ здесь нет цитирования или аналогичных связей, значительно сложнее строить смысловые кластеры. Их можно строить на названиях, оригинальных тематиках в первоисточнике, тематиках самого первоисточника, но не на цитировании и не на связях.
- язык науки в мире почти весь английский, а там где не английский то французский, но в целом все исходят из того что он английский. А среди датасетов много данных на самых разных языках. Тут как раз проще со статистикой которая почти всегда имеет английскую версию и сложнее с остальным.
Тем не менее своя классификация необходима и её идеальные параметры были бы когда одна тема охватывает не более 10 тысяч наборов данных или временных рядов. То есть если мы имеем базу в 22 миллиона набора датасетов, то тематик должно быть не менее 2.2 тысяч, а ещё лучше не менее 5 тысяч. Тогда пользователь получает возможность быстро сузить поиск до нужной ему темы. Тогда у Dateno появляется ещё одна важная модель его применения, это подписка на появление нужных данных в одной или нескольких узких областях избегая ложных срабатываний при ключевых словах.
Без ИИ тут, кстати, не обойтись и ребята из OpenAlex использовали модель GPT 3.5 Turbo [7] для кластеризации научных работ и подбора названий выявленным кластерам.
Ссылки:
[1] https://docs.google.com/document/d/1bDopkhuGieQ4F8gGNj7sEc8WSE8mvLZS/edit?tab=t.0
[2] https://docs.google.com/spreadsheets/d/1v-MAq64x4YjhO7RWcB-yrKV5D_2vOOsxl4u6GBKEXY8/edit?gid=983250122#gid=983250122
[3] https://zenodo.org/records/10560276
[4] https://dateno.io
[5] https://op.europa.eu/en/web/eu-vocabularies/concept-scheme/-/resource?uri=https://publications.europa.eu/resource/authority/data-theme
[6] https://apps.usgs.gov/thesaurus/term-simple.php?thcode=15&code=000
[7] https://www.leidenmadtrics.nl/articles/an-open-approach-for-classifying-research-publications
#opendata #opensource #dateno #thoughts
👍5✍3
В продолжение портала открытых данных Франции, из его фишек то что можно зарегистрироваться и публиковать свои датасеты. Вот я там разместил реестр каталогов данных из Dateno [1], просто примера ради. Потом могу добавить отдельно API Dateno (но там уже будет не CC-BY лицензия).
Хороший государственный портал открытых данных должен позволять публиковать данные не только госорганами.
Ссылки:
[1] https://www.data.gouv.fr/fr/datasets/data-portals-registry/
#opendata #dateno #datacatalogs
Хороший государственный портал открытых данных должен позволять публиковать данные не только госорганами.
Ссылки:
[1] https://www.data.gouv.fr/fr/datasets/data-portals-registry/
#opendata #dateno #datacatalogs
✍3
Я давно не писал про наш поисковик по данным Dateno, а там накопилось множество обновлений, надеюсь что вот-вот уже скоро смогу об этом написать. А пока приведу ещё пример в копилку задач как ИИ заменяет человека. Я много рассказывал про реестр дата каталогов который Dateno Registry dateno.io/registry, полезный для всех кто ищет не только данные, но и их источник. Этот реестр - это основа Dateno, в нём более 10 тысяч дата каталогов размеченных по разным характеристикам и с большими пробелами в описаниях. Откуда пробелы? потому что автоматизировать поиск источников удалось, а вот описание требует (требовало) много ручной работы.
Когда мы запускали Dateno на текущем реестре я оценивал трудоёмкость по его улучшению и повышении качества в полгода работы для пары человек вручную. Совсем немало скажу я вам, учитывая что этих людей ещё и надо обучить и
ещё надо контролировать качество работы и ещё и нужны инструменты чтобы всё это редактировать без ошибок.
В общем, чтобы долго не ходить, ИИ почти полностью справляется с этой задачей. Достаточно предоставить url сайта с каталогом данных и из него хорошо извлекаются все необходимые метаданные.
Для стартапа на данных - это очень заметное изменение. И это маленькая и теперь недорогая задача. После всех проверок можно будет значительно обновить реестр.
Кстати, о том зачем он нужен. Реестр каталогов данных точно нужен Dateno для индексации датасетов, но он же нужен и всем тем кто строит национальные порталы данных потому что позволяет агрегировать в него данные из всех национальных источников.
#opendata #dateno #datasets #dataengineering #llm #ai #dataunderstanding
Когда мы запускали Dateno на текущем реестре я оценивал трудоёмкость по его улучшению и повышении качества в полгода работы для пары человек вручную. Совсем немало скажу я вам, учитывая что этих людей ещё и надо обучить и
ещё надо контролировать качество работы и ещё и нужны инструменты чтобы всё это редактировать без ошибок.
В общем, чтобы долго не ходить, ИИ почти полностью справляется с этой задачей. Достаточно предоставить url сайта с каталогом данных и из него хорошо извлекаются все необходимые метаданные.
Для стартапа на данных - это очень заметное изменение. И это маленькая и теперь недорогая задача. После всех проверок можно будет значительно обновить реестр.
Кстати, о том зачем он нужен. Реестр каталогов данных точно нужен Dateno для индексации датасетов, но он же нужен и всем тем кто строит национальные порталы данных потому что позволяет агрегировать в него данные из всех национальных источников.
#opendata #dateno #datasets #dataengineering #llm #ai #dataunderstanding
Dateno
Dateno - datasets search engine
A next-generation data search service provides fast, comprehensive access to open datasets worldwide, with powerful filters and an API-first architecture for seamless integration.
❤5✍4👍4
Forwarded from Dateno
Global stats just got a major upgrade at Dateno!
We’ve updated time series from the World Bank (DataBank) and International Labour Organization (ILOSTAT) — now available in a more powerful and usable format.
📊 What’s new?
19,000+ indicators across economics, employment, trade, health & more
3.85 million time series with clean structure and rich metadata
Support for multiple export formats: CSV, Excel, JSON, Stata, Parquet, and more
Fully documented schemas and all source metadata included
We’re not just expanding our data coverage — we’re raising the bar for how usable and reliable open statistical data can be.
And there’s more coming:
📡 New sources of global indicators
🧠 Improved dataset descriptions
🧩 A specialized API for working with time series in extended formats
Have a specific use case for international statistics? We’d love to hear from you → [email protected]
🔍 Try it now: https://dateno.io
#openData #datadiscovery #statistics #dataengineering #dateno #worldbank #ILOSTAT
We’ve updated time series from the World Bank (DataBank) and International Labour Organization (ILOSTAT) — now available in a more powerful and usable format.
📊 What’s new?
19,000+ indicators across economics, employment, trade, health & more
3.85 million time series with clean structure and rich metadata
Support for multiple export formats: CSV, Excel, JSON, Stata, Parquet, and more
Fully documented schemas and all source metadata included
We’re not just expanding our data coverage — we’re raising the bar for how usable and reliable open statistical data can be.
And there’s more coming:
📡 New sources of global indicators
🧠 Improved dataset descriptions
🧩 A specialized API for working with time series in extended formats
Have a specific use case for international statistics? We’d love to hear from you → [email protected]
🔍 Try it now: https://dateno.io
#openData #datadiscovery #statistics #dataengineering #dateno #worldbank #ILOSTAT
Dateno
Dateno - datasets search engine
A next-generation data search service provides fast, comprehensive access to open datasets worldwide, with powerful filters and an API-first architecture for seamless integration.
🔥4👍1
В продолжение поста про статистику в Dateno. Это, в принципе, очень большое изменение в том как мы наполняем поисковик. Если раньше приоритет был на индексирование внешних ресурсов и поиск только по метаданным, то сейчас появилось как минимум 2 источника - это статистика Всемирного банка и Международной организации труда которая полностью загружена во внутреннее хранилище, разобрана и подготовлена и теперь можно:
1.Скачать данные в самых популярных форматах, а не только то как они представлены в первоисточнике
2. Видеть полную документированную спецификацию каждого показателя/временного ряда
3. Видеть все дополнительные метаданные как они есть в первоисточнике (подсказка, там больше полезного чем просто в карточке датасета).
Постепенно почти вся статистика в Dateno будет представлена аналогично, это десятки миллионов временных рядов и сотни тысяч индикаторов.
Для тех кто работает со статистикой профессионально мы подготовим API именно для доступ в банк статданных.
Примеры можно посмотреть в поиске фильтруя по источникам: World Bank Open Data и ILOSTAT.
Примеры датасетов:
- набор данных Всемирного банка
- набор данных Международной организации труда
#opendata #dateno #search #datasets #statistics
1.Скачать данные в самых популярных форматах, а не только то как они представлены в первоисточнике
2. Видеть полную документированную спецификацию каждого показателя/временного ряда
3. Видеть все дополнительные метаданные как они есть в первоисточнике (подсказка, там больше полезного чем просто в карточке датасета).
Постепенно почти вся статистика в Dateno будет представлена аналогично, это десятки миллионов временных рядов и сотни тысяч индикаторов.
Для тех кто работает со статистикой профессионально мы подготовим API именно для доступ в банк статданных.
Примеры можно посмотреть в поиске фильтруя по источникам: World Bank Open Data и ILOSTAT.
Примеры датасетов:
- набор данных Всемирного банка
- набор данных Международной организации труда
#opendata #dateno #search #datasets #statistics
🔥7
Я совсем недавно писал про реестр каталогов Dateno и о применении ИИ к его обогащению. Сейчас могу сказать что реестр существенно обновился, его можно увидеть там же на dateno.io/registry и теперь почти у всех записей там есть сведения о наименовании каталога, его описанию, тематикам, а также у каталогов региональных властей и городов есть геопривязка на уровне кода ISO 3166-2 (субрегионы) по классификации ISO и ещё многое другое. Всё остальное можно постепенно или быстро доделать вручную
Реестр можно всегда посмотреть как датасет в JSONl и Parquet форматах
Хорошая новость - облачные ИИ агенты, с некоторыми плясками с бубном, хорошо справляются с нахождением разных метаданных связанных с сайтами.
А вот то с чем ИИ агенты справляются пока что посредственно - это то что можно отнести к data discovery. Например, откуда я первоначально находил порталы открытых данных? Через анализ сотен миллионов ссылок в Common Crawl где порталы с данными, геопорталы и тд. находились по определённым шаблонам ссылок, типа если в ссылке есть /rest/services то это скорее всего ArcGIS REST Services. А если /geoserver/web то экземпляр GeoServer и так далее. Таких типовых шаблонов пара десятков и вместе с автоматизированным ПО по идентификации API выявлялось довольно много всего.
Плюс к этому подборки списков сайтов на сайтах их разработчиков, плюс каталоги источников, например, научных репозиториев и так далее.
Всё это значительно глубже чем то куда заглядывают облачные ИИ. Уж очень специализированная задача, сама по себе. Кроме того многие реальные сервера с данными скрыты за интерфейсами, например, публичных геопорталов.
Но есть и другая сторона, тот же ChatGPT выдаёт очень неплохие результаты с идентификацией некоторых геопорталов и каталогов данных которых в реестре Dateno пока что нет. Пример, с каталогами данных и геопорталами Армении. Кстати ChatGPT 3o для таких задач оказывается пока эффективнее всего. Claude сильно галлюцинирует, а Gemini 2.5 даёт быстрые, но ограниченные результаты.
Важно помнить что почти все ИИ агенты используют сам Dateno как источник и существенная часть результатов повторяется с тем что у нас есть в реестре. Но не на 100% поэтому результат имеет ценность.
#dateno #ai #dataanalysis #datadiscovery
Реестр можно всегда посмотреть как датасет в JSONl и Parquet форматах
Хорошая новость - облачные ИИ агенты, с некоторыми плясками с бубном, хорошо справляются с нахождением разных метаданных связанных с сайтами.
А вот то с чем ИИ агенты справляются пока что посредственно - это то что можно отнести к data discovery. Например, откуда я первоначально находил порталы открытых данных? Через анализ сотен миллионов ссылок в Common Crawl где порталы с данными, геопорталы и тд. находились по определённым шаблонам ссылок, типа если в ссылке есть /rest/services то это скорее всего ArcGIS REST Services. А если /geoserver/web то экземпляр GeoServer и так далее. Таких типовых шаблонов пара десятков и вместе с автоматизированным ПО по идентификации API выявлялось довольно много всего.
Плюс к этому подборки списков сайтов на сайтах их разработчиков, плюс каталоги источников, например, научных репозиториев и так далее.
Всё это значительно глубже чем то куда заглядывают облачные ИИ. Уж очень специализированная задача, сама по себе. Кроме того многие реальные сервера с данными скрыты за интерфейсами, например, публичных геопорталов.
Но есть и другая сторона, тот же ChatGPT выдаёт очень неплохие результаты с идентификацией некоторых геопорталов и каталогов данных которых в реестре Dateno пока что нет. Пример, с каталогами данных и геопорталами Армении. Кстати ChatGPT 3o для таких задач оказывается пока эффективнее всего. Claude сильно галлюцинирует, а Gemini 2.5 даёт быстрые, но ограниченные результаты.
Важно помнить что почти все ИИ агенты используют сам Dateno как источник и существенная часть результатов повторяется с тем что у нас есть в реестре. Но не на 100% поэтому результат имеет ценность.
#dateno #ai #dataanalysis #datadiscovery
1👍8
Я тут регулярно пишу про Dateno наш поисковик по открытым и иным общедоступным данным, у нас там сейчас уже более 22 миллионов датасетов, слоёв карт и временных рядов и мы работаем над расширением объёма. Однако есть и другой фронт работы - повышение удобства для пользователей. В моём изначальном видении пользователи хотят API (в самом деле ну какие пользователи не хотят API, лично я всегда использую API когда есть возможность). Сейчас наш основной API - это упрощённый поиск, им можно пользоваться чтобы находить данные и получив карточку записи выкачивать ресурсы.
Сейчас мы проектируем вторую версию API которое бы позволяло гораздо больше, в частности:
1. Предоставление MCP сервера для пользователей которые хотят подключить ИИ
2. Предоставление информации о всех срезах в базе данных (aggregations) для повышения удобства поиска.
3. Отдельный эндпоинт по выгрузке архивных данных
4. У нас есть отдельная база статистических индикаторов и временных рядов, с дополнительной навигацией и метаданными. Возможно расширенное API для доступа к именно к статистической базе данных. Она большая это, не просто индекс метаданных, но и сами данные
5. Расширенное API для поиска с продвинутым языком запросов (внутри Elastic, можно дать возможность делать запросы с языком запросов CQL)
Идей много, вопрос в том что нужно пользователям. Если Вы пользуетесь Dateno, и чего-то не хватает в API, напишите мне, мы обязательно учтём это при проектировании, а если не пользуетесь потому что чего-то не хватает, то тем более!
#dateno #opendata #datasearch #api
Сейчас мы проектируем вторую версию API которое бы позволяло гораздо больше, в частности:
1. Предоставление MCP сервера для пользователей которые хотят подключить ИИ
2. Предоставление информации о всех срезах в базе данных (aggregations) для повышения удобства поиска.
3. Отдельный эндпоинт по выгрузке архивных данных
4. У нас есть отдельная база статистических индикаторов и временных рядов, с дополнительной навигацией и метаданными. Возможно расширенное API для доступа к именно к статистической базе данных. Она большая это, не просто индекс метаданных, но и сами данные
5. Расширенное API для поиска с продвинутым языком запросов (внутри Elastic, можно дать возможность делать запросы с языком запросов CQL)
Идей много, вопрос в том что нужно пользователям. Если Вы пользуетесь Dateno, и чего-то не хватает в API, напишите мне, мы обязательно учтём это при проектировании, а если не пользуетесь потому что чего-то не хватает, то тем более!
#dateno #opendata #datasearch #api
Dateno
Dateno - datasets search engine
A next-generation data search service provides fast, comprehensive access to open datasets worldwide, with powerful filters and an API-first architecture for seamless integration.
🔥9❤1
В рубрике как это устроено у них, согласно реестру Dateno в Великобритании не менее 174 каталогов данных создано университетами и другими исследовательскими центрами для публикации исследовательских данных. Большинство из них используют для этого сервис Figshare и такие продукты как Elsvier Pure и ePrints. В большинстве случаев публикация данных сочетается с раскрытием других результатов научной деятельности: статьями, изображениями, приложениями к статьям, книгами и так далее.
Это больше чем общее число каталогов данных во многих странах. Пока лишь малая их часть, 13 каталогов индексируется в Dateno где собрано чуть менее 140 тысяч наборов данных поскольку значительная часть этих каталогов не предоставляют простых интерфейсов для индексирования данных. Figshare - это коммерческий провайдер, а многие другие каталоги поддерживают только стандарт OAI-PHM имеющий существенные ограничения, он не позволяет индексировать записи определённого типа (dataset) и не даёт простой возможности индексации ресурсов (файлов) связанных с наборами данных.
Это не является ограничением для таких агрегаторов как OpenAIRE поскольку они собирают все результаты научной деятельности, но ограничивает Dateno индексация в котором ограничена только наборами данных.
Второй важный фактор - это то что в последние годы многие научные данные загружаются сразу в облачные сервисы вроде data.mendeley.com или zenodo.org, а в институциональных репозиториях указаны лишь ссылки на них и, опять же, отсутствуют ссылки на файлы, остаются только ссылки на карточки датасетов в других ресурсах.
Однако даже при этом цифры в Dateno сопоставимы с индексом OpenAIRE где к Великобритании отнесены 168 тысяч наборов данных, но и среди них многое что помечено как "Dataset" там является просто цифровыми объектами отличающимися от научных статей, например, фотографии и презентации.
Можно было бы OpenAIRE использовать как референсный ориентир при индексировании наборов данных, но и он, увы, сильно неполон.
По моим оценкам всего в Великобритании от 300 до 500 тысяч исследовательских наборов данных рассеянных по сотням репозиториям научных данных и облачным сервисам. Постепенно они будут проиндексированы в Dateno, а пока можно констатировать что индексировать каталоги открытых данных и базы статистики гораздо проще в плане количества проиндексированных наборов данных.
#thoughts #dateno #datasets
Это больше чем общее число каталогов данных во многих странах. Пока лишь малая их часть, 13 каталогов индексируется в Dateno где собрано чуть менее 140 тысяч наборов данных поскольку значительная часть этих каталогов не предоставляют простых интерфейсов для индексирования данных. Figshare - это коммерческий провайдер, а многие другие каталоги поддерживают только стандарт OAI-PHM имеющий существенные ограничения, он не позволяет индексировать записи определённого типа (dataset) и не даёт простой возможности индексации ресурсов (файлов) связанных с наборами данных.
Это не является ограничением для таких агрегаторов как OpenAIRE поскольку они собирают все результаты научной деятельности, но ограничивает Dateno индексация в котором ограничена только наборами данных.
Второй важный фактор - это то что в последние годы многие научные данные загружаются сразу в облачные сервисы вроде data.mendeley.com или zenodo.org, а в институциональных репозиториях указаны лишь ссылки на них и, опять же, отсутствуют ссылки на файлы, остаются только ссылки на карточки датасетов в других ресурсах.
Однако даже при этом цифры в Dateno сопоставимы с индексом OpenAIRE где к Великобритании отнесены 168 тысяч наборов данных, но и среди них многое что помечено как "Dataset" там является просто цифровыми объектами отличающимися от научных статей, например, фотографии и презентации.
Можно было бы OpenAIRE использовать как референсный ориентир при индексировании наборов данных, но и он, увы, сильно неполон.
По моим оценкам всего в Великобритании от 300 до 500 тысяч исследовательских наборов данных рассеянных по сотням репозиториям научных данных и облачным сервисам. Постепенно они будут проиндексированы в Dateno, а пока можно констатировать что индексировать каталоги открытых данных и базы статистики гораздо проще в плане количества проиндексированных наборов данных.
#thoughts #dateno #datasets
✍3👌3
💡 Чем интересен Dateno?
Это поисковик по открытым данным, который собирает не только метаданные о датасетах и API, но и ссылки на связанные ресурсы, часть из которых даже архивирует. Это позволяет не только искать данные, но и анализировать, как они публикуются и в каких форматах.
📊 Немного цифр:
На июль 2025 года в Dateno собрано 5 961 849 наборов данных из порталов открытых данных. Это примерно 27% от всех датасетов, слоёв карт и временных рядов, которые агрегируются из разных каталогов и геопорталов.
👀 Что внутри этих датасетов?
У одних нет вообще никаких файлов, у других — сотни вложений. Поэтому корректнее считать не сами датасеты, а количество ресурсов (файлов и ссылок). Их в базе уже 6,7 млн — примерно 1.1 ресурса на один датасет.
📥 Форматы ресурсов:
CSV — 1 008 646 (15%)
XLSX — 525 329 (7.8%)
XML — 522 501 (7.8%)
JSON — 509 668 (7.6%)
ZIP — 496 709 (7.4%)
PDF — 487 189 (7.3%)
HTML — 475 377 (7.1%)
WMS — 320 159 (4.8%)
NC — 233 229 (3.5%)
XLS — 185 855 (2.8%)
WCS — 141 472 (2.1%)
KML — 122 781 (1.8%)
DOCX — 115 723 (1.7%)
📌 CSV — безусловный лидер. Также популярны XLSX, XML, JSON, старый добрый XLS. Геоформаты вроде WMS, WCS, KML встречаются реже, но их роль растёт.
📄 Почему столько PDF, DOCX и HTML?
Часто вместо машиночитаемых данных публикуют отчёты или ссылки на внешние сайты. Иногда приходится буквально вытаскивать данные из PDF-документов.
🤖 А что с форматами для data science?
Формат Parquet, популярный в дата-инженерии и аналитике, встречается крайне редко — всего 1652 файла (меньше 0.025% всех ресурсов!). Печально, но открытые данные пока ещё далеки от удобства для дата-сайентистов.
Хочется верить, что это изменится.
#данные #opendata #dateno #datascience #dataengineering
Это поисковик по открытым данным, который собирает не только метаданные о датасетах и API, но и ссылки на связанные ресурсы, часть из которых даже архивирует. Это позволяет не только искать данные, но и анализировать, как они публикуются и в каких форматах.
📊 Немного цифр:
На июль 2025 года в Dateno собрано 5 961 849 наборов данных из порталов открытых данных. Это примерно 27% от всех датасетов, слоёв карт и временных рядов, которые агрегируются из разных каталогов и геопорталов.
👀 Что внутри этих датасетов?
У одних нет вообще никаких файлов, у других — сотни вложений. Поэтому корректнее считать не сами датасеты, а количество ресурсов (файлов и ссылок). Их в базе уже 6,7 млн — примерно 1.1 ресурса на один датасет.
📥 Форматы ресурсов:
CSV — 1 008 646 (15%)
XLSX — 525 329 (7.8%)
XML — 522 501 (7.8%)
JSON — 509 668 (7.6%)
ZIP — 496 709 (7.4%)
PDF — 487 189 (7.3%)
HTML — 475 377 (7.1%)
WMS — 320 159 (4.8%)
NC — 233 229 (3.5%)
XLS — 185 855 (2.8%)
WCS — 141 472 (2.1%)
KML — 122 781 (1.8%)
DOCX — 115 723 (1.7%)
📌 CSV — безусловный лидер. Также популярны XLSX, XML, JSON, старый добрый XLS. Геоформаты вроде WMS, WCS, KML встречаются реже, но их роль растёт.
📄 Почему столько PDF, DOCX и HTML?
Часто вместо машиночитаемых данных публикуют отчёты или ссылки на внешние сайты. Иногда приходится буквально вытаскивать данные из PDF-документов.
🤖 А что с форматами для data science?
Формат Parquet, популярный в дата-инженерии и аналитике, встречается крайне редко — всего 1652 файла (меньше 0.025% всех ресурсов!). Печально, но открытые данные пока ещё далеки от удобства для дата-сайентистов.
Хочется верить, что это изменится.
#данные #opendata #dateno #datascience #dataengineering
Dateno
Dateno - datasets search engine
A next-generation data search service provides fast, comprehensive access to open datasets worldwide, with powerful filters and an API-first architecture for seamless integration.
🔥7✍5
По опыту использования множества LLM'ок для работы с данными могу сказать что есть важный компонент работы который сейчас в них отсутствует - это использование прокси/VPN для доступа к некоторым ресурсам. По умолчанию LLM в режиме поиска обращаются к ресурсам с адресов относящихся к крупным облачным провайдерам вроде AWS/Azure/GCP. В результате при попытке анализировать материалы которые имеют региональную блокировку они не срабатывают. Я это наблюдаю на многих ресурсах относящихся к России, Китаю, Вьетнаму и ряду других стран. Попытки анализировать веб-сайты, например, анализа ПО на которых они созданы или поиска недокументированных API, срабатывают не всегда.
Это вполне реальное ограничение которое сейчас обходится указанием ИИ агенту использовать прокси для обхода и некоторые агенты умеют найти нужное бесплатное прокси или надо создать/приобрести прокси сервер для обхода ограничений.
Геоблокировки - это серьёзный вызов для подобной аналитической работы с помощью ИИ агентов, нужны решения которые помогали бы их обойти.
#thoughts #dateno #ai
Это вполне реальное ограничение которое сейчас обходится указанием ИИ агенту использовать прокси для обхода и некоторые агенты умеют найти нужное бесплатное прокси или надо создать/приобрести прокси сервер для обхода ограничений.
Геоблокировки - это серьёзный вызов для подобной аналитической работы с помощью ИИ агентов, нужны решения которые помогали бы их обойти.
#thoughts #dateno #ai
💯11⚡1👍1