Ivan Begtin
7.98K subscribers
1.85K photos
3 videos
101 files
4.55K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Forwarded from Open Data Armenia
[EN] Armenian Points of interests (POI) data from Foursquare OS Places [1] is a new dataset in the Open Data Armenia data catalogue. This data is extracted from the huge OS Places dataset previously published by Foursquare [2].

The dataset contains just under 16 thousand locations across the country, most of the place names are in English, Russian and Armenian. The most places are marked in Yerevan, but not only.

Data in Parquet format is a special format for data popular in Data Science, it is most convenient to work with it using such tools as DuckDB, Pandas and Polars.

If someone needs this data in other formats, please write, we will add it.

[RU] Armenian Points of interests (POI) data from Foursquare OS Places [1] новый набор данных в каталоге данных Open Data Armenia. Эти данные извлечены из огромного датасета OS Places ранее опубликованного Foursquare [2].

Датасет содержит чуть менее 16 тысяч точек по стране, большая часть названий мест на английском, русском и армянском языках. Более всего мест отмечено в Ереване, но не только.

Данные в формате Parquet, это специальный формат для данных популярный в Data Science, с ним удобнее всего работать с помощью таких инструментов как DuckDB, Pandas и Polars.

Если кому-то понадобятся эти данные в других форматах, напишите, добавим.

Ссылки:
[1] https://data.opendata.am/dataset/am-os-places
[2] https://t.iss.one/opendataam/131

#opendata #datasets #geodata #armenia #foursquare
В рубрике как это устроено у них проекты по созданию пространств данных в Испании (Dataspaces) [1]. На них выделено 500 миллионов евро из них крупнейшая статья расходов это Kit Espacios de Datos, инициатива по вовлечению бизнеса в экономику данных с компенсацией им в виде безвозвратных субсидий того что они будут:
- использовать принятые стандарты и разрабатывать онтологии;
- подключать свои информационные системы в пространства данных (data spaces)
- публиковать данные в открытом доступе;

Это всё про перевод данных из частного блага в общественное и про денежную мотивацию бизнеса к обмену данными и вовлечению в экономику данных.

Ссылки:
[1] https://datos.gob.es/es/noticia/plan-de-impulso-de-los-espacios-de-datos-sectoriales

#opendata #datasets #spain #dataspaces #datamarket
Про метрики качества данных и дата продуктов.

Я ранее писал про метрики качества в Dateno и что количество проиндексированных датасетов является важной метрикой, но далеко не единственной. Кроме него важно ещё то какие именно датасеты и их представленность - это метрика разнообразия данных, ещё важна метрика разнообразия источников данных, а то есть чтобы вся база не состояла только из научных данных или только из статистики. Ещё есть метрики глубины охвата, качества метаданных, частоты обновления и тд.

И, наконец, важная лично для меня метрика - это метрика географического охвата. Одна из изначальных идей была в том что Dateno Должно охватывать вообще все страны и территории мира. А то есть данные должны быть не только по крупнейшим развитым странам (это особенность научных каталогов данных), но и по малым развивающимся странам.

И вот, ура-ура, в последнем обновлении Dateno эта цель была окончательно достигнута. В Dateno сейчас есть датасеты привязанные ко всем странам и зависимым территориям в мире, по крайней мере при проверке по реестру стран Всемирного банка.

Как это получилось? Главное - это глобальные базы статистики международных организаций. Даже если у страны нет веб-сайта и доступа в Интернет, статистические службы взаимодействуют с ООН и статистика о них накапливается в глобальных базах индикаторов. Дальше вопрос только сбора этих данных и привязывания к странам.

Второй фактор - это то что у многих развивающихся стран нет порталов открытых данных, но есть геосервера и геопорталы которые и проиндексированы в Dateno.
Геоданных в развивающихся странах тоже мало, но больше чем открытых данных.

Итого по каждой стране есть, как минимум, данные индикаторов. Эти данные настолько хороши и полны, насколько они полны в данных первоисточников. Поэтому теперь метрика полноты данных в Dateno для меня звучит как географическое разнообразие данных не являющихся индикаторами.

И по этому критерию у нас нет датасетов по 38 странам, все они наименее развитые, или островные или иные микрогосударства. По многим из них есть каталоги данных в реестре, но пока они не проиндексированы поскольку, или нестандартны, или блокируют внешний доступ или с ними что-то ещё не так.

При этом список можно сократить и охватить почти все страны привязать к ним датасеты из других глобальных каталогов вроде Humanitarian Data Exchange или датасетов наук о земле, которые привязаны де-факто не к юрисдикации, а к инструментам/командам наблюдения и публикации научной работы.

#opendata #dateno #data #datasets
Для тех кто хочет поработать с данными из OS Places по России, на Хаб открытых данных выложен датасет в формате parquet на 3 096 012 точек [1] и общим объёмом 309 мегабайт.

Ожидаемо, у тех точек где есть привязка к региону, более всего точек у Москвы и Санкт-Петербурга. А вообще датасет можно использовать и для проверки алгоритмов повышения качества данных потому что у более чем половины точек, к примеру, нет указания региона, города и адреса, только координаты.

Датасет большой, идей по его применению может быть очень много

Ссылки:
[1] https://hubofdata.ru/dataset/ru-os-places

#opendata #russia #geodata #datasets
Знаете ли Вы что... DBPedia - это не только цельная база данных, но и большой каталог наборов данных созданных на её основе. Все они собраны на портале databus.dbpedia.org [1], например, в виде коллекции дата файлов извлеченных из последней итерации обработчика Википедии.

Хотя лично у меня до сих пор немало сомнений насколько концепции Semantic Web И Linked Data приживутся за пределами научного мира, но что точно способствует их популяризации так это доступность больших наборов данных. А в DBPedia Databus определённо данных много. Это немалый, хотя и малоизвестный каталог открытых данных.

Ссылки:
[1] https://databus.dbpedia.org
[2] https://databus.dbpedia.org/dbpedia/collections/latest-core

#opendata #datasets #datadiscovery
Полезное чтение про данные, технологии и не только:
- The Death of Search [1] полезная статья о том как ИИ убивает поиск и что мы потеряем в процессе. Я бы переименовал её в The Death of Google потому что главная поисковая монополия пострадает более других. Но ещё не время пессимистичных прогнозов
- The Emergent Landscape of Data Commons: A Brief Survey and Comparison of Existing Initiatives [2] статья о инициативах публикации данных как общественного блага. Тема актуальная и про частные инициативы, и про государственные и про технологические НКО. Довольно близко к инициативам по общественной цифровой инфраструктуре (Digital Public Infrastructure, DPI)
- Congress should designate an entity to oversee data security, GAO says [3] в США Счетная палата (GAO) рекомендовала Конгрессу выбрать федеральное агентство и дать ему полномочия по защите данных. Сейчас такого агентства нет и это создаёт дополнительные риски, о чём GAO и пишут в своём докладе [4]
- OECD Digital Economy Outlook 2024 (Volume 2) [5] свежий доклад ОЭСР по цифровой экономике. Про данные мало, про многое другое много. Явные акценты на особенностях медиапотребления и на цифровой безопасности.
- How to evaluate statistical claims [6] хороший лонгрид о том как читать статистику

Ссылки:
[1] https://archive.is/ZSzAP
[2] https://medium.com/data-stewards-network/the-emergent-landscape-of-data-commons-a-brief-survey-and-comparison-of-existing-initiatives-abab7bbc4fe1
[3] https://fedscoop.com/congress-data-security-civil-rights-liberties-gao-report/
[4] https://www.gao.gov/assets/gao-25-106057.pdf
[5] https://www.oecd.org/en/publications/oecd-digital-economy-outlook-2024-volume-2_3adf705b-en.html
[6] https://seantrott.substack.com/p/how-to-evaluate-statistical-claims

#data #ai #privacy #statistics #readings
В рубрике как это работает у них портал данных на базе Arab Region Data and Policy Support Hub (RCP) [1] создан при агентстве ООН The UN Regional Collaboration Platform (RCP) for Arab States.

Его можно отнести к одному из порталов данных ООН которых всего несколько десятков, часть из них базы индикаторов, часть каталоги данных, часть системы раскрытия информации в рамках инициатив прозрачности.

Этот портал - гибридный портал индикаторов и открытых данных. В его каталоге [2] 132 тысячи наборов данных большая часть из которых - это индикаторы из других проектов и сайтов ООН, таких как портал данных Всемирного банка и Портал статслужбы ООН.

Почти все данные - это статистика и в этом смысл проект напоминает другой похожий о котором я ранее писал, это DBNomics. Правда DBNomics несколько побольше, там 92 источника данных, 30 тысяч наборов данных и 1.4 миллиарда временных рядов.

В портале данных RCP такого числа временных рядов нет из-за отсутствия дробления/разрезания датасетов по территориям.

А также у портала есть документированное и недокументированное API, раздел с геоданными и статистические дашборды.

Ссылки:
[1] https://data.as-rcp.org/

#opendata #arabstates #data #datacatalogs #statistics
К вопросу о том как и где искать данные, в качестве регулярного напоминания:

Поисковые системы
по данным
- Dateno - поисковая система по всем видам наборов данных, геоданных и научных данных, агрегирует их из более чем 5 тысяч каталогов данных, включает 19 миллионов карточек датасетов
- Google Dataset Search - исследовательская поисковая система по датасетам от Google. Охватывает все датасеты в мире опубликованные по стандарту Schema.org Dataset, включает около 50 миллионов карточек датасетов

Поисковые системы по научным данным
- DataCite Commons - поисковик по всем датасетам которым присвоен DOI через сервис DataCite. Более 22 миллионов карточек наборов данных. Используется многими другими поисковыми системами и агрегаторами наборов данных. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
- OpenAIRE - поисковая система ЕС по результатам научной деятельности включая датасеты. Около 19 миллионов карточек датасетов. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
- BASE (Bielefeld Academic Search Engine) - поисковая система по научным публикациям от Bielefeld University. Включает 25 миллионов карточек датасетов из которых 22 миллиона агргеггируются из DataCite. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
- Mendeley Data - поисковик по научным данным от Elsevier, декларирует 26 миллионов карточек датасетов, в реальности многие из низ - это фрагменты единых баз данных или документы в университетских библиотеках. За их исключением реальное число наборов данных ближе к 5 миллионам. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.

Платформы и крупнейшие порталы научных данных
- Figshare - одна из крупнейших онлайн платформ для публикации научных данных. Содержит всего 2 миллиона наборов данных включая сами данные. Более половины этих наборов данных происходят из публикаций в рамках Public Library of Science (PLOS).
- OSF - открытая платформа для публикации научных данных. Точное число датасетов измерить сложно поскольку открытой статистики, или нет, или до неё сложно добраться, но можно исходить из того что это как минимум сотни тысяч наборов данных
- DataOne - каталог и агрегатор данных наук о земле. Более 777 тысяч наборов данных, включая все ресурсы/файлы к ним приложенные

Поисковики по геоданным
- GeoSeer - чуть ли не единственный специализированный поисковик по геоданным. Обещают что охватывают 3.5 миллионов точек подключения к гео API таким как WMS, WFS, WMTS и др.

P.S. Существует также большое число крупных порталов данных и агрегаторов в других областях: машинное обучение, статистика, геоданные. О них в следующий раз

#opendata #data #datasearch #datasets #geodata #openaccess
К вопросу, во многом философскому, но с практическим умыслом, о том что считать данными, а что нет приведу пример в временными рядами. Не для всех, но для многих пользователей данные имеют географическую привязку и работая даже с большой данных стат наблюдений интересуют конкретные страны/страна и временной ряд получаемый из этой большой базы также имеет привязку к одной или двум странам. Но есть и задачи когда надо работать с базой целиком.

На некоторых порталах открытых данных, таких как портал данных ЕЦБ или Банка международных расчётов есть понятие набора данных, их мало и они велики, и есть понятие как раз временного ряда у каждого из которых есть пермалинк. Потребители есть у обоих типов данных. В Dateno эти данные уже частично агрегируются, около 30% карточек в Dateno - это агрегированные временные ряды и это оправдано поскольку пользователи, напомню, ищут чаще в привязке к территории. Но это выходит что отдельный тип данных, который может быть, а может не быть отдельным датасетом. Потому что ещё бывает так что временные ряды публикуют как-то ещё, а не в базе статистики. Что с этим делать для большей понятности? По хорошему разделять наборы данных и временные ряды, дать возможность фильтровать в поиске только их.

Аналогичным образом с геоданными/слоями карт. Слои карт - это чаще всего не файлы, а ссылки на точки подключения к API - ArcGIS или OGC. Их можно рассматривать как наборы данных, и иногда и часто так рассматривают, но, по хорошему, это некоторое отдельное явление, которое так и надо называть "Map layer".

Таких видов данных есть ещё некоторое количество, я же добавлю ещё что кроме них есть и более сложные случаи. Например, фиды новостей RSS и ATOM. Они данные или нет? ATOM фидов довольно много, только на европейском портале данных их более 141 тысячи, поскольку они являются одним из способов экспорта и доступа к геоданным на платформах на базе Geonetwork и ряда других.

ATOM Feed'ы также используются в каталогах данных на базе Thredds для доступа к метеорологическим данным.

Но, также их условно бесконечное число разбросано по интернету, как для доступа к новостям на сайтах, так и ко многим другим типам контента.

Можно ли выделять ATOM/RSS как отдельную категорию API и рассматривать их как данные и индексировать, например, нам в Dateno?

Ответ на этот вопрос содержится в контрвопросах - А зачем? А кому это нужно?

Один из важнейших критериев отнесения цифровых объектов/артефактов в к данным - это их востребованность целевой аудиторией тех кто с данными работает: дата инженеров, дата сайентистов, дата аналитиков, геоаналитиков, статистиков, экономистов, бизнес аналитиков и так далее.

И таких примеров очень много и всё больше возникает в процесс обнаружения новых, потенциально интересных источников данных.

P.S. Мне давно уже пора завести рубрику #whatisdata, пожалуй, буду помечать будущие размышления на эту тему именно ей

#whatisdata #thoughts #dateno #data
Forwarded from Горящая изба
Обещала описать опыт поиска данных об образовании через Dateno. Dateno (https://dateno.io) – развивающийся специализированный реестр наборов открытых данных, который регулярно пополняется новыми датасетами, дает широкие возможности для поиска, и в принципе довольно бодрый проект, разрабатываемый Иваном Бегтиным, экспертом в области открытых данных (@begtin).
С нашими дорогими educational data ("прости! не знаю, как перевести") есть сразу несколько нюансов:
1. Путаница данных об образовании и образовательных данных. Это не смертельно, если мы сразу задаемся вопросами о том, что же содержится в имеющихся датасетах.
2. Мало количество данных/датасетов при их большой содержательной фрагментарности (по чуть-чуть, но о многом, но по чуть-чуть)
3. Агрегирование и отсутствие доступа к гранулированным данным: все мы знаем, что 10 штук как среднее число компьютеров на школы региона, дает нам содержательно примерно ничего.

Есть и практическое соображение, диктуемое перспективами и тенденциями опубличивания данных в/об образовании в условиях распространения подходов открытой науки: нужны инструменты, позволяющие малой кровью отслеживать изменения в этой области и подтверждать/опровергать тренды. Пока данные в образовании редко становятся объектом управления, источником принятия решений, а имеющиеся наработки из других областей проникают со скрипом. Данные в образовании чувствительные, именно это часто мешает популяризации работы с ними. Ну, и есть некоторый карго-культ (не везде и не всегда).

### Что такое Dateno и как начать работу?

Dateno (https://dateno.io) уже содержит информацию о 19 миллионах датасетов и предоставляет понятный API для работы с ними.
1️⃣ Зарегистрируйтесь на платформе.
2️⃣ Получите токен для работы с API.
3️⃣ Используйте API (браузер, OpenRefine, старые добрые скрипты на Python/R).

### Мой эксперимент: поиск данных с ключевым словом "educational data"_*

Я залогинилась, быстро нашла свой токен, а потом запросила данные о датасетах, содержащих "educational data" в заголовке. Я рисковала, потому что датасеты из других областей тоже могут быть с такими словами, имея под собой просто учебные данные для отработки методов анализа.
Вот что удалось найти:

- Количество датасетов: 61.
- В основном, данные являются академическими/исследовательскими, то есть, датасеты распространяются как обязательства исследователей по опубличиванию результатов.
- К вопросу о том, насколько тщательно надо подходить к формулировке поискового запроса: многое из выдачи имеет мало отношения к образованию, например, мне прилетел датасет об эмигрантах в Хельсинки.
- Страны: большинство наборов данных (27) — из Восточной Азии (оно и понятно, основные датасеты из Японии), 9 — глобальные, 8 - Северная Америка.
- Форматы: .сsv (8), .json — 6, но есть и экзотика в лице .arff (текстовый формат ASCII, никогда с ним не сталкивалась).

### Потенциал Dateno для образовательных исследований

Dateno оказался полезным инструментом. Однако при работе с образовательными датасетами важно учитывать перечисленные выше нюансы. Интересно посмотреть, как представлены статистические наблюдения об образовании, и как можно прекратить пользоваться хранилищем Института статистики ЮНЕСКО. Пока не разобралась, можно ли ставить фильтр на количество записей/единиц анализа в датасете, вот это было полезно.

Гипотеза о потенциале Dateno для анализа данных вокруг образования, подтвердилась. Это хороший инструмент для того, понять, как датафицирована та или иная сфера исследований образования.
Мне вот тоже хочется поисследовать что там у нас уже набралось в Dateno, а то всё репощу исследования других, что тоже интересно, конечно.

Я, для поиска чаще всего использую datenocmd, утилитку для запросов с командной строки и, например, недавно искал что у нас с индексацией данных по криптовалютам.

Хорошая новость - датасеты в индексе есть. Не такая хорошая новость - почти это все неактуальные, исторические датасеты опубликованные исследователями в разное время популярности и непопулярности крипты.

Что удивительно, нет ни одной базы индикаторов по крипте. Коммерческих сервисов много, а ни одного центрального банка и ни одного статистического ведомства мне неизвестно которые бы эту инфу публиковали.

Даже в у Банка международных расчётов или ЕЦБ или Евростата этой информации нет, даже в экспериментальной статистике. В общем-то реально серая зона, совершенно за пределами официального статучёта.

Но мы скоро начнём добавлять эти данные в Dateno, все что найдём;)

#opendata #datasets #crypto
Довольно неожиданный шаг со стороны испанского регулятора.

Вышел Проект Королевского указа, регулирующего выдачу расширенных коллективных лицензий на массовое использование работ и услуг, защищенных правами интеллектуальной собственности, для разработки моделей искусственного интеллекта общего назначения.[1]

Фактически разработчикам ИИ хотят дать право использовать интеллектуальную собственность через коллективные лицензии. Очень интересно как это будет развиваться, выйдет ли/уже выходит ли на наднациональные рамки Евросоюза и
как сами правообладатели к этому отнесутся.

Ссылки:
[1] https://www.cultura.gob.es/en/servicios-al-ciudadano/informacion-publica/audiencia-informacion-publica/abiertos/2024/concesion-licencias-colectivas.html

#regulation #ai #spain
В рубрике закрытых данных в РФ с 2023 года перестал работать домен rosrid.ru на котором были доступны научные работы из ЕГИСУ НИОКТР (Единая государственная информационная система учета. научно-исследовательских, опытно-конструкторских и технологических работ гражданского назначения) и вместо него теперь работает сайт gisnauka.ru [1].

Ещё до обновлений 2022-2023 года в рамках ЕГИСУ НИОКТР публиковались дампы данных/метаданных научных работ. Последнюю выгрузку их в нашу дата платформу Datacrafter мы делали в 2021 году [2].

Примерно в 2022-2023 году систему ЕГИСУ НИОКТР обновляли и вместо данных дампов теперь там стали называть открытыми данными статистику. С внедрением Домена наука ничего не изменилось, сами данные недоступны и даже полнотекстовых публикаций там также не находится, хотя и в поиске есть опция их поиска.

Ссылки:
[1] https://gisnauka.ru
[2] https://datacrafter.ru/packages/rosridnew

#opendata #closeddata #russia #openaccess
Читаю в Российской газете про идею создания научного дата-хаба [1] и думаю как это прокомментировать.

Начну с того что для его создания регулирования не нужно, необходимо лишь чтобы ключевые органы власти и ряд учреждений сдали бы туда данные и чтобы ими можно было пользоваться. Это вопрос не регулирования, а как принято говорить "политической воли" или, если угодно, "государственного насилия" в отношении государственных же структур не участвующих в обмене данными.

И поэтому, разговоры про регулирование стоит воспринимать как опасный звоночек потому что не имея возможность потребовать от госорганов и госкорпораций данные, пр-во начнет регулировать бизнес сдавать данные в этот дата хаб. Вот тут регулирование нужно в полный рост, но это уже плохая форма государственного принуждения, выгодная только ограниченному числу ИИ компаний и ряду госорганов.

Ссылки:
[1] https://rg.ru/2024/11/25/rossijskij-ii-obuchat-na-otechestvennyh-dannyh.html

#opendata #data #ai #regulation #russia