К вопросу о том как и где искать данные, в качестве регулярного напоминания:
Поисковые системы по данным
- Dateno - поисковая система по всем видам наборов данных, геоданных и научных данных, агрегирует их из более чем 5 тысяч каталогов данных, включает 19 миллионов карточек датасетов
- Google Dataset Search - исследовательская поисковая система по датасетам от Google. Охватывает все датасеты в мире опубликованные по стандарту Schema.org Dataset, включает около 50 миллионов карточек датасетов
Поисковые системы по научным данным
- DataCite Commons - поисковик по всем датасетам которым присвоен DOI через сервис DataCite. Более 22 миллионов карточек наборов данных. Используется многими другими поисковыми системами и агрегаторами наборов данных. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
- OpenAIRE - поисковая система ЕС по результатам научной деятельности включая датасеты. Около 19 миллионов карточек датасетов. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
- BASE (Bielefeld Academic Search Engine) - поисковая система по научным публикациям от Bielefeld University. Включает 25 миллионов карточек датасетов из которых 22 миллиона агргеггируются из DataCite. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
- Mendeley Data - поисковик по научным данным от Elsevier, декларирует 26 миллионов карточек датасетов, в реальности многие из низ - это фрагменты единых баз данных или документы в университетских библиотеках. За их исключением реальное число наборов данных ближе к 5 миллионам. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
Платформы и крупнейшие порталы научных данных
- Figshare - одна из крупнейших онлайн платформ для публикации научных данных. Содержит всего 2 миллиона наборов данных включая сами данные. Более половины этих наборов данных происходят из публикаций в рамках Public Library of Science (PLOS).
- OSF - открытая платформа для публикации научных данных. Точное число датасетов измерить сложно поскольку открытой статистики, или нет, или до неё сложно добраться, но можно исходить из того что это как минимум сотни тысяч наборов данных
- DataOne - каталог и агрегатор данных наук о земле. Более 777 тысяч наборов данных, включая все ресурсы/файлы к ним приложенные
Поисковики по геоданным
- GeoSeer - чуть ли не единственный специализированный поисковик по геоданным. Обещают что охватывают 3.5 миллионов точек подключения к гео API таким как WMS, WFS, WMTS и др.
P.S. Существует также большое число крупных порталов данных и агрегаторов в других областях: машинное обучение, статистика, геоданные. О них в следующий раз
#opendata #data #datasearch #datasets #geodata #openaccess
Поисковые системы по данным
- Dateno - поисковая система по всем видам наборов данных, геоданных и научных данных, агрегирует их из более чем 5 тысяч каталогов данных, включает 19 миллионов карточек датасетов
- Google Dataset Search - исследовательская поисковая система по датасетам от Google. Охватывает все датасеты в мире опубликованные по стандарту Schema.org Dataset, включает около 50 миллионов карточек датасетов
Поисковые системы по научным данным
- DataCite Commons - поисковик по всем датасетам которым присвоен DOI через сервис DataCite. Более 22 миллионов карточек наборов данных. Используется многими другими поисковыми системами и агрегаторами наборов данных. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
- OpenAIRE - поисковая система ЕС по результатам научной деятельности включая датасеты. Около 19 миллионов карточек датасетов. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
- BASE (Bielefeld Academic Search Engine) - поисковая система по научным публикациям от Bielefeld University. Включает 25 миллионов карточек датасетов из которых 22 миллиона агргеггируются из DataCite. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
- Mendeley Data - поисковик по научным данным от Elsevier, декларирует 26 миллионов карточек датасетов, в реальности многие из низ - это фрагменты единых баз данных или документы в университетских библиотеках. За их исключением реальное число наборов данных ближе к 5 миллионам. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
Платформы и крупнейшие порталы научных данных
- Figshare - одна из крупнейших онлайн платформ для публикации научных данных. Содержит всего 2 миллиона наборов данных включая сами данные. Более половины этих наборов данных происходят из публикаций в рамках Public Library of Science (PLOS).
- OSF - открытая платформа для публикации научных данных. Точное число датасетов измерить сложно поскольку открытой статистики, или нет, или до неё сложно добраться, но можно исходить из того что это как минимум сотни тысяч наборов данных
- DataOne - каталог и агрегатор данных наук о земле. Более 777 тысяч наборов данных, включая все ресурсы/файлы к ним приложенные
Поисковики по геоданным
- GeoSeer - чуть ли не единственный специализированный поисковик по геоданным. Обещают что охватывают 3.5 миллионов точек подключения к гео API таким как WMS, WFS, WMTS и др.
P.S. Существует также большое число крупных порталов данных и агрегаторов в других областях: машинное обучение, статистика, геоданные. О них в следующий раз
#opendata #data #datasearch #datasets #geodata #openaccess
К вопросу, во многом философскому, но с практическим умыслом, о том что считать данными, а что нет приведу пример в временными рядами. Не для всех, но для многих пользователей данные имеют географическую привязку и работая даже с большой данных стат наблюдений интересуют конкретные страны/страна и временной ряд получаемый из этой большой базы также имеет привязку к одной или двум странам. Но есть и задачи когда надо работать с базой целиком.
На некоторых порталах открытых данных, таких как портал данных ЕЦБ или Банка международных расчётов есть понятие набора данных, их мало и они велики, и есть понятие как раз временного ряда у каждого из которых есть пермалинк. Потребители есть у обоих типов данных. В Dateno эти данные уже частично агрегируются, около 30% карточек в Dateno - это агрегированные временные ряды и это оправдано поскольку пользователи, напомню, ищут чаще в привязке к территории. Но это выходит что отдельный тип данных, который может быть, а может не быть отдельным датасетом. Потому что ещё бывает так что временные ряды публикуют как-то ещё, а не в базе статистики. Что с этим делать для большей понятности? По хорошему разделять наборы данных и временные ряды, дать возможность фильтровать в поиске только их.
Аналогичным образом с геоданными/слоями карт. Слои карт - это чаще всего не файлы, а ссылки на точки подключения к API - ArcGIS или OGC. Их можно рассматривать как наборы данных, и иногда и часто так рассматривают, но, по хорошему, это некоторое отдельное явление, которое так и надо называть "Map layer".
Таких видов данных есть ещё некоторое количество, я же добавлю ещё что кроме них есть и более сложные случаи. Например, фиды новостей RSS и ATOM. Они данные или нет? ATOM фидов довольно много, только на европейском портале данных их более 141 тысячи, поскольку они являются одним из способов экспорта и доступа к геоданным на платформах на базе Geonetwork и ряда других.
ATOM Feed'ы также используются в каталогах данных на базе Thredds для доступа к метеорологическим данным.
Но, также их условно бесконечное число разбросано по интернету, как для доступа к новостям на сайтах, так и ко многим другим типам контента.
Можно ли выделять ATOM/RSS как отдельную категорию API и рассматривать их как данные и индексировать, например, нам в Dateno?
Ответ на этот вопрос содержится в контрвопросах - А зачем? А кому это нужно?
Один из важнейших критериев отнесения цифровых объектов/артефактов в к данным - это их востребованность целевой аудиторией тех кто с данными работает: дата инженеров, дата сайентистов, дата аналитиков, геоаналитиков, статистиков, экономистов, бизнес аналитиков и так далее.
И таких примеров очень много и всё больше возникает в процесс обнаружения новых, потенциально интересных источников данных.
P.S. Мне давно уже пора завести рубрику #whatisdata, пожалуй, буду помечать будущие размышления на эту тему именно ей
#whatisdata #thoughts #dateno #data
На некоторых порталах открытых данных, таких как портал данных ЕЦБ или Банка международных расчётов есть понятие набора данных, их мало и они велики, и есть понятие как раз временного ряда у каждого из которых есть пермалинк. Потребители есть у обоих типов данных. В Dateno эти данные уже частично агрегируются, около 30% карточек в Dateno - это агрегированные временные ряды и это оправдано поскольку пользователи, напомню, ищут чаще в привязке к территории. Но это выходит что отдельный тип данных, который может быть, а может не быть отдельным датасетом. Потому что ещё бывает так что временные ряды публикуют как-то ещё, а не в базе статистики. Что с этим делать для большей понятности? По хорошему разделять наборы данных и временные ряды, дать возможность фильтровать в поиске только их.
Аналогичным образом с геоданными/слоями карт. Слои карт - это чаще всего не файлы, а ссылки на точки подключения к API - ArcGIS или OGC. Их можно рассматривать как наборы данных, и иногда и часто так рассматривают, но, по хорошему, это некоторое отдельное явление, которое так и надо называть "Map layer".
Таких видов данных есть ещё некоторое количество, я же добавлю ещё что кроме них есть и более сложные случаи. Например, фиды новостей RSS и ATOM. Они данные или нет? ATOM фидов довольно много, только на европейском портале данных их более 141 тысячи, поскольку они являются одним из способов экспорта и доступа к геоданным на платформах на базе Geonetwork и ряда других.
ATOM Feed'ы также используются в каталогах данных на базе Thredds для доступа к метеорологическим данным.
Но, также их условно бесконечное число разбросано по интернету, как для доступа к новостям на сайтах, так и ко многим другим типам контента.
Можно ли выделять ATOM/RSS как отдельную категорию API и рассматривать их как данные и индексировать, например, нам в Dateno?
Ответ на этот вопрос содержится в контрвопросах - А зачем? А кому это нужно?
Один из важнейших критериев отнесения цифровых объектов/артефактов в к данным - это их востребованность целевой аудиторией тех кто с данными работает: дата инженеров, дата сайентистов, дата аналитиков, геоаналитиков, статистиков, экономистов, бизнес аналитиков и так далее.
И таких примеров очень много и всё больше возникает в процесс обнаружения новых, потенциально интересных источников данных.
P.S. Мне давно уже пора завести рубрику #whatisdata, пожалуй, буду помечать будущие размышления на эту тему именно ей
#whatisdata #thoughts #dateno #data
Forwarded from Горящая изба
Обещала описать опыт поиска данных об образовании через Dateno. Dateno (https://dateno.io) – развивающийся специализированный реестр наборов открытых данных, который регулярно пополняется новыми датасетами, дает широкие возможности для поиска, и в принципе довольно бодрый проект, разрабатываемый Иваном Бегтиным, экспертом в области открытых данных (@begtin).
С нашими дорогими educational data ("прости! не знаю, как перевести") есть сразу несколько нюансов:
1. Путаница данных об образовании и образовательных данных. Это не смертельно, если мы сразу задаемся вопросами о том, что же содержится в имеющихся датасетах.
2. Мало количество данных/датасетов при их большой содержательной фрагментарности (по чуть-чуть, но о многом, но по чуть-чуть)
3. Агрегирование и отсутствие доступа к гранулированным данным: все мы знаем, что 10 штук как среднее число компьютеров на школы региона, дает нам содержательно примерно ничего.
Есть и практическое соображение, диктуемое перспективами и тенденциями опубличивания данных в/об образовании в условиях распространения подходов открытой науки: нужны инструменты, позволяющие малой кровью отслеживать изменения в этой области и подтверждать/опровергать тренды. Пока данные в образовании редко становятся объектом управления, источником принятия решений, а имеющиеся наработки из других областей проникают со скрипом. Данные в образовании чувствительные, именно это часто мешает популяризации работы с ними. Ну, и есть некоторый карго-культ (не везде и не всегда).
### Что такое Dateno и как начать работу?
Dateno (https://dateno.io) уже содержит информацию о 19 миллионах датасетов и предоставляет понятный API для работы с ними.
1️⃣ Зарегистрируйтесь на платформе.
2️⃣ Получите токен для работы с API.
3️⃣ Используйте API (браузер, OpenRefine, старые добрые скрипты на Python/R).
### Мой эксперимент: поиск данных с ключевым словом "educational data"_*
Я залогинилась, быстро нашла свой токен, а потом запросила данные о датасетах, содержащих "educational data" в заголовке. Я рисковала, потому что датасеты из других областей тоже могут быть с такими словами, имея под собой просто учебные данные для отработки методов анализа.
Вот что удалось найти:
- Количество датасетов: 61.
- В основном, данные являются академическими/исследовательскими, то есть, датасеты распространяются как обязательства исследователей по опубличиванию результатов.
- К вопросу о том, насколько тщательно надо подходить к формулировке поискового запроса: многое из выдачи имеет мало отношения к образованию, например, мне прилетел датасет об эмигрантах в Хельсинки.
- Страны: большинство наборов данных (27) — из Восточной Азии (оно и понятно, основные датасеты из Японии), 9 — глобальные, 8 - Северная Америка.
- Форматы: .сsv (8), .json — 6, но есть и экзотика в лице .arff (текстовый формат ASCII, никогда с ним не сталкивалась).
### Потенциал Dateno для образовательных исследований
Dateno оказался полезным инструментом. Однако при работе с образовательными датасетами важно учитывать перечисленные выше нюансы. Интересно посмотреть, как представлены статистические наблюдения об образовании,и как можно прекратить пользоваться хранилищем Института статистики ЮНЕСКО . Пока не разобралась, можно ли ставить фильтр на количество записей/единиц анализа в датасете, вот это было полезно.
Гипотеза о потенциале Dateno для анализа данных вокруг образования, подтвердилась. Это хороший инструмент для того, понять, как датафицирована та или иная сфера исследований образования.
С нашими дорогими educational data ("прости! не знаю, как перевести") есть сразу несколько нюансов:
1. Путаница данных об образовании и образовательных данных. Это не смертельно, если мы сразу задаемся вопросами о том, что же содержится в имеющихся датасетах.
2. Мало количество данных/датасетов при их большой содержательной фрагментарности (по чуть-чуть, но о многом, но по чуть-чуть)
3. Агрегирование и отсутствие доступа к гранулированным данным: все мы знаем, что 10 штук как среднее число компьютеров на школы региона, дает нам содержательно примерно ничего.
Есть и практическое соображение, диктуемое перспективами и тенденциями опубличивания данных в/об образовании в условиях распространения подходов открытой науки: нужны инструменты, позволяющие малой кровью отслеживать изменения в этой области и подтверждать/опровергать тренды. Пока данные в образовании редко становятся объектом управления, источником принятия решений, а имеющиеся наработки из других областей проникают со скрипом. Данные в образовании чувствительные, именно это часто мешает популяризации работы с ними. Ну, и есть некоторый карго-культ (не везде и не всегда).
### Что такое Dateno и как начать работу?
Dateno (https://dateno.io) уже содержит информацию о 19 миллионах датасетов и предоставляет понятный API для работы с ними.
1️⃣ Зарегистрируйтесь на платформе.
2️⃣ Получите токен для работы с API.
3️⃣ Используйте API (браузер, OpenRefine, старые добрые скрипты на Python/R).
### Мой эксперимент: поиск данных с ключевым словом "educational data"_*
Я залогинилась, быстро нашла свой токен, а потом запросила данные о датасетах, содержащих "educational data" в заголовке. Я рисковала, потому что датасеты из других областей тоже могут быть с такими словами, имея под собой просто учебные данные для отработки методов анализа.
Вот что удалось найти:
- Количество датасетов: 61.
- В основном, данные являются академическими/исследовательскими, то есть, датасеты распространяются как обязательства исследователей по опубличиванию результатов.
- К вопросу о том, насколько тщательно надо подходить к формулировке поискового запроса: многое из выдачи имеет мало отношения к образованию, например, мне прилетел датасет об эмигрантах в Хельсинки.
- Страны: большинство наборов данных (27) — из Восточной Азии (оно и понятно, основные датасеты из Японии), 9 — глобальные, 8 - Северная Америка.
- Форматы: .сsv (8), .json — 6, но есть и экзотика в лице .arff (текстовый формат ASCII, никогда с ним не сталкивалась).
### Потенциал Dateno для образовательных исследований
Dateno оказался полезным инструментом. Однако при работе с образовательными датасетами важно учитывать перечисленные выше нюансы. Интересно посмотреть, как представлены статистические наблюдения об образовании,
Гипотеза о потенциале Dateno для анализа данных вокруг образования, подтвердилась. Это хороший инструмент для того, понять, как датафицирована та или иная сфера исследований образования.
Dateno
Dateno - datasets search engine
A next-generation data search service provides fast, comprehensive access to open datasets worldwide, with powerful filters and an API-first architecture for seamless integration.
Мне вот тоже хочется поисследовать что там у нас уже набралось в Dateno, а то всё репощу исследования других, что тоже интересно, конечно.
Я, для поиска чаще всего использую datenocmd, утилитку для запросов с командной строки и, например, недавно искал что у нас с индексацией данных по криптовалютам.
Хорошая новость - датасеты в индексе есть. Не такая хорошая новость - почти это все неактуальные, исторические датасеты опубликованные исследователями в разное время популярности и непопулярности крипты.
Что удивительно, нет ни одной базы индикаторов по крипте. Коммерческих сервисов много, а ни одного центрального банка и ни одного статистического ведомства мне неизвестно которые бы эту инфу публиковали.
Даже в у Банка международных расчётов или ЕЦБ или Евростата этой информации нет, даже в экспериментальной статистике. В общем-то реально серая зона, совершенно за пределами официального статучёта.
Но мы скоро начнём добавлять эти данные в Dateno, все что найдём;)
#opendata #datasets #crypto
Я, для поиска чаще всего использую datenocmd, утилитку для запросов с командной строки и, например, недавно искал что у нас с индексацией данных по криптовалютам.
Хорошая новость - датасеты в индексе есть. Не такая хорошая новость - почти это все неактуальные, исторические датасеты опубликованные исследователями в разное время популярности и непопулярности крипты.
Что удивительно, нет ни одной базы индикаторов по крипте. Коммерческих сервисов много, а ни одного центрального банка и ни одного статистического ведомства мне неизвестно которые бы эту инфу публиковали.
Даже в у Банка международных расчётов или ЕЦБ или Евростата этой информации нет, даже в экспериментальной статистике. В общем-то реально серая зона, совершенно за пределами официального статучёта.
Но мы скоро начнём добавлять эти данные в Dateno, все что найдём;)
#opendata #datasets #crypto
Довольно неожиданный шаг со стороны испанского регулятора.
Вышел Проект Королевского указа, регулирующего выдачу расширенных коллективных лицензий на массовое использование работ и услуг, защищенных правами интеллектуальной собственности, для разработки моделей искусственного интеллекта общего назначения.[1]
Фактически разработчикам ИИ хотят дать право использовать интеллектуальную собственность через коллективные лицензии. Очень интересно как это будет развиваться, выйдет ли/уже выходит ли на наднациональные рамки Евросоюза и
как сами правообладатели к этому отнесутся.
Ссылки:
[1] https://www.cultura.gob.es/en/servicios-al-ciudadano/informacion-publica/audiencia-informacion-publica/abiertos/2024/concesion-licencias-colectivas.html
#regulation #ai #spain
Вышел Проект Королевского указа, регулирующего выдачу расширенных коллективных лицензий на массовое использование работ и услуг, защищенных правами интеллектуальной собственности, для разработки моделей искусственного интеллекта общего назначения.[1]
Фактически разработчикам ИИ хотят дать право использовать интеллектуальную собственность через коллективные лицензии. Очень интересно как это будет развиваться, выйдет ли/уже выходит ли на наднациональные рамки Евросоюза и
как сами правообладатели к этому отнесутся.
Ссылки:
[1] https://www.cultura.gob.es/en/servicios-al-ciudadano/informacion-publica/audiencia-informacion-publica/abiertos/2024/concesion-licencias-colectivas.html
#regulation #ai #spain
В рубрике закрытых данных в РФ с 2023 года перестал работать домен rosrid.ru на котором были доступны научные работы из ЕГИСУ НИОКТР (Единая государственная информационная система учета. научно-исследовательских, опытно-конструкторских и технологических работ гражданского назначения) и вместо него теперь работает сайт gisnauka.ru [1].
Ещё до обновлений 2022-2023 года в рамках ЕГИСУ НИОКТР публиковались дампы данных/метаданных научных работ. Последнюю выгрузку их в нашу дата платформу Datacrafter мы делали в 2021 году [2].
Примерно в 2022-2023 году систему ЕГИСУ НИОКТР обновляли и вместо данных дампов теперь там стали называть открытыми данными статистику. С внедрением Домена наука ничего не изменилось, сами данные недоступны и даже полнотекстовых публикаций там также не находится, хотя и в поиске есть опция их поиска.
Ссылки:
[1] https://gisnauka.ru
[2] https://datacrafter.ru/packages/rosridnew
#opendata #closeddata #russia #openaccess
Ещё до обновлений 2022-2023 года в рамках ЕГИСУ НИОКТР публиковались дампы данных/метаданных научных работ. Последнюю выгрузку их в нашу дата платформу Datacrafter мы делали в 2021 году [2].
Примерно в 2022-2023 году систему ЕГИСУ НИОКТР обновляли и вместо данных дампов теперь там стали называть открытыми данными статистику. С внедрением Домена наука ничего не изменилось, сами данные недоступны и даже полнотекстовых публикаций там также не находится, хотя и в поиске есть опция их поиска.
Ссылки:
[1] https://gisnauka.ru
[2] https://datacrafter.ru/packages/rosridnew
#opendata #closeddata #russia #openaccess
Читаю в Российской газете про идею создания научного дата-хаба [1] и думаю как это прокомментировать.
Начну с того что для его создания регулирования не нужно, необходимо лишь чтобы ключевые органы власти и ряд учреждений сдали бы туда данные и чтобы ими можно было пользоваться. Это вопрос не регулирования, а как принято говорить "политической воли" или, если угодно, "государственного насилия" в отношении государственных же структур не участвующих в обмене данными.
И поэтому, разговоры про регулирование стоит воспринимать как опасный звоночек потому что не имея возможность потребовать от госорганов и госкорпораций данные, пр-во начнет регулировать бизнес сдавать данные в этот дата хаб. Вот тут регулирование нужно в полный рост, но это уже плохая форма государственного принуждения, выгодная только ограниченному числу ИИ компаний и ряду госорганов.
Ссылки:
[1] https://rg.ru/2024/11/25/rossijskij-ii-obuchat-na-otechestvennyh-dannyh.html
#opendata #data #ai #regulation #russia
Начну с того что для его создания регулирования не нужно, необходимо лишь чтобы ключевые органы власти и ряд учреждений сдали бы туда данные и чтобы ими можно было пользоваться. Это вопрос не регулирования, а как принято говорить "политической воли" или, если угодно, "государственного насилия" в отношении государственных же структур не участвующих в обмене данными.
И поэтому, разговоры про регулирование стоит воспринимать как опасный звоночек потому что не имея возможность потребовать от госорганов и госкорпораций данные, пр-во начнет регулировать бизнес сдавать данные в этот дата хаб. Вот тут регулирование нужно в полный рост, но это уже плохая форма государственного принуждения, выгодная только ограниченному числу ИИ компаний и ряду госорганов.
Ссылки:
[1] https://rg.ru/2024/11/25/rossijskij-ii-obuchat-na-otechestvennyh-dannyh.html
#opendata #data #ai #regulation #russia
Свежее регулирование выдачи сертификатов российского НУЦ [1] предполагающее выдачу сертификатов национального удостоверяющего центра веб сайтам/сервисам и это к вопросу о том когда сайты российских госорганов и госучреждений начнут выпадать из поисковиков Google, Bing, а также более не архивироваться в Интернет Архиве.
Из интернет архива многие госсайты уже повыпадали [2] [3] [4] и многие другие могут исчезнуть в будущем.
Я бы сказал что уже давно переходить к архивации всех сайтов российских госорганов, но задача эта не только трудоёмкая, но и финансово затратная - на оборудование и на хранение, пока мы своими силами в рамках Национального цифрового архива [5] не решили. Нехватает времени/ресурсов даже нормальный каталог заархивированного сделать.
Но острота проблемы с недоступностью и потенциальной потерей контента не снимается.
Ссылки:
[1] https://t.iss.one/ep_uc/2981
[2] https://web.archive.org/web/20240000000000*/https://minjust.gov.ru
[3] https://web.archive.org/web/20240000000000*/https://rkomi.ru
[4] https://web.archive.org/web/20240000000000*/https://www.mnr.gov.ru
[5] https://ruarxive.org
#digitalpreservation #webarchival #russia
Из интернет архива многие госсайты уже повыпадали [2] [3] [4] и многие другие могут исчезнуть в будущем.
Я бы сказал что уже давно переходить к архивации всех сайтов российских госорганов, но задача эта не только трудоёмкая, но и финансово затратная - на оборудование и на хранение, пока мы своими силами в рамках Национального цифрового архива [5] не решили. Нехватает времени/ресурсов даже нормальный каталог заархивированного сделать.
Но острота проблемы с недоступностью и потенциальной потерей контента не снимается.
Ссылки:
[1] https://t.iss.one/ep_uc/2981
[2] https://web.archive.org/web/20240000000000*/https://minjust.gov.ru
[3] https://web.archive.org/web/20240000000000*/https://rkomi.ru
[4] https://web.archive.org/web/20240000000000*/https://www.mnr.gov.ru
[5] https://ruarxive.org
#digitalpreservation #webarchival #russia
Telegram
Об ЭП и УЦ
⚡️Сертификат безопасности национального удостоверяющего центра
Именно с таким названием в Законе об электронной подписи появится статья под номером 18.3 для закрепления выдачи сертификатов безопасности национальным удостоверяющим центром. Минцифры разработан…
Именно с таким названием в Законе об электронной подписи появится статья под номером 18.3 для закрепления выдачи сертификатов безопасности национальным удостоверяющим центром. Минцифры разработан…
В продолжение текста о том как искать данные в принципе, поговорим о том где искать геоданные. С геоданными, всё, и лучше, и хуже, но важнее то что всё по другому. Иногда очень по другому.
Первое что важно знать это то что геоданные не индексируются Google Dataset Search и большей частью поисковиков которые я ранее не упоминал. Очень часто геоданные находятся, в принципе, за пределами обычного поиска и искать их необходимо в специальных каталогах и специальных сервисах.
Конечно, в первую очередь я порекомендую Dateno ;) где проиндексировано более чем 5.5 миллионов геоданных-ресурсов из геопорталов, практически по всем странам.
Но есть и другие источники:
- Geoseer - единственный известный мне поисковик по геоданным. Чем-то похож на Dateno, а Dateno на него. Охватывает 3.5 миллиона точек с гео API, в основном WMS, WFS, WCS и WMTS.
- ArcGIS Hub - портал открытых данных на базе платформы ArcGIS, охватывает все экземпляры порталов с открытыми данными на базе облачного сервиса ArcGIS
- ArcGIS Search - поисковик от ArcGIS по всем общедоступным ресурсам на их геосерверах. Шире чем поиск ArcGIS Hub, охватывает не только цифровые слои, но и другие геоартефакты
- Spatial Data Catalog - каталог данных от Carto, более 11 тысяч наборов данных удобных для интеграции с их платформой. Примерно 2/3 данных доступны только за деньги, считаются premium data
- Spatineo Directory - не каталог данных, но каталог источников геоданных, геосерверов. Можно найти нужны сервер и искать уже в нём.
А также стоит обратить внимание на порталы США: geoplatform.gov, sciencebase.gov и Европы data.europe.eu, где тоже много геоданных
Источников геоданных куда больше, это только основные ресурсы. А есть ещё базы спутниковых снимков, интерфейсы доступа к ним через стандарт STAC и многое другое. Об этом я регулярно пишу и ещё напишу здесь.
#opendata #geodata #datacatalogs
Первое что важно знать это то что геоданные не индексируются Google Dataset Search и большей частью поисковиков которые я ранее не упоминал. Очень часто геоданные находятся, в принципе, за пределами обычного поиска и искать их необходимо в специальных каталогах и специальных сервисах.
Конечно, в первую очередь я порекомендую Dateno ;) где проиндексировано более чем 5.5 миллионов геоданных-ресурсов из геопорталов, практически по всем странам.
Но есть и другие источники:
- Geoseer - единственный известный мне поисковик по геоданным. Чем-то похож на Dateno, а Dateno на него. Охватывает 3.5 миллиона точек с гео API, в основном WMS, WFS, WCS и WMTS.
- ArcGIS Hub - портал открытых данных на базе платформы ArcGIS, охватывает все экземпляры порталов с открытыми данными на базе облачного сервиса ArcGIS
- ArcGIS Search - поисковик от ArcGIS по всем общедоступным ресурсам на их геосерверах. Шире чем поиск ArcGIS Hub, охватывает не только цифровые слои, но и другие геоартефакты
- Spatial Data Catalog - каталог данных от Carto, более 11 тысяч наборов данных удобных для интеграции с их платформой. Примерно 2/3 данных доступны только за деньги, считаются premium data
- Spatineo Directory - не каталог данных, но каталог источников геоданных, геосерверов. Можно найти нужны сервер и искать уже в нём.
А также стоит обратить внимание на порталы США: geoplatform.gov, sciencebase.gov и Европы data.europe.eu, где тоже много геоданных
Источников геоданных куда больше, это только основные ресурсы. А есть ещё базы спутниковых снимков, интерфейсы доступа к ним через стандарт STAC и многое другое. Об этом я регулярно пишу и ещё напишу здесь.
#opendata #geodata #datacatalogs
Telegram
Ivan Begtin
К вопросу о том как и где искать данные, в качестве регулярного напоминания:
Поисковые системы по данным
- Dateno - поисковая система по всем видам наборов данных, геоданных и научных данных, агрегирует их из более чем 5 тысяч каталогов данных, включает…
Поисковые системы по данным
- Dateno - поисковая система по всем видам наборов данных, геоданных и научных данных, агрегирует их из более чем 5 тысяч каталогов данных, включает…
Forwarded from Privacy Advocates
🇺🇸 Microsoft утверждает, что не использует документы Office для обучения ИИ-моделей
🔸Microsoft заявила, что не использует данные пользователей из приложений Microsoft 365 для обучения своих моделей искусственного интеллекта (ИИ). Заявление сделано в ответ на появившиеся в последние недели сообщения о том, что компания якобы требует от пользователей Word и Excel отказаться от использования их данных для обучения ИИ.
🔸Вопрос возник из-за настроек конфиденциальности в Microsoft Office, в которых включена опция «дополнительные подключаемые функции». Эта функция позволяет, например, «искать изображения в Интернете» или «находить доступную в сети информацию». По умолчанию эта опция включена, но в описании не упоминается, что она используется для обучения ИИ. Кроме того, документ Microsoft от 21 октября 2024 года усилил путаницу, перечисляя «подключаемые функции», которые «анализируют ваш контент», без явного исключения обучения на базе больших языковых моделей (LLM).
🔸Microsoft заявила, что не использует данные пользователей из приложений Microsoft 365 для обучения своих моделей искусственного интеллекта (ИИ). Заявление сделано в ответ на появившиеся в последние недели сообщения о том, что компания якобы требует от пользователей Word и Excel отказаться от использования их данных для обучения ИИ.
🔸Вопрос возник из-за настроек конфиденциальности в Microsoft Office, в которых включена опция «дополнительные подключаемые функции». Эта функция позволяет, например, «искать изображения в Интернете» или «находить доступную в сети информацию». По умолчанию эта опция включена, но в описании не упоминается, что она используется для обучения ИИ. Кроме того, документ Microsoft от 21 октября 2024 года усилил путаницу, перечисляя «подключаемые функции», которые «анализируют ваш контент», без явного исключения обучения на базе больших языковых моделей (LLM).
В качестве регулярных напоминаний о том что чем занимаюсь я лично и команды Инфокультуры, Dateno и Open Data Armenia.
Международное
- Dateno - глобальная поисковая система по данным, охватывает все страны мира и 19 миллионов датасетов. Большой-маленький международный стартап помогающий находить данные по всем возможным темам. А также с открытым кодом ряда компонентов в репозиториях commondataio и dateno и реестр каталогов данных Dateno registry
- Data Catalog Armenia - общественный каталог открытых данных по Армении, пока нет государственного единственный такой каталог данных в стране. Включая открытые репозитория кода сбора данных opendataam
Проекты в России/связанные с Россией
- Хаб открытых данных - общественный портал открытых данных со множеством датасетов. Из-за наплыва спамеров пришлось закрыть в нем свободную регистрацию, но всем желающим публиковать данные всегда можем дать такую возможность.
- Госзатраты - проект по сбору и публикации всех данных о государственных и муниципальных контрактах в РФ. Включая открытое API и открытые данные. Большие данные, за более чем 10 лет.
- Ruarxive - национальный цифровой архив России, архивы всех потенциально исчезающих сайтов госорганов, организаций, НКО и отдельных проектов. Постоянно не хватает ресурсов чтобы охватить всё что хочется, потому что исчезает всё постоянно.
- OpenNGO - база по всем некоммерческим организациям в России. По всем - это всем, не только социально ориентированным. Там есть и госНКО, и университеты и тд. Включает открытые данные и открытое API.
- Datacatalogs.ru - портал каталога каталогов данных который мы делали до Dateno и до реестра каталогов данных Dateno. Только российские ресурсы и стран постсоветского пространства, включает не только "чистые" каталоги данных, но и порталы открытого бюджета, к примеру, как то что каталогами данных не является, но могло бы быть.
- Plain Russian - сервис проверки русского языка на простоту. Скорее всего скоро будет неактуальным из-за развития LLM, тем не менее, он существует, работает, полезен.
P.S. А также есть многие проекты которые ещё в работе, или подвисли, или требуют актуализации, или представленные только в виде документов или открытого кода, о них в следующий раз
#opendata #data
Международное
- Dateno - глобальная поисковая система по данным, охватывает все страны мира и 19 миллионов датасетов. Большой-маленький международный стартап помогающий находить данные по всем возможным темам. А также с открытым кодом ряда компонентов в репозиториях commondataio и dateno и реестр каталогов данных Dateno registry
- Data Catalog Armenia - общественный каталог открытых данных по Армении, пока нет государственного единственный такой каталог данных в стране. Включая открытые репозитория кода сбора данных opendataam
Проекты в России/связанные с Россией
- Хаб открытых данных - общественный портал открытых данных со множеством датасетов. Из-за наплыва спамеров пришлось закрыть в нем свободную регистрацию, но всем желающим публиковать данные всегда можем дать такую возможность.
- Госзатраты - проект по сбору и публикации всех данных о государственных и муниципальных контрактах в РФ. Включая открытое API и открытые данные. Большие данные, за более чем 10 лет.
- Ruarxive - национальный цифровой архив России, архивы всех потенциально исчезающих сайтов госорганов, организаций, НКО и отдельных проектов. Постоянно не хватает ресурсов чтобы охватить всё что хочется, потому что исчезает всё постоянно.
- OpenNGO - база по всем некоммерческим организациям в России. По всем - это всем, не только социально ориентированным. Там есть и госНКО, и университеты и тд. Включает открытые данные и открытое API.
- Datacatalogs.ru - портал каталога каталогов данных который мы делали до Dateno и до реестра каталогов данных Dateno. Только российские ресурсы и стран постсоветского пространства, включает не только "чистые" каталоги данных, но и порталы открытого бюджета, к примеру, как то что каталогами данных не является, но могло бы быть.
- Plain Russian - сервис проверки русского языка на простоту. Скорее всего скоро будет неактуальным из-за развития LLM, тем не менее, он существует, работает, полезен.
P.S. А также есть многие проекты которые ещё в работе, или подвисли, или требуют актуализации, или представленные только в виде документов или открытого кода, о них в следующий раз
#opendata #data
В Буэнос-Айресе в Аргентине судьи начали применять ИИ для подготовки судебных решений [1]. Специальная система PROMETEA обучена на на более чем 300 тысячах правилах и документах и за 20 секунд принимает решения с 90% точностью. При этом ни одно решение не принимается автоматически, каждое является черновиком который вычитывается юристом и только после его одобрения становится финальным решением.
Особенность в том что система применяется не для всех, а для многочисленные налоговых и административных разбирательств, которые, в основном, довольно стандартизируемы или предсказуемы. ИИ система является помощником судей, а не их заменителем.
И это поднимает вопрос о том к чему может привести и, с высокой вероятностью, приведет при внедрении ИИ в судебный процесс. Это массовые сокращения вспомогательного персонала в судах и изменение самого принципа работы судов. Хорошо это или плохо? Пока говорить рано.
А подробнее про систему PROMETEA можно прочитать в официальном отчете [2].
Ссылки:
[1] https://restofworld.org/2024/buenos-aires-courts-adopt-chatgpt-draft-rulings/
[2] https://mpfciudad.gob.ar//storage/archivos/9c8074a610f82c7ff0b47bbb1a2abee9.pdf
#ai #courts #argentina #privacy
Особенность в том что система применяется не для всех, а для многочисленные налоговых и административных разбирательств, которые, в основном, довольно стандартизируемы или предсказуемы. ИИ система является помощником судей, а не их заменителем.
И это поднимает вопрос о том к чему может привести и, с высокой вероятностью, приведет при внедрении ИИ в судебный процесс. Это массовые сокращения вспомогательного персонала в судах и изменение самого принципа работы судов. Хорошо это или плохо? Пока говорить рано.
А подробнее про систему PROMETEA можно прочитать в официальном отчете [2].
Ссылки:
[1] https://restofworld.org/2024/buenos-aires-courts-adopt-chatgpt-draft-rulings/
[2] https://mpfciudad.gob.ar//storage/archivos/9c8074a610f82c7ff0b47bbb1a2abee9.pdf
#ai #courts #argentina #privacy
Rest of World
Courts in Buenos Aires are using ChatGPT to draft rulings
Generative AI is replacing a successful AI project that drafted legal rulings. Experts worry about data privacy, ethical quandaries, and the need for specialized training.
Написал большой текст про особенности российской официальной статистики
Российская статистика: немашиночитаемая институциональная фрагментация
в этот раз там не столько про машиночитаемость, и даже не столько про цифровизацию Росстата, сколько про его территориальные подразделения и про гигантское дробление данных и публикаций которые они создают.
Я не стал этого добавлять в большой текст, добавлю здесь. В среднем на сайте терр. органа Росстата опубликовано от 500 до 2000 документов, примерно такое же число публикаций выпущенных ими на бумаге. Если все эти документы собрать вместе то был бы каталог от 50 до 200 тысяч статистических публикаций и это было бы даже каталогом данных, наполовину,уж точно.
Но этого никогда не будет до тех пор пока подразделения Росстата торгуют данными.
#opendata #data #statistics #russia
Российская статистика: немашиночитаемая институциональная фрагментация
в этот раз там не столько про машиночитаемость, и даже не столько про цифровизацию Росстата, сколько про его территориальные подразделения и про гигантское дробление данных и публикаций которые они создают.
Я не стал этого добавлять в большой текст, добавлю здесь. В среднем на сайте терр. органа Росстата опубликовано от 500 до 2000 документов, примерно такое же число публикаций выпущенных ими на бумаге. Если все эти документы собрать вместе то был бы каталог от 50 до 200 тысяч статистических публикаций и это было бы даже каталогом данных, наполовину,уж точно.
Но этого никогда не будет до тех пор пока подразделения Росстата торгуют данными.
#opendata #data #statistics #russia
Оказывается вышел пре-релиз версии 6.0 библиотеки Plotly для визуализации данных [1] самое интересное там это то что они перешли на библиотеку Narwhals [2] которая позволяет работать с условно любой библиотекой для датафреймов и сохранять совместимость с pandas. Например, это такие библиотеки как: cuDF, Modin, pandas, Polars, PyArrow
Собственно и автор Plotly пишет про то что для не-pandas датафреймов всё ускоряется в 2-3 раза [3].
По всем параметрам хорошая штука, надо использовать на практике.
Ссылки:
[1] https://github.com/plotly/plotly.py/releases/tag/v6.0.0rc0
[2] https://github.com/narwhals-dev/narwhals
[3] https://www.linkedin.com/posts/marcogorelli_plotly-60-%F0%9D%90%A9%F0%9D%90%AB%F0%9D%90%9E%F0%9D%90%AB%F0%9D%90%9E%F0%9D%90%A5%F0%9D%90%9E%F0%9D%90%9A%F0%9D%90%AC%F0%9D%90%9E-is-out-activity-7267885615096991744-2ORl?utm_source=share&utm_medium=member_desktop
#opensource #dataviz #dataframes
Собственно и автор Plotly пишет про то что для не-pandas датафреймов всё ускоряется в 2-3 раза [3].
По всем параметрам хорошая штука, надо использовать на практике.
Ссылки:
[1] https://github.com/plotly/plotly.py/releases/tag/v6.0.0rc0
[2] https://github.com/narwhals-dev/narwhals
[3] https://www.linkedin.com/posts/marcogorelli_plotly-60-%F0%9D%90%A9%F0%9D%90%AB%F0%9D%90%9E%F0%9D%90%AB%F0%9D%90%9E%F0%9D%90%A5%F0%9D%90%9E%F0%9D%90%9A%F0%9D%90%AC%F0%9D%90%9E-is-out-activity-7267885615096991744-2ORl?utm_source=share&utm_medium=member_desktop
#opensource #dataviz #dataframes
Graphic Walker [1] ещё один симпатичный инструмент для анализа и визуализации данных позиционируемый как альтернатива Tableau.
На его основе работает GWalkR [2] инструмент для Exploratory Data Analysis (EDA) на языке R что хорошо встраивается в R Notebook и иные встроенные способы визуализации.
Ссылки:
[1] https://github.com/Kanaries/graphic-walker
[2] https://github.com/Kanaries/GWalkR
#opensource #dataviz #dataanalysis
На его основе работает GWalkR [2] инструмент для Exploratory Data Analysis (EDA) на языке R что хорошо встраивается в R Notebook и иные встроенные способы визуализации.
Ссылки:
[1] https://github.com/Kanaries/graphic-walker
[2] https://github.com/Kanaries/GWalkR
#opensource #dataviz #dataanalysis