Где искать геоданные? Поскольку наша команда создает поисковик по данным Dateno, то, конечно же, с Dateno и стоит начать😉
Однако поиск геоданных это куда более сложная задача чем может показаться. Геопорталов в мире очень много и фрагментация геоданных очень высокая и далеко не все они попадают каталоги порталов открытых данных или научных репозиториев.
Помимо Dateno геоданные можно искать как минимум в двух поисковых системах: GeoSeer и ArcGIS Hub.
GeoSeer - это совсем маленький стартапчик позволяющий искать по точкам подключения к OGC совместимым сервисам (WMS, WFS, WMTS и тд.). Всего там заявляется 3.5 миллиона слоёв большая часть которых собрана через геопорталы на базе Geonetwork. У GeoSeer весьма ограниченный поиск, без фасетов и ИМХО, он скорее неудобный чем удобный, но тем не менее.
ArcGIS Hub - это сервис от крупнейшего провайдера геосервисов в мире, компании ArcGIS. Их Hub - это поисковик по порталам и по данным порталов открытых данных и геоданных которые пользователи облачных сервисов делали общедоступными. Это более 25 тысяч подсайтов, и около 300 тысяч слоёв карт, данных и документов.
Во всех случаях при работе с геоданными очень серьёзная проблема с дефицитом метаданных. Их объективно мало, при подключении к серверам GeoServer или корпоративным версиям ArcGIS их чаще нет, но, тем не менее, поиск по данным возможен и необходим.
Dateno всё ещё неидеален для поиска геоданных, но мы работаем над этим (с) и внимательно анализируем похожие сервисы.
#opendata #datasets #geodata #search
Однако поиск геоданных это куда более сложная задача чем может показаться. Геопорталов в мире очень много и фрагментация геоданных очень высокая и далеко не все они попадают каталоги порталов открытых данных или научных репозиториев.
Помимо Dateno геоданные можно искать как минимум в двух поисковых системах: GeoSeer и ArcGIS Hub.
GeoSeer - это совсем маленький стартапчик позволяющий искать по точкам подключения к OGC совместимым сервисам (WMS, WFS, WMTS и тд.). Всего там заявляется 3.5 миллиона слоёв большая часть которых собрана через геопорталы на базе Geonetwork. У GeoSeer весьма ограниченный поиск, без фасетов и ИМХО, он скорее неудобный чем удобный, но тем не менее.
ArcGIS Hub - это сервис от крупнейшего провайдера геосервисов в мире, компании ArcGIS. Их Hub - это поисковик по порталам и по данным порталов открытых данных и геоданных которые пользователи облачных сервисов делали общедоступными. Это более 25 тысяч подсайтов, и около 300 тысяч слоёв карт, данных и документов.
Во всех случаях при работе с геоданными очень серьёзная проблема с дефицитом метаданных. Их объективно мало, при подключении к серверам GeoServer или корпоративным версиям ArcGIS их чаще нет, но, тем не менее, поиск по данным возможен и необходим.
Dateno всё ещё неидеален для поиска геоданных, но мы работаем над этим (с) и внимательно анализируем похожие сервисы.
#opendata #datasets #geodata #search
👍12❤5❤🔥2🔥2
Для тех кто любит гиперлокальные данные, наконец-то доступны в открытом доступе наборы данных с хакатона СберИндекс.
Все данные в виде Parquet файлов
- Потребительские расходы на уровне МО: 8_consumption.parquet
- Индекс доступности рынков на уровне МО: 1_market_access.parquet
- Данные Росстата
- Население МО: 2_bdmo_population.parquet
- Миграция по МО: 3_bdmo_migration.parquet
- Заработная плата по МО: 4_bdmo_salary.parquet
- Автодорожные связи между МО: 5_connection.parquet
Там же можно увидеть результаты хакатона и команды победители. Я вот жалею что уже много лет участвую в таких мероприятиях только как организатор или ментор или член жюри. Сами данные куда интереснее.
Поскольку лично я очень люблю муниципальные данные, которые хотя бы чуть-чуть хорошие, то если Вы делаете что-то на муниципальных данных или использовали данные СберИндекса (и других источников) и, желательно, делали работу с открытым кодом, то пишите мне, с удовольствием расскажу об этом здесь в телеграм канале.
#opendata #dataviz #datasets #localdata
Все данные в виде Parquet файлов
- Потребительские расходы на уровне МО: 8_consumption.parquet
- Индекс доступности рынков на уровне МО: 1_market_access.parquet
- Данные Росстата
- Население МО: 2_bdmo_population.parquet
- Миграция по МО: 3_bdmo_migration.parquet
- Заработная плата по МО: 4_bdmo_salary.parquet
- Автодорожные связи между МО: 5_connection.parquet
Там же можно увидеть результаты хакатона и команды победители. Я вот жалею что уже много лет участвую в таких мероприятиях только как организатор или ментор или член жюри. Сами данные куда интереснее.
Поскольку лично я очень люблю муниципальные данные, которые хотя бы чуть-чуть хорошие, то если Вы делаете что-то на муниципальных данных или использовали данные СберИндекса (и других источников) и, желательно, делали работу с открытым кодом, то пишите мне, с удовольствием расскажу об этом здесь в телеграм канале.
#opendata #dataviz #datasets #localdata
sberindex.ru
Data → Sense: Результаты Хакатона СберИндекса по муниципальным данным
7 июня прошел Хакатон Лаборатории СберИндекс Data -> Sense, посвященный муниципальным данным
❤🔥9👍6⚡4❤3👌2
The Common Pile v0.1: An 8TB Dataset of Public Domain and Openly Licensed Text [1] для тех кому нужны большие данные для обучения ИИ. По ссылке статья и другие материалы про этот набор данных в 8 терабайт текстов.
Это если не крупнейший, то один из крупнейших наборов данных с текстами под разрешающими использование лицензиями (все, конечно, понимают что реально для ИИ используют не только разрешённое, но тем не менее).
Большая часть источников это:
- каталоги статей открытого доступа
- проекты Фонда Викимедия (Википедия и тд)
- открытые патентные базы
- базы судебных решений США
- базы книг до 1929 года
В основном все материалы на английском языке и происходящие из США. Более 30 источников.
Ссылки:
[1] https://huggingface.co/papers/2506.05209
#opendata #datasets #ai
Это если не крупнейший, то один из крупнейших наборов данных с текстами под разрешающими использование лицензиями (все, конечно, понимают что реально для ИИ используют не только разрешённое, но тем не менее).
Большая часть источников это:
- каталоги статей открытого доступа
- проекты Фонда Викимедия (Википедия и тд)
- открытые патентные базы
- базы судебных решений США
- базы книг до 1929 года
В основном все материалы на английском языке и происходящие из США. Более 30 источников.
Ссылки:
[1] https://huggingface.co/papers/2506.05209
#opendata #datasets #ai
huggingface.co
Paper page - The Common Pile v0.1: An 8TB Dataset of Public Domain and Openly
Licensed Text
Licensed Text
Join the discussion on this paper page
🔥7❤1
Заработала пилотная инфраструктура Европейского консорциума Open Web Search по созданию открытого европейского поисковика [1] всё под эгидой цифрового суверенитета Евросоюза, дословно - Europe’s Independence in Web Search.
Партнеры консорциума это 14 исследовательских центров и компаний включая CERN которые выпустили об этом пресс-релиз с подробностями [2].
У проекта есть открытая визуальная панель из которой можно узнать что:
- собрано данных на 1PB и из них сформирован индекс размером чуть менее 28TB
- опубликовано 615 общедоступных наборов данных
- 38% всего проиндексированного на английском языке
Исходный код доступен в открытых репозиториях [3]
Пока проект больше напоминает Common Crawl чем поиск Google или Bing, но даже так выглядит он любопытно, особенно когда будет доступно полноценное API для поиска.
Ссылки;
[1] https://openwebsearch.eu/
[2] https://home.cern/news/news/computing/european-project-make-web-search-more-open-and-ethical
[3] https://opencode.it4i.eu/openwebsearcheu-public/
#opendata #datasets #websearch #europe
Партнеры консорциума это 14 исследовательских центров и компаний включая CERN которые выпустили об этом пресс-релиз с подробностями [2].
У проекта есть открытая визуальная панель из которой можно узнать что:
- собрано данных на 1PB и из них сформирован индекс размером чуть менее 28TB
- опубликовано 615 общедоступных наборов данных
- 38% всего проиндексированного на английском языке
Исходный код доступен в открытых репозиториях [3]
Пока проект больше напоминает Common Crawl чем поиск Google или Bing, но даже так выглядит он любопытно, особенно когда будет доступно полноценное API для поиска.
Ссылки;
[1] https://openwebsearch.eu/
[2] https://home.cern/news/news/computing/european-project-make-web-search-more-open-and-ethical
[3] https://opencode.it4i.eu/openwebsearcheu-public/
#opendata #datasets #websearch #europe
🔥9❤2
В рубрике доступных открытых геоданных в России:
- Открытые данные Енисей-ГИС - каталог геоданных, включая Shape файлы и точки подключения к сервисам WMS в ГИС Красноярского края - Енисей ГИС. Набрров данных несколько десятков и несколько десятков слоёв карт доступных через WMS сервисы
- Геопортал СВКНИИ ДВО РАН каталог геоданных на базе Esri Geoportal, включает 34 ресурса в виде ссылок на слои карт в разных ArcGIS серверах.
- Общедоступный ArcGIS сервер Мурманской области - над ним ещё был геопортал, но он закрылся или переехал, а сервисы со слоями карт ArcGIS REST остались
- Геосервер Института водных и экологических проблем СО РАН - слои карт в виде WMS и WFS сервисов
- Геосервер ФГБУ "ДВНИГМИ" - геоданные по морским территориям Дальнего Востока, также WMS и WFS сервисы
- Геосервер Центра по проблемам экологии и продуктивности лесов РА - слои карты и WMS/WFS сервисы
#opendata #geodata #datasets #maps
- Открытые данные Енисей-ГИС - каталог геоданных, включая Shape файлы и точки подключения к сервисам WMS в ГИС Красноярского края - Енисей ГИС. Набрров данных несколько десятков и несколько десятков слоёв карт доступных через WMS сервисы
- Геопортал СВКНИИ ДВО РАН каталог геоданных на базе Esri Geoportal, включает 34 ресурса в виде ссылок на слои карт в разных ArcGIS серверах.
- Общедоступный ArcGIS сервер Мурманской области - над ним ещё был геопортал, но он закрылся или переехал, а сервисы со слоями карт ArcGIS REST остались
- Геосервер Института водных и экологических проблем СО РАН - слои карт в виде WMS и WFS сервисов
- Геосервер ФГБУ "ДВНИГМИ" - геоданные по морским территориям Дальнего Востока, также WMS и WFS сервисы
- Геосервер Центра по проблемам экологии и продуктивности лесов РА - слои карты и WMS/WFS сервисы
#opendata #geodata #datasets #maps
👌10✍1
В рубрике как это устроено у них каталог данных океанографических кампаний Франции [1] публикуемых Ifremer, исследовательским центром Франции по изучению океанов.
Всего более 355 тысяч наборов данных из которых общедоступны чуть менее 21 тысячи и остальные доступны по запросу. Самые ранние датасеты датируются 1909 годом.
Из плюсов;
- большой объём опубликованных наборов данных
- наличие API, хотя и недокументированного
- возможность поиска данных в выбранной географической территории
- свободные лицензии CC-BY на все открытые данные
- данные не только французских кампаний, но и иных финансируемых Францией или полученных от организаций партнеров
Из минусов:
- у датасетов нет DOI, нет постоянных ссылок
- выгрузка даже открытых данных идёт через "корзину", когда ты выбираешь датасеты, оставляешь контактные данные и лишь потом можешь скачать их
Ссылки:
[1] https://donnees-campagnes.flotteoceanographique.fr
#opendata #datasets #data #oceans #france
Всего более 355 тысяч наборов данных из которых общедоступны чуть менее 21 тысячи и остальные доступны по запросу. Самые ранние датасеты датируются 1909 годом.
Из плюсов;
- большой объём опубликованных наборов данных
- наличие API, хотя и недокументированного
- возможность поиска данных в выбранной географической территории
- свободные лицензии CC-BY на все открытые данные
- данные не только французских кампаний, но и иных финансируемых Францией или полученных от организаций партнеров
Из минусов:
- у датасетов нет DOI, нет постоянных ссылок
- выгрузка даже открытых данных идёт через "корзину", когда ты выбираешь датасеты, оставляешь контактные данные и лишь потом можешь скачать их
Ссылки:
[1] https://donnees-campagnes.flotteoceanographique.fr
#opendata #datasets #data #oceans #france
✍4❤2
В рубрике как это устроено у них, согласно реестру Dateno в Великобритании не менее 174 каталогов данных создано университетами и другими исследовательскими центрами для публикации исследовательских данных. Большинство из них используют для этого сервис Figshare и такие продукты как Elsvier Pure и ePrints. В большинстве случаев публикация данных сочетается с раскрытием других результатов научной деятельности: статьями, изображениями, приложениями к статьям, книгами и так далее.
Это больше чем общее число каталогов данных во многих странах. Пока лишь малая их часть, 13 каталогов индексируется в Dateno где собрано чуть менее 140 тысяч наборов данных поскольку значительная часть этих каталогов не предоставляют простых интерфейсов для индексирования данных. Figshare - это коммерческий провайдер, а многие другие каталоги поддерживают только стандарт OAI-PHM имеющий существенные ограничения, он не позволяет индексировать записи определённого типа (dataset) и не даёт простой возможности индексации ресурсов (файлов) связанных с наборами данных.
Это не является ограничением для таких агрегаторов как OpenAIRE поскольку они собирают все результаты научной деятельности, но ограничивает Dateno индексация в котором ограничена только наборами данных.
Второй важный фактор - это то что в последние годы многие научные данные загружаются сразу в облачные сервисы вроде data.mendeley.com или zenodo.org, а в институциональных репозиториях указаны лишь ссылки на них и, опять же, отсутствуют ссылки на файлы, остаются только ссылки на карточки датасетов в других ресурсах.
Однако даже при этом цифры в Dateno сопоставимы с индексом OpenAIRE где к Великобритании отнесены 168 тысяч наборов данных, но и среди них многое что помечено как "Dataset" там является просто цифровыми объектами отличающимися от научных статей, например, фотографии и презентации.
Можно было бы OpenAIRE использовать как референсный ориентир при индексировании наборов данных, но и он, увы, сильно неполон.
По моим оценкам всего в Великобритании от 300 до 500 тысяч исследовательских наборов данных рассеянных по сотням репозиториям научных данных и облачным сервисам. Постепенно они будут проиндексированы в Dateno, а пока можно констатировать что индексировать каталоги открытых данных и базы статистики гораздо проще в плане количества проиндексированных наборов данных.
#thoughts #dateno #datasets
Это больше чем общее число каталогов данных во многих странах. Пока лишь малая их часть, 13 каталогов индексируется в Dateno где собрано чуть менее 140 тысяч наборов данных поскольку значительная часть этих каталогов не предоставляют простых интерфейсов для индексирования данных. Figshare - это коммерческий провайдер, а многие другие каталоги поддерживают только стандарт OAI-PHM имеющий существенные ограничения, он не позволяет индексировать записи определённого типа (dataset) и не даёт простой возможности индексации ресурсов (файлов) связанных с наборами данных.
Это не является ограничением для таких агрегаторов как OpenAIRE поскольку они собирают все результаты научной деятельности, но ограничивает Dateno индексация в котором ограничена только наборами данных.
Второй важный фактор - это то что в последние годы многие научные данные загружаются сразу в облачные сервисы вроде data.mendeley.com или zenodo.org, а в институциональных репозиториях указаны лишь ссылки на них и, опять же, отсутствуют ссылки на файлы, остаются только ссылки на карточки датасетов в других ресурсах.
Однако даже при этом цифры в Dateno сопоставимы с индексом OpenAIRE где к Великобритании отнесены 168 тысяч наборов данных, но и среди них многое что помечено как "Dataset" там является просто цифровыми объектами отличающимися от научных статей, например, фотографии и презентации.
Можно было бы OpenAIRE использовать как референсный ориентир при индексировании наборов данных, но и он, увы, сильно неполон.
По моим оценкам всего в Великобритании от 300 до 500 тысяч исследовательских наборов данных рассеянных по сотням репозиториям научных данных и облачным сервисам. Постепенно они будут проиндексированы в Dateno, а пока можно констатировать что индексировать каталоги открытых данных и базы статистики гораздо проще в плане количества проиндексированных наборов данных.
#thoughts #dateno #datasets
✍3👌3
242 миллиарда токенов, 384 миллиона страниц, 983 тысячи книг на 254 языках в новом наборе данных для машинного обучения Institutional Books 1.0 [1] опубликованном Библиотекой Гарварда на HuggingFace.
Датасет находится в раннем доступе и требует согласится на его использование только в некоммерческих целях.
К нему, также, доступен технический отчет с подробностями [2]. Большая часть книг в этом наборе данных относятся к 19 и 20 векам, 43% всех токенов относятся к английскому языку, также много относящихся к немецкому 17.3%, французскому 14%, итальянскому 4%, латыни 3.19%, испанскому 2.24%, русскому 2.05%.
Ссылки:
[1] https://huggingface.co/datasets/institutional/institutional-books-1.0
[2] https://arxiv.org/abs/2506.08300
#opendata #datasets #data #ai
Датасет находится в раннем доступе и требует согласится на его использование только в некоммерческих целях.
К нему, также, доступен технический отчет с подробностями [2]. Большая часть книг в этом наборе данных относятся к 19 и 20 векам, 43% всех токенов относятся к английскому языку, также много относящихся к немецкому 17.3%, французскому 14%, итальянскому 4%, латыни 3.19%, испанскому 2.24%, русскому 2.05%.
Ссылки:
[1] https://huggingface.co/datasets/institutional/institutional-books-1.0
[2] https://arxiv.org/abs/2506.08300
#opendata #datasets #data #ai
🔥15
Ещё один доступный источник общедоступных данных монитогринга погоды/климата. Инсталляция WIS 2.0 в Кыргызстане [1]. WIS 2.0 это открытый сервис агргегирующий данные из метеостанций страны и отдающий по стандартизированным протоколам OGC. Этот продукт с открытым кодом распространяет Всемирная метеорологическая организация и он развернут уже более чем в 35 странах мира.
Внутри WIS 2.0 используется Pygeoapi, доступно API для получения метаданных и данных наблюдения.
Конкретно вы Кыргызстане данные собираются с 36 метеостанций.
На постсоветском пространстве аналогичные сервисы есть в Казахстане [2] и Российской Федерации [3]
Ссылки:
[1] https://wis2box.meteo.kg/
[2] https://wis2box.kazhydromet.kz/
[3] https://wis2box.mecom.ru
#opendata #openapi #api #geodata #datasets #kyrgyzstan
Внутри WIS 2.0 используется Pygeoapi, доступно API для получения метаданных и данных наблюдения.
Конкретно вы Кыргызстане данные собираются с 36 метеостанций.
На постсоветском пространстве аналогичные сервисы есть в Казахстане [2] и Российской Федерации [3]
Ссылки:
[1] https://wis2box.meteo.kg/
[2] https://wis2box.kazhydromet.kz/
[3] https://wis2box.mecom.ru
#opendata #openapi #api #geodata #datasets #kyrgyzstan
👍5
В рубрике как это устроено у них каталоги данных по биоразнообразию на базе типового каталога ALA (Atlas of Livinga Australia) разработанного в Австралии и далее используемое сообществами и органами власти по всему миру [1]. Например, в Австрии [2], Австралии [3], Хорватии [4] и ещё более чем в 10 странах.
На этих порталах публикуются как структурированные данных о биоразнообразии, информация о растениях и животных, так и наборы данных на которых эта база основана.
При этом это полноценный каталог данных, с указанием лицензий, метаданных, с данными в разных форматах и почти всегда с выдачей кода DOI через GBIF или Pangaea.
Это пример отраслевых/тематических/дисциплинарных научных репозиториев данных помогающим в работе исследователям-биологам.
Ссылки:
[1] https://living-atlases.gbif.org
[2] https://collectory.biodiversityatlas.at/datasets
[3] https://collections.ala.org.au/datasets
[4] https://collections-bioatlas.bioportal.hr/datasets?lang=hr
#opendata #datasets #biodiversity
На этих порталах публикуются как структурированные данных о биоразнообразии, информация о растениях и животных, так и наборы данных на которых эта база основана.
При этом это полноценный каталог данных, с указанием лицензий, метаданных, с данными в разных форматах и почти всегда с выдачей кода DOI через GBIF или Pangaea.
Это пример отраслевых/тематических/дисциплинарных научных репозиториев данных помогающим в работе исследователям-биологам.
Ссылки:
[1] https://living-atlases.gbif.org
[2] https://collectory.biodiversityatlas.at/datasets
[3] https://collections.ala.org.au/datasets
[4] https://collections-bioatlas.bioportal.hr/datasets?lang=hr
#opendata #datasets #biodiversity
⚡6👍2
Полезные ссылки про данные, технологии и не только:
- Why Parquet Is the Go-To Format for Data Engineers про формат Parquet, его особенности и трюки/оптимизации при работе с этими файлами. Полезно для тех кто про формат уже слышал, но почти не использовал.
- Data.gouv.fr High-value datasets свежая страница на французском национальном портале открытых данных с наборами данных высокой ценности (в терминах регулирования Евросоюза).
- Data Paper Index (China) - каталог статей на данных (data papers) из более чем 2,2 тысяч статей в 100 научных журналах и связанные с 11 научными репозиториями. Основные темы: окружающая среда, науки о земле. напомню что data papers - это вид научных статей опубликованных вокруг одного или нескольких наборов данных.
#opendata #datasets #dataengineering
- Why Parquet Is the Go-To Format for Data Engineers про формат Parquet, его особенности и трюки/оптимизации при работе с этими файлами. Полезно для тех кто про формат уже слышал, но почти не использовал.
- Data.gouv.fr High-value datasets свежая страница на французском национальном портале открытых данных с наборами данных высокой ценности (в терминах регулирования Евросоюза).
- Data Paper Index (China) - каталог статей на данных (data papers) из более чем 2,2 тысяч статей в 100 научных журналах и связанные с 11 научными репозиториями. Основные темы: окружающая среда, науки о земле. напомню что data papers - это вид научных статей опубликованных вокруг одного или нескольких наборов данных.
#opendata #datasets #dataengineering
Substack
Why Parquet Is the Go-To Format for Data Engineers
With more practical lessons to help you with the data engineering journey
✍4🔥3
В блоге IMF про стремительно растущее энергопотребление дата центров [1]. О том что все дата центры мира уже потребляют больше электричества чем Франция, а скоро будут потреблять больше электричества чем вся Россия.
Так в 2023 году дата центры потребляли порядка 500 тераватточасов, а к 2030 году ожидается 1500 тераватточасов.
Даже интересно пробудит ли это интерес инвесторов и резкий прогресс к термоядерной энергетике и другим способам получения больших объёмов электроэнергии или же перефокусировке разработчиков чипов с производительности на снижение энергопотребления?
В апреле из IMF была работа Power Hungry: How AI Will Drive Energy Demand [2] и там как-то всё было неопределенно. О том что появление моделей вроде Deepseek позволяет экономить на энергопотреблении, но, одновременно стимулирование применение ИИ теми кто ранее не мог себе этого позволить. И есть риски как недоинвестиций в энергетику и дата центры, так и роста цена на электричество при росте потребления.
У IMF, оказывается, есть прогностическая модель IMF-ENV [3] для оценки применения регулирования и реализация доказательной политики где как раз сильный фокус на поставки и потребление энергии.
И, конечно, про данные. Больше данных о энергопотреблении датацентров можно узнать:
- на сайте МЭА [4] - дают график, не дают скачать
- в США на сайте департамента энергетики отчёт за 2024 г. [5]
- в докладе ЕС в 2024 году [6] за 2023 год
- в официальной статистики Ирландии [7] за 2023 год
Ссылки:
[1] https://www.imf.org/en/Blogs/Articles/2025/05/13/ai-needs-more-abundant-power-supplies-to-keep-driving-economic-growth
[2] https://www.imf.org/en/Publications/WP/Issues/2025/04/21/Power-Hungry-How-AI-Will-Drive-Energy-Demand-566304
[3] https://www.imf.org/en/Publications/WP/Issues/2025/04/11/IMF-ENV-Integrating-Climate-Energy-and-Trade-Policies-in-a-General-Equilibrium-Framework-565817
[4] https://www.iea.org/data-and-statistics/charts/data-centre-electricity-consumption-by-region-base-case-2020-2030
[5] https://www.energy.gov/articles/doe-releases-new-report-evaluating-increase-electricity-demand-data-centers
[6] https://publications.jrc.ec.europa.eu/repository/handle/JRC135926
[7] https://www.cso.ie/en/releasesandpublications/ep/p-dcmec/datacentresmeteredelectricityconsumption2023/keyfindings/
#energy #dataviz #IMF #datasets #opendata
Так в 2023 году дата центры потребляли порядка 500 тераватточасов, а к 2030 году ожидается 1500 тераватточасов.
Даже интересно пробудит ли это интерес инвесторов и резкий прогресс к термоядерной энергетике и другим способам получения больших объёмов электроэнергии или же перефокусировке разработчиков чипов с производительности на снижение энергопотребления?
В апреле из IMF была работа Power Hungry: How AI Will Drive Energy Demand [2] и там как-то всё было неопределенно. О том что появление моделей вроде Deepseek позволяет экономить на энергопотреблении, но, одновременно стимулирование применение ИИ теми кто ранее не мог себе этого позволить. И есть риски как недоинвестиций в энергетику и дата центры, так и роста цена на электричество при росте потребления.
У IMF, оказывается, есть прогностическая модель IMF-ENV [3] для оценки применения регулирования и реализация доказательной политики где как раз сильный фокус на поставки и потребление энергии.
И, конечно, про данные. Больше данных о энергопотреблении датацентров можно узнать:
- на сайте МЭА [4] - дают график, не дают скачать
- в США на сайте департамента энергетики отчёт за 2024 г. [5]
- в докладе ЕС в 2024 году [6] за 2023 год
- в официальной статистики Ирландии [7] за 2023 год
Ссылки:
[1] https://www.imf.org/en/Blogs/Articles/2025/05/13/ai-needs-more-abundant-power-supplies-to-keep-driving-economic-growth
[2] https://www.imf.org/en/Publications/WP/Issues/2025/04/21/Power-Hungry-How-AI-Will-Drive-Energy-Demand-566304
[3] https://www.imf.org/en/Publications/WP/Issues/2025/04/11/IMF-ENV-Integrating-Climate-Energy-and-Trade-Policies-in-a-General-Equilibrium-Framework-565817
[4] https://www.iea.org/data-and-statistics/charts/data-centre-electricity-consumption-by-region-base-case-2020-2030
[5] https://www.energy.gov/articles/doe-releases-new-report-evaluating-increase-electricity-demand-data-centers
[6] https://publications.jrc.ec.europa.eu/repository/handle/JRC135926
[7] https://www.cso.ie/en/releasesandpublications/ep/p-dcmec/datacentresmeteredelectricityconsumption2023/keyfindings/
#energy #dataviz #IMF #datasets #opendata
✍5⚡4
Научная статья Data manipulation within the US Federal Government в журнале Lancet о том что федеральное правительство в США изменяло ранее опубликованные данные никого об этом не уведомляя. Делали это агентства и учреждения ответственные за общественное здравоохранение с ранее опубликованными данными опросов и исследований.
Авторы проанализировали 232 набора данных опубликованных CDC (Центры по контролю и профилактике заболеваний США) и обнаружили что с приходом администрации Трампа были изменены 49% (114 наборов данных), в основном изменения были в замене слова gender на sex, а также были иные изменения в структуре и описаниях данных.
При этом исследователи не анализировали глубоко сами датасеты, на предмет сохранения их полноты, из-за ограничений доступности архивных данных и использовали ранее сохраненные слепки из Интернет Архива.
С одной стороны не так много стран где можно опубликовать научную статью о том что "государства лгут и манипулируют", с другой даже в развитых странах такие публикацией встретишь нечасто. Здесь, конечно, хочется сказать что нам бы их проблемы, лично я чаще сталкиваюсь с тем что данных просто нет или то что при смене политической повестки данными не просто манипулируют, их убирают из открытого доступа.
А эта история наглядно тем что всё больше пользователей государственных данных осознают ценность их архивации.
#opendata #datasets #readings #usa #healthcare
Авторы проанализировали 232 набора данных опубликованных CDC (Центры по контролю и профилактике заболеваний США) и обнаружили что с приходом администрации Трампа были изменены 49% (114 наборов данных), в основном изменения были в замене слова gender на sex, а также были иные изменения в структуре и описаниях данных.
При этом исследователи не анализировали глубоко сами датасеты, на предмет сохранения их полноты, из-за ограничений доступности архивных данных и использовали ранее сохраненные слепки из Интернет Архива.
С одной стороны не так много стран где можно опубликовать научную статью о том что "государства лгут и манипулируют", с другой даже в развитых странах такие публикацией встретишь нечасто. Здесь, конечно, хочется сказать что нам бы их проблемы, лично я чаще сталкиваюсь с тем что данных просто нет или то что при смене политической повестки данными не просто манипулируют, их убирают из открытого доступа.
А эта история наглядно тем что всё больше пользователей государственных данных осознают ценность их архивации.
#opendata #datasets #readings #usa #healthcare
The Lancet
Data manipulation within the US Federal Government
A US Department of Veterans Affairs dataset compiling veteran health-care use in 2021
was quietly amended on March 5, 2025. A column titled gender was renamed sex, and
the words were also switched in the dataset title and description (appendix p 1).
Before…
was quietly amended on March 5, 2025. A column titled gender was renamed sex, and
the words were also switched in the dataset title and description (appendix p 1).
Before…
👍7✍1😱1
Попалось на глаза довольно давнее исследование [1] частотности применения комбинаций цифр в PIN кодах. Исследованию уже 13 лет, но, ИМХО, всё ещё актуальное. Кроме того датасет из 3.4 миллионов PIN кодов тоже доступен [2] и он относительно недавно обновлялся.
Применимо всё это не только к PIN кодам, но и ко всем аналоговым и цифровым замкам с цифрами.
Лично я раньше, регулярно, раз в месяц, устраивал себе день паранойи с ревизией паролей и мер безопасности данных и тд.
Потом слегка расслабился, стал делать это куда реже, но самые частые PINы совершенно точно не использую уже давно.
Ссылки:
[1] https://www.datagenetics.com/blog/september32012/
[2] https://github.com/Slon104/Common-PIN-Analysis-from-haveibeenpwned.com
#security #datasets #opendata
Применимо всё это не только к PIN кодам, но и ко всем аналоговым и цифровым замкам с цифрами.
Лично я раньше, регулярно, раз в месяц, устраивал себе день паранойи с ревизией паролей и мер безопасности данных и тд.
Потом слегка расслабился, стал делать это куда реже, но самые частые PINы совершенно точно не использую уже давно.
Ссылки:
[1] https://www.datagenetics.com/blog/september32012/
[2] https://github.com/Slon104/Common-PIN-Analysis-from-haveibeenpwned.com
#security #datasets #opendata
✍7❤1👍1
Чуть менее чем 2.5 года назад я писал про портал открытых данных Узбекистана data.egov.uz в лонгриде Что не так с порталом открытых данных Узбекистана? [1] и решил посмотреть на него совсем недавно и... ничего не изменилось.
Наборов данных стало больше, не 6623, а уже 10412. Не так уж мало, казалось бы. Но... если в 2023 году было 2823 набора данных в одну строку, то сейчас их уже 5207, это 50% от всего опубликованного. А всего 114 наборов данных объёмом более чем в 1000 записей, это чуть более 1%. Общий несжатый объём данных с портала, если сохранять их в JSON - 426 мегабайт (в 2023 году было 284 мегабайта).
На скриншотах примеры таких однострочных датасетов.
В чём смысл такой нарезки наборов данных на бесконечное число однострочных датасетов? Он исключительно в том чтобы показать количество, а не качество. Потому что реальным пользователям данных такие однострочные наборы данных не нужны вообще ни для чего.
Поэтому изменилось ли что-то с открытыми данными в Узбекистане? Увы нет
Ссылки:
[1] https://begtin.substack.com/p/31
#opendata #uzbekistan #datasets
Наборов данных стало больше, не 6623, а уже 10412. Не так уж мало, казалось бы. Но... если в 2023 году было 2823 набора данных в одну строку, то сейчас их уже 5207, это 50% от всего опубликованного. А всего 114 наборов данных объёмом более чем в 1000 записей, это чуть более 1%. Общий несжатый объём данных с портала, если сохранять их в JSON - 426 мегабайт (в 2023 году было 284 мегабайта).
На скриншотах примеры таких однострочных датасетов.
В чём смысл такой нарезки наборов данных на бесконечное число однострочных датасетов? Он исключительно в том чтобы показать количество, а не качество. Потому что реальным пользователям данных такие однострочные наборы данных не нужны вообще ни для чего.
Поэтому изменилось ли что-то с открытыми данными в Узбекистане? Увы нет
Ссылки:
[1] https://begtin.substack.com/p/31
#opendata #uzbekistan #datasets
✍4👍4🌚2
Как многие уже знают Минэкономразвития РФ открыли вновь портал открытых данных РФ data.gov.ru после более чем 2-х летнего отключения. Мне много что есть сказать про то как он сделан, что на нём опубликовано и что со всем этим далее делать.
Однако, прежде чем обо всём этом писать, давайте я помогу тем кто хочет провести собственный анализ и поругать/похвалить портал.
Поэтому для всех желающих публикую данные о данных, дампы метаданных о датасетах, организациях и нормативной базе опубликованных на портале. Они присоединены в формате Parquet к этому посту. Проще всего воспользоваться инструментами вроде DuckDB, Polars, Pandas чтобы их прочитать.
А также дампы всех датасетов и всех документов "нормативной базы" опубликованных на портале на 15 июля 2025 г.
Они доступны по ссылкам:
- datagovru_datasets_files.zip - файлы наборов данных, 102MB в сжатом виде, 1GB в распакованном, всего 5696 файлов в формате CSV
- datagovru_acts_files.zip - файлы нормативной базы, 77MB в сжатом виде, 97MB в распакованном виде, всего 80 файлов в формате PDF
Всё вместе, включая Parquet файлы, доступно для выгрузки по ссылке и в посте в телеграм.
На случай если сотрудники/подрядчики Минэка РФ захотятзамести следы, внезапно что-то удалить внести исправления к опубликованному.
Объёмы небольшие, каждый может скачать эти данные локально, сделать собственную аналитику и рассказать о интересных находках.
Пока, для оперативности публикую всё это здесь, позже уже оформлю как полноценный датасет с автоматически созданной документацией.
#opendata #russia #datasets
Однако, прежде чем обо всём этом писать, давайте я помогу тем кто хочет провести собственный анализ и поругать/похвалить портал.
Поэтому для всех желающих публикую данные о данных, дампы метаданных о датасетах, организациях и нормативной базе опубликованных на портале. Они присоединены в формате Parquet к этому посту. Проще всего воспользоваться инструментами вроде DuckDB, Polars, Pandas чтобы их прочитать.
А также дампы всех датасетов и всех документов "нормативной базы" опубликованных на портале на 15 июля 2025 г.
Они доступны по ссылкам:
- datagovru_datasets_files.zip - файлы наборов данных, 102MB в сжатом виде, 1GB в распакованном, всего 5696 файлов в формате CSV
- datagovru_acts_files.zip - файлы нормативной базы, 77MB в сжатом виде, 97MB в распакованном виде, всего 80 файлов в формате PDF
Всё вместе, включая Parquet файлы, доступно для выгрузки по ссылке и в посте в телеграм.
На случай если сотрудники/подрядчики Минэка РФ захотят
Объёмы небольшие, каждый может скачать эти данные локально, сделать собственную аналитику и рассказать о интересных находках.
Пока, для оперативности публикую всё это здесь, позже уже оформлю как полноценный датасет с автоматически созданной документацией.
#opendata #russia #datasets
🔥8👍3🙏3✍2👏1
В рубрике закрытых в России данных, я обнаружил что не писал про портал открытых данных Самарской области opendata.samregion.ru который был закрыт где-то между 2022 и 2024 году. В Интернет архиве на февраль 2022 года , а позже только слепки страниц с упоминанием геоблокировки. Сейчас портал перенаправляет на страницу на сайте Пр-ва Самарской области где вместо данных просто свалка разноформатных документов.
Архивная копия в формате WARC была сделана нами в апреле 2024 года. Данных там было немного, всего 24МБ в сжатом виде, но тем не менее.
#opendata #datasets #russia
Архивная копия в формате WARC была сделана нами в апреле 2024 года. Данных там было немного, всего 24МБ в сжатом виде, но тем не менее.
#opendata #datasets #russia
👍5✍2❤1
Одна из крупнейших поисковых систем по данным в мире о которой мало кто знает - это Datacite Commons. Сервис созданный компанией Datacite специализирующейся на выдаче DOI для данных публикуемых исследователями.
Благодаря тому что при присвоении DOI каждому цифровому объекту требуется заполнить карточку с метаданными, то и индекс DOI в Datacite вырос уже до 90 миллионов записей из которых чуть менее половины, 43 миллиона - это карточки наборов данных (dataset). Ещё 15 миллионов записей тексты, около 14 миллионов физических объектов и так далее. В том числе там уже 16 тысяч data papers (статей основанных на данных).
Почти все записи в Datacite имеют привязку к организациям к которым они относятся, напрямую или через авторов, эти организации интегрированы в реестр ROR (The Research Organization Registry) хорошо известный в библиографической среде и хорошо структурированный с существенным объёмом метаданных по каждой научной организации.
Благодаря этому можно идентифицировать сколько наборов данных имеют DOI Datacite в разрезе стран.
Вот ряд цифр по некоторым постсоветским странам:
- Россия - 6806 наборов данных, большая часть от Российской академии наук
- Казахстан - 257 наборов данных, большая часть от Университета Назарбаева
- Армения - 130 наборов данных
- Узбекистан - 85 наборов данных
- Кыргызстан - 40 наборов данных
Это только те данные которые имеют прямую аффиляцию с академическими учреждениями в этих странах. Многие данные относящиеся к странам создаются в других странах. Например, исследования в США посвящённые разным российским сибирским и северным территориям или горам Центральной Азии.
Много это или мало? Это мало, с точки зрения мира, но и не полное отсутствие. Важнее почти полное отсутствие институциональной основы. Почти все эти опубликованные наборы данных загружались исследователями на открытые платформы вроде Zenodo, Dryad, Mendeley Data и зарубежные журналы.
Данные исследователей характерны тем что их востребованность весьма фрагментирована. У одного датасета могут быть сотни цитирований, но больше этого числа это уже огромная редкость. Поэтому применительно к ним не работает принцип HVD (High value datasets), нельзя определить какие-то конкретные крупные наборы данных которые должны быть доступны. Это должны быть данные из специализированной научной инфраструктуры вроде систем CLARIN для компьютерной лингвистики или ELIXIR для геномных данных, или буквально все возможные данные как результат научной деятельности.
#opendata #datasets #datadiscovery #datacite
Благодаря тому что при присвоении DOI каждому цифровому объекту требуется заполнить карточку с метаданными, то и индекс DOI в Datacite вырос уже до 90 миллионов записей из которых чуть менее половины, 43 миллиона - это карточки наборов данных (dataset). Ещё 15 миллионов записей тексты, около 14 миллионов физических объектов и так далее. В том числе там уже 16 тысяч data papers (статей основанных на данных).
Почти все записи в Datacite имеют привязку к организациям к которым они относятся, напрямую или через авторов, эти организации интегрированы в реестр ROR (The Research Organization Registry) хорошо известный в библиографической среде и хорошо структурированный с существенным объёмом метаданных по каждой научной организации.
Благодаря этому можно идентифицировать сколько наборов данных имеют DOI Datacite в разрезе стран.
Вот ряд цифр по некоторым постсоветским странам:
- Россия - 6806 наборов данных, большая часть от Российской академии наук
- Казахстан - 257 наборов данных, большая часть от Университета Назарбаева
- Армения - 130 наборов данных
- Узбекистан - 85 наборов данных
- Кыргызстан - 40 наборов данных
Это только те данные которые имеют прямую аффиляцию с академическими учреждениями в этих странах. Многие данные относящиеся к странам создаются в других странах. Например, исследования в США посвящённые разным российским сибирским и северным территориям или горам Центральной Азии.
Много это или мало? Это мало, с точки зрения мира, но и не полное отсутствие. Важнее почти полное отсутствие институциональной основы. Почти все эти опубликованные наборы данных загружались исследователями на открытые платформы вроде Zenodo, Dryad, Mendeley Data и зарубежные журналы.
Данные исследователей характерны тем что их востребованность весьма фрагментирована. У одного датасета могут быть сотни цитирований, но больше этого числа это уже огромная редкость. Поэтому применительно к ним не работает принцип HVD (High value datasets), нельзя определить какие-то конкретные крупные наборы данных которые должны быть доступны. Это должны быть данные из специализированной научной инфраструктуры вроде систем CLARIN для компьютерной лингвистики или ELIXIR для геномных данных, или буквально все возможные данные как результат научной деятельности.
#opendata #datasets #datadiscovery #datacite
Research Organization Registry (ROR)
The Research Organization Registry (ROR) is a global, community-led registry of open persistent identifiers for research organizations.
👍6✍2
В рубрике как это устроено у них
Virtual Language Observatory [1] агрегатор и поисковая система по ресурсам компьютерной лингвистики в Европейском союзе.
Включает более 530 тысяч ресурсов из которых как наборы данных отмечены более 100 тысяч. Охватывает более 5 тысяч языков и диалектов.
В свою очередь и поиск в VLO имеют лингвистическую специфику с возможностью фильтрации по доступности, коллекциям, модальности и тд. Для этого репозитории входящие в европейский проект CLARIN предоставляют метаданные по согласованным спецификациям на основе которых и формируются карточки каждого ресурса.
Ссылки:
[1] https://vlo.clarin.eu
#opendata #datacatalogs #datasets #lingustics
Virtual Language Observatory [1] агрегатор и поисковая система по ресурсам компьютерной лингвистики в Европейском союзе.
Включает более 530 тысяч ресурсов из которых как наборы данных отмечены более 100 тысяч. Охватывает более 5 тысяч языков и диалектов.
В свою очередь и поиск в VLO имеют лингвистическую специфику с возможностью фильтрации по доступности, коллекциям, модальности и тд. Для этого репозитории входящие в европейский проект CLARIN предоставляют метаданные по согласованным спецификациям на основе которых и формируются карточки каждого ресурса.
Ссылки:
[1] https://vlo.clarin.eu
#opendata #datacatalogs #datasets #lingustics
👍3✍2
В рубрике как это устроено у них один из крупнейших публичных репозиториев научных данных по биоразнообразию это PlutoF [1] созданный командой в Тартуском университете и интегрированный в цифровую инфраструктуру других европейских проектов.
В PlutoF собрано более 3 миллионов 200 тысяч ресурсов (наборов данных), каждому из которых присвоен идентификатор DOI.
Поиск по репозиторий организован неудобно, он очень минималистичен, но этот репозиторий хорошо индексируется Datacite Commons, OpenAIRE и другими поисковиками по научным результатам.
Ссылки:
[1] https://plutof.ut.ee/en
#opendata #datacatalogs #biodiversity #datasets
В PlutoF собрано более 3 миллионов 200 тысяч ресурсов (наборов данных), каждому из которых присвоен идентификатор DOI.
Поиск по репозиторий организован неудобно, он очень минималистичен, но этот репозиторий хорошо индексируется Datacite Commons, OpenAIRE и другими поисковиками по научным результатам.
Ссылки:
[1] https://plutof.ut.ee/en
#opendata #datacatalogs #biodiversity #datasets
⚡5✍2