Возвращаюсь из недельной командировки совмещённой с отпуском, надеюсь что читатели не заскучали по материалам про данные. И сразу же интересный свежий доклад The State of Open Data 2023 [1] от команды Digital Science, стартапа/компании предоставляющих Figshare и другие порталы и сервисы для открытой инфраструктуры для научных публикаций.
Доклад не про то что вы можете подумать публикуется на порталах открытых данных, а про то как исследователи публикуют свои данные. В каких дисциплинах чаще, с какой мотивацией, что они об этом думают, помогают ли им и так далее. Тем кто хочет знать как развивается открытость науки в головах исследователей - это полезный документ. Он составлен через опросы как и большая часть докладов жанра "The State of ...", и главный вывод который можно сделать в том что открытость данных в науке - это долговременный постепенно развивающийся и не останавливающийся тренд.
Ссылки:
[1] https://digitalscience.figshare.com/articles/report/The_State_of_Open_Data_2023/24428194
#opendata #openaccess #research #science
Доклад не про то что вы можете подумать публикуется на порталах открытых данных, а про то как исследователи публикуют свои данные. В каких дисциплинах чаще, с какой мотивацией, что они об этом думают, помогают ли им и так далее. Тем кто хочет знать как развивается открытость науки в головах исследователей - это полезный документ. Он составлен через опросы как и большая часть докладов жанра "The State of ...", и главный вывод который можно сделать в том что открытость данных в науке - это долговременный постепенно развивающийся и не останавливающийся тренд.
Ссылки:
[1] https://digitalscience.figshare.com/articles/report/The_State_of_Open_Data_2023/24428194
#opendata #openaccess #research #science
У меня тут основательно поднакопилось "долгов" по написанию длинных текстов и пока в приоритете те что пишу не на публику, поэтому и пишу реже, а некоторые запланированные статьи/тексты пытаюсь переосмыслить и, иногда отказываться от них. Например, пока я начал писать серию заметок про корпоративные каталоги данных то чем больше думал про них тем больше приходил к выводам о том что "Если вам нужен корпоративный портал [мета]данных, то поставьте DataHub и не парьтесь (с)". Благо он с открытым кодом, но не без своих нюансов. Сравнивать платные глобальные продукты для большинства российских пользователей смысла нет, а open source продукты сейчас сводятся к DataHub или OpenMetadata. В итоге лонгрид не выходит, могу лишь напомнить про предыдущий текст Data discovery в корпоративном секторе. Часть 1. Зачем всё это нужно? [1] можно прочитать на Substack. Честно говоря я очень не люблю вот так останавливать мысль на полпути, поэтому может быть я к ней ещё и вернусь.
Другая тема про которую я думаю регулярно и которая просится в текст - это фрагментация сообществ по работе с данными и слабая их взаимосвязь. Вокруг открытости данных есть такие группы как:
- активисты/евангелисты/пользователи открытых государственных данных - open data community
- исследователи работающие с открытыми научными данными - open access / fair data community
- географы/геоинформатики/урбанисты и тд. работающие с геоданными - geodata community
- дата-инженеры и дата-сайентисты как правила из коммерческого сектора - data engineering and data science community
- статистики и социологи - statistics community
Все эти группы частично пересекаются, но куда меньше чем могли бы быть и ещё внутри них множество своих подгрупп и ещё какие-то сильно меньше/незаметнее.
Это не-пересечение и разный опыт приводит, например, к тому что когда я спрашиваю разработчиков некоторых национальных порталов с открытыми данными о том почему они дают экспорт в JSON и CSV, но, к примеру, не дают экспорта в форматы Parquet или Avro, то ответ всегда один и тот же: "А мы об этом даже не думали как-то".
Кроме того везде своя специфическая терминология, разные названия для одного и того же. В итоге всё выглядит как разные наборы ментальных установок часто приводящих к разному восприятию темы. Ранее упомянутый мной доклад The State of Open Data написан с сообщества исследователей, но за пределами этой среды Open Data - это несколько иное, если не по определению объектов наблюдения, то по логике существования тех кто этим живёт.
Ещё одно направление мыслей у меня было и частично есть для упаковки в текст - это вот эти вот все инициативы Минцифры в РФ по созданию портала с наборами данных для ИИ. Много умных мыслей я мог бы написать о том как это делают или стараются не-делать в мире, почему плохо организовывать авторизацию через ЕСИА и тд. Но всё в сводится к вопросу который, в приличном варианте, звучит как "А зачем это делается?". Если цель в практических результатах, то никакие порталы не нужны, нужно выкладывать данные для обучения ИИ на Kaggle и/или HuggingFace, а деньги тратить не на разработку софта, а на создание наборов данных. Если цель в развитии науки, то надо обязывать исследователей публиковать в открытом доступе данные на которых построены их выводы в их статьях и результаты публикации наборов данных измерять в числе статей в профильных научных журналах в которых используются эти наборы данных. Но, будем честными, заниматься в Минцифре РФ этому некому, а "Правительство - это просто группа людей, как правило, плохо организованных (с)".
Ссылки:
[1] https://begtin.substack.com/p/corporate-data-discovery-1
#thoughts #data #opendata #texts #reflections
Другая тема про которую я думаю регулярно и которая просится в текст - это фрагментация сообществ по работе с данными и слабая их взаимосвязь. Вокруг открытости данных есть такие группы как:
- активисты/евангелисты/пользователи открытых государственных данных - open data community
- исследователи работающие с открытыми научными данными - open access / fair data community
- географы/геоинформатики/урбанисты и тд. работающие с геоданными - geodata community
- дата-инженеры и дата-сайентисты как правила из коммерческого сектора - data engineering and data science community
- статистики и социологи - statistics community
Все эти группы частично пересекаются, но куда меньше чем могли бы быть и ещё внутри них множество своих подгрупп и ещё какие-то сильно меньше/незаметнее.
Это не-пересечение и разный опыт приводит, например, к тому что когда я спрашиваю разработчиков некоторых национальных порталов с открытыми данными о том почему они дают экспорт в JSON и CSV, но, к примеру, не дают экспорта в форматы Parquet или Avro, то ответ всегда один и тот же: "А мы об этом даже не думали как-то".
Кроме того везде своя специфическая терминология, разные названия для одного и того же. В итоге всё выглядит как разные наборы ментальных установок часто приводящих к разному восприятию темы. Ранее упомянутый мной доклад The State of Open Data написан с сообщества исследователей, но за пределами этой среды Open Data - это несколько иное, если не по определению объектов наблюдения, то по логике существования тех кто этим живёт.
Ещё одно направление мыслей у меня было и частично есть для упаковки в текст - это вот эти вот все инициативы Минцифры в РФ по созданию портала с наборами данных для ИИ. Много умных мыслей я мог бы написать о том как это делают или стараются не-делать в мире, почему плохо организовывать авторизацию через ЕСИА и тд. Но всё в сводится к вопросу который, в приличном варианте, звучит как "А зачем это делается?". Если цель в практических результатах, то никакие порталы не нужны, нужно выкладывать данные для обучения ИИ на Kaggle и/или HuggingFace, а деньги тратить не на разработку софта, а на создание наборов данных. Если цель в развитии науки, то надо обязывать исследователей публиковать в открытом доступе данные на которых построены их выводы в их статьях и результаты публикации наборов данных измерять в числе статей в профильных научных журналах в которых используются эти наборы данных. Но, будем честными, заниматься в Минцифре РФ этому некому, а "Правительство - это просто группа людей, как правило, плохо организованных (с)".
Ссылки:
[1] https://begtin.substack.com/p/corporate-data-discovery-1
#thoughts #data #opendata #texts #reflections
Ivan’s Begtin Newsletter on digital, open and preserved government
Data discovery в корпоративном секторе. Часть 1. Зачем всё это нужно?
Ничто не делается просто так. Просто нам не всегда известны мотивы. (с) Доктор Хаус
В рубрике как это устроено у них портал открытых данных Торонто [1], крупнейшего города Канады с численностью в 2.7 миллиона человек.
Портал построен на базе ПО каталога открытых данных CKAN поверх API которого сделан веб-интерфейс включающий дополнительные возможности такие как:
- отображение содержания набора данных
- отображение схемы/структуры данных
- метрики качества набора данных
- возможность выгрузки в разных форматах JSON/CSV/XML
- примеры кода для работы с API
- автоматизированная визуализация данных
Любопытная надстройка с открытым кодом [2].
Сам проект создан и развивается в рамках городского плана развития открытых данных [3] весьма детально описывающего стратегию города по публикации данных.
Ссылки:
[1] https://open.toronto.ca
[2] https://github.com/open-data-toronto/ckan-customization-open-data-toronto
[3] https://www.toronto.ca/legdocs/mmis/2018/ex/bgrd/backgroundfile-110740.pdf
#opendata #canada #datacatalogs
Портал построен на базе ПО каталога открытых данных CKAN поверх API которого сделан веб-интерфейс включающий дополнительные возможности такие как:
- отображение содержания набора данных
- отображение схемы/структуры данных
- метрики качества набора данных
- возможность выгрузки в разных форматах JSON/CSV/XML
- примеры кода для работы с API
- автоматизированная визуализация данных
Любопытная надстройка с открытым кодом [2].
Сам проект создан и развивается в рамках городского плана развития открытых данных [3] весьма детально описывающего стратегию города по публикации данных.
Ссылки:
[1] https://open.toronto.ca
[2] https://github.com/open-data-toronto/ckan-customization-open-data-toronto
[3] https://www.toronto.ca/legdocs/mmis/2018/ex/bgrd/backgroundfile-110740.pdf
#opendata #canada #datacatalogs
Кто-то говорит что скоро ИИ заменит разработчиков, а на сайте фонда Sequoia статья о следующем миллиарде разработчиков [1]. Сейчас их около 100 миллионов, достижим ли миллиард? Оптимистично ли это для рынка/человечества или наоборот катастрофа ? Интересно что автор ссылается на отчёт Github'а The State of Octoverse [2] где упоминается 100 миллионов разработчиков на Github'е и 26% (21 миллион) рост их числа за прошедший год.
Интересное предсказание, вполне возможно что небезосновательное.
Ссылки:
[1] https://www.sequoiacap.com/article/the-next-billion-developers-perspective/
[2] https://github.blog/2023-11-08-the-state-of-open-source-and-ai/
#opensource #it
Интересное предсказание, вполне возможно что небезосновательное.
Ссылки:
[1] https://www.sequoiacap.com/article/the-next-billion-developers-perspective/
[2] https://github.blog/2023-11-08-the-state-of-open-source-and-ai/
#opensource #it
Sequoia Capital
The Next Billion Developers
David Cahn contends that the developer revolution will be as important as the AI revolution.
Forwarded from Open Data Armenia
Постепенно возвращаясь к нашим публичным активностям, хотим поблагодарить тех наших подписчиков и единомышленников, кто уже помог нам с автоматизацией сбора данных из различных важных источников. Будем очень рады, если круг таких людей расширится, потому что наша миссия – не только собрать все важные для Армении и армян данные в машиночитаемом и общедоступном виде, но и развивать сообщество неравнодушных к этой теме людей.
Вот список задач, ожидающих своих героев. Не забывайте прокомментировать задачу, если берётесь за неё.
Stay tuned!
Вот список задач, ожидающих своих героев. Не забывайте прокомментировать задачу, если берётесь за неё.
Stay tuned!
GitHub
opendataam/opendatam-tasks
Public tasks for volunteers, hackathons and contests - opendataam/opendatam-tasks
В рубрике как это устроено у них центры научных данных и другие проекты распространения научных данных Китайской республики.
Центры научных данных
- National Basic Sciences Public Science Data Center [1] - центр данных по базовым дисциплинам: физика, химия, астрономия, биология и т.д.
- National Marine Science Data Center [2] - центр данных о море и водных объектах
- National Earthquake Science Data Center [3] - центр данных о землетрясениям
- National Meteorological Science Data Center [4] - центр данных по метеорологии
- National Forestry and Grassland Science Data Center [5] - центр данных о лесе и зеленых насаждениях
- National Agricultural Science Data Center [6] - центр данных о сельском хозяйстве
- National Population Health Science Data Center [7] - центр данных о здоровье граждан
- National Metrological Science Data Center [8] - центр данных по метрологии
- National Cryosphere Desert Data Center [9] - центр данных о засушливых и холодных территориях
Другие ресурсы
- CSDB [10] центр научных данных академии наук Китая. Действует с 1987 года, включает более 45 тысяч наборов данных
- Science Data Bank [11] портал для публикации данных исследователями Китая. Интегрирован с большинством поисковых систем, сервисов цитирования и иными глобальными сервисами открытой науки
- CSData [12] научный журнал посвящённый доступности научных данных Китая и для китайских исследователей
- FinData [13] поисковик по научным данным Китая и данным используемых китайскими исследователями
Не все из научных порталов данных предоставляют открытые данные, через многие доступны данные только по запросу или авторизации, в некоторых случаях существуют градации режимов доступа, в ряде случаев есть требования/рекомендации поделиться Вашими исследованиями на этих данных. Однако широко распространены свободные лицензии и большая часть данных общедоступны и не требуют никаких усилий кроме как скачать их напрямую и знать китайский язык.
Ссылки:
[1] https://www.nsdata.cn
[2] https://mds.nmdis.org.cn
[3] https://data.earthquake.cn
[4] https://data.cma.cn/en
[5] https://www.forestdata.cn
[6] https://www.agridata.cn
[7] https://www.geodata.cn
[8] https://www.nms.org.cn
[9] https://www.ncdc.ac.cn/portal/?lang=en
[10] https://www.casdc.cn
[11] https://www.scidb.cn/en
[12] https://www.csdata.org/en/
[13] https://findata.cn
#opendata #datasets #china #datacatalogs #openaccess #openresearch
Центры научных данных
- National Basic Sciences Public Science Data Center [1] - центр данных по базовым дисциплинам: физика, химия, астрономия, биология и т.д.
- National Marine Science Data Center [2] - центр данных о море и водных объектах
- National Earthquake Science Data Center [3] - центр данных о землетрясениям
- National Meteorological Science Data Center [4] - центр данных по метеорологии
- National Forestry and Grassland Science Data Center [5] - центр данных о лесе и зеленых насаждениях
- National Agricultural Science Data Center [6] - центр данных о сельском хозяйстве
- National Population Health Science Data Center [7] - центр данных о здоровье граждан
- National Metrological Science Data Center [8] - центр данных по метрологии
- National Cryosphere Desert Data Center [9] - центр данных о засушливых и холодных территориях
Другие ресурсы
- CSDB [10] центр научных данных академии наук Китая. Действует с 1987 года, включает более 45 тысяч наборов данных
- Science Data Bank [11] портал для публикации данных исследователями Китая. Интегрирован с большинством поисковых систем, сервисов цитирования и иными глобальными сервисами открытой науки
- CSData [12] научный журнал посвящённый доступности научных данных Китая и для китайских исследователей
- FinData [13] поисковик по научным данным Китая и данным используемых китайскими исследователями
Не все из научных порталов данных предоставляют открытые данные, через многие доступны данные только по запросу или авторизации, в некоторых случаях существуют градации режимов доступа, в ряде случаев есть требования/рекомендации поделиться Вашими исследованиями на этих данных. Однако широко распространены свободные лицензии и большая часть данных общедоступны и не требуют никаких усилий кроме как скачать их напрямую и знать китайский язык.
Ссылки:
[1] https://www.nsdata.cn
[2] https://mds.nmdis.org.cn
[3] https://data.earthquake.cn
[4] https://data.cma.cn/en
[5] https://www.forestdata.cn
[6] https://www.agridata.cn
[7] https://www.geodata.cn
[8] https://www.nms.org.cn
[9] https://www.ncdc.ac.cn/portal/?lang=en
[10] https://www.casdc.cn
[11] https://www.scidb.cn/en
[12] https://www.csdata.org/en/
[13] https://findata.cn
#opendata #datasets #china #datacatalogs #openaccess #openresearch
mds.nmdis.org.cn
国家海洋科学数据中心
海洋数据共享,海洋科学数据,海洋科学数据共享,海洋数据中心,海洋科学数据中心,国家海洋科学数据中心
Любопытная статья [1] и связанные с ней наборы данных [2] про WikiWebQuestions, набор данных SPARQL аннотированных данных из Wikidata и о том что большие языковые модели вроде LLaMa меньше галлюцинируют и точность их ответов повышается. Всячески полезное чтение и возвращение к вопросу о том насколько и как структурированные и качественно аннотированные базы данных могут повлиять на качество ИИ-инструментов. До сих пор в основе больших языковых моделей были очень большие базы текстов, а тут базы фактов. При всей неидеальности и неполноте Wikidata баз таких объёмов и такой структуризации одновременно очень мало.
Ссылки:
[1] https://arxiv.org/abs/2305.14202
[2] https://github.com/stanford-oval/wikidata-emnlp23
#ai #opendata #wikidata #datasets #research #readings
Ссылки:
[1] https://arxiv.org/abs/2305.14202
[2] https://github.com/stanford-oval/wikidata-emnlp23
#ai #opendata #wikidata #datasets #research #readings
Я давно не писал про проект реестра всех каталогов данных в мире Common Data Index [1], а там довольно много обновлений.
1. У каждого каталога данных добавлен макрорегион к которому он относится. Макрорегионы - это группировки стран по местонахождению, например, Северная Африка или Юго-восточная Азия. В основе привязки классификатор UN M49. Это удобно для поиска каталогов данных по странам и территориям
2. Для каталогов добавлено свойство is_national, является ли каталог данных национальным порталом открытых данных. Таких каталогов не так много
3. Охвачены практически все страны кроме 31 и все из неохваченных, или беднейшие страны мира, или мельчайшие островные государства. Это не значит что по ним нет наборов данных, а значит что по ним нет отдельных каталогов данных.
4. Сейчас всего 9912 каталогов данных. Какие-то записи удаляются как дубликаты, какие-то добавляются как новые. Большая часть нового - это каталоги геоданных
5. Самая сложная часть - это повышение качества реестра поскольку в большинстве случаев, например, наименование владельца каталога можно указать только вручную.
6. Для языков каталогов данных добавлена их расшифровка. Теперь не только код "ES", но и его название на английском "Spanish" и так для всех языков всех каталогов.
В целом могу сказать что не хватает какого-то гибридного инструмента между Semantic Mediawiki, Airtable и базой данных так чтобы можно было бы вносить изменения, и вручную, и через API, и отображать данные без труда при любых изменениях схем.
Потому что сейчас работа над реестров ведётся полувручную через автоматизированные скрипты изменения сразу кучи YAML файлов. Файловая система используется как аналог СУБД, а потом изменения собираются в JSON lines датасеты.
Следующим шагом за реестром был и остаётся поисковик по наборам данных о котором я ещё обязательно напишу, но тут уже без промежуточных результатов. Его получится увидеть только когда он будет хотя бы MVP.
Ссылки:
[1] https://github.com/commondataio/dataportals-registry
#opendata #datacatalogs #datasets
1. У каждого каталога данных добавлен макрорегион к которому он относится. Макрорегионы - это группировки стран по местонахождению, например, Северная Африка или Юго-восточная Азия. В основе привязки классификатор UN M49. Это удобно для поиска каталогов данных по странам и территориям
2. Для каталогов добавлено свойство is_national, является ли каталог данных национальным порталом открытых данных. Таких каталогов не так много
3. Охвачены практически все страны кроме 31 и все из неохваченных, или беднейшие страны мира, или мельчайшие островные государства. Это не значит что по ним нет наборов данных, а значит что по ним нет отдельных каталогов данных.
4. Сейчас всего 9912 каталогов данных. Какие-то записи удаляются как дубликаты, какие-то добавляются как новые. Большая часть нового - это каталоги геоданных
5. Самая сложная часть - это повышение качества реестра поскольку в большинстве случаев, например, наименование владельца каталога можно указать только вручную.
6. Для языков каталогов данных добавлена их расшифровка. Теперь не только код "ES", но и его название на английском "Spanish" и так для всех языков всех каталогов.
В целом могу сказать что не хватает какого-то гибридного инструмента между Semantic Mediawiki, Airtable и базой данных так чтобы можно было бы вносить изменения, и вручную, и через API, и отображать данные без труда при любых изменениях схем.
Потому что сейчас работа над реестров ведётся полувручную через автоматизированные скрипты изменения сразу кучи YAML файлов. Файловая система используется как аналог СУБД, а потом изменения собираются в JSON lines датасеты.
Следующим шагом за реестром был и остаётся поисковик по наборам данных о котором я ещё обязательно напишу, но тут уже без промежуточных результатов. Его получится увидеть только когда он будет хотя бы MVP.
Ссылки:
[1] https://github.com/commondataio/dataportals-registry
#opendata #datacatalogs #datasets
В рубрике как это работает у них портал показателей и одновременно портал открытых данных статистической службы Ирландии data.cso.ie [1]. Каждый показатель рассматривается, одновременно, ещё и как набор данных и на каждой отдельной странице показателя есть, как отображение для статистиков и аналитиков, с выбором параметров и визуализацией так и для разработчиков с API и возможностью полной выгрузки набора данных в форматах XLSX, CSV, PX, JSON-Stat.
В основе продукт PxStat с открытым кодом [2] разработанный статслужбой достаточно давно и поддерживаемый в рамках открытой разработки.
Ссылки:
[1] https://data.cso.ie
[2] https://github.com/CSOIreland/PxStat
#opendata #datasets #opensource #datacatalogs #statistics #ireland
В основе продукт PxStat с открытым кодом [2] разработанный статслужбой достаточно давно и поддерживаемый в рамках открытой разработки.
Ссылки:
[1] https://data.cso.ie
[2] https://github.com/CSOIreland/PxStat
#opendata #datasets #opensource #datacatalogs #statistics #ireland
Я ничего не писал про увольнение Сэма Альтмана из OpenAI ожидая когда станут известны подробности и подробности уже прозвучали, он переходит в Microsoft, что, для Microsoft, несомненно большой выигрыш. Тем временем просто интереса ради почитать обзор того как менялся состав правления OpenAI за 6 лет [2], там немало любопытного и непрозрачного было.
Почему это важно?
OpenAI сейчас лидер рынка генеративного ИИ и изменения в связи с уходом Альтмана могут отразится на рынке в целом. Например, то что Microsoft сейчас наберёт компетенций и откажется от финансовой поддержки OpenAI.
Ссылки:
[1] https://twitter.com/satyanadella/status/1726509045803336122
[2] https://loeber.substack.com/p/a-timeline-of-the-openai-board
#ai #microsoft
Почему это важно?
OpenAI сейчас лидер рынка генеративного ИИ и изменения в связи с уходом Альтмана могут отразится на рынке в целом. Например, то что Microsoft сейчас наберёт компетенций и откажется от финансовой поддержки OpenAI.
Ссылки:
[1] https://twitter.com/satyanadella/status/1726509045803336122
[2] https://loeber.substack.com/p/a-timeline-of-the-openai-board
#ai #microsoft
OneTable [1] новый ожидаемый стандарт/инструмент по преобразованию табличных данных из Apache Hudi, Delta Lake и Apache Iceberg. Развивают его OneHouse, Google и Microsoft и уже заявлена поддержка 4-х видов каталогов данных и 8 движков для запросов. Стандарт никак не затрагивает открытые данные, потому что никто не использует в них такие форматы, но затрагивает корпоративные системы использующие подобные форматы.
Обещают что проект в итоге будет передан в Apache Foundation, уже сейчас можно опробовать через репозиторий открытого кода и демо на Docker.
Ссылки:
[1] https://onetable.dev/
#data #datatools #opensource
Обещают что проект в итоге будет передан в Apache Foundation, уже сейчас можно опробовать через репозиторий открытого кода и демо на Docker.
Ссылки:
[1] https://onetable.dev/
#data #datatools #opensource
В рубрике как это устроено у них проект OpenEI (Open Energy Initiative) [1] развивается Департаментом энергетики США и включает инфраструктурные ресурсы для исследователей в области энергетики. В том числе репозитории открытых научных данных:
- Open Energy Data Initiative [2] 26 озёр данных посвящённых теме энергетики, общим объёмом 2.7 петабайта
- Geothermal Data Repository [3] данных по геотермальным источникам, 271 терабайт
- Marine and Hydrokinetic Data Repository [4] данных по морским и гидрокинетическим источникам, 29 терабайт
А также многие другие данные [5].
Все данные, включая наиболее крупные наборы данных, доступны без взимания платы. К большинству наборов данных приложены примеры в Jupyter Notebook, доступ предоставляется через инфраструктуру Amazon AWS, Azure или Google Cloud. Всё за что нужно платить исследователям - это за использование инфраструктуры облачных сервисов Microsoft, Amazon или Google, и только в тех случаях, когда им нужны высокопроизводительные расчёты.
От себя добавлю что 3 петабайта открытых данных это не предел, есть наборы данных и общедоступные озёра данных и большего размера.
Ссылки:
[1] https://openei.org
[2] https://data.openei.org
[3] https://gdr.openei.org/
[4] https://mhkdr.openei.org/
[5] https://openei.org/wiki/Data
#energy #opendata #usa #datacatalogs #datasets
- Open Energy Data Initiative [2] 26 озёр данных посвящённых теме энергетики, общим объёмом 2.7 петабайта
- Geothermal Data Repository [3] данных по геотермальным источникам, 271 терабайт
- Marine and Hydrokinetic Data Repository [4] данных по морским и гидрокинетическим источникам, 29 терабайт
А также многие другие данные [5].
Все данные, включая наиболее крупные наборы данных, доступны без взимания платы. К большинству наборов данных приложены примеры в Jupyter Notebook, доступ предоставляется через инфраструктуру Amazon AWS, Azure или Google Cloud. Всё за что нужно платить исследователям - это за использование инфраструктуры облачных сервисов Microsoft, Amazon или Google, и только в тех случаях, когда им нужны высокопроизводительные расчёты.
От себя добавлю что 3 петабайта открытых данных это не предел, есть наборы данных и общедоступные озёра данных и большего размера.
Ссылки:
[1] https://openei.org
[2] https://data.openei.org
[3] https://gdr.openei.org/
[4] https://mhkdr.openei.org/
[5] https://openei.org/wiki/Data
#energy #opendata #usa #datacatalogs #datasets
Большая симпатичная подборка того как не надо и как надо рисовать графики Friends Don't Let Friends Make Bad Graphs [1].
Все примеры скорее про научные публикации чем про дата журналистику, с открытым кодом для R Studio.
Ссылки:
[1] https://github.com/cxli233/FriendsDontLetFriends
#dataviz #opensource
Все примеры скорее про научные публикации чем про дата журналистику, с открытым кодом для R Studio.
Ссылки:
[1] https://github.com/cxli233/FriendsDontLetFriends
#dataviz #opensource