Ivan Begtin
9.13K subscribers
2.04K photos
3 videos
102 files
4.77K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В рубрике интересных больших наборов данных, данные OpenAIRE Research Graph [1]. В наборе данных собраны все метаданные о публикациях, данных, исследователях, изданиях, финансировании и иных сведений из европейского проекта OpenAIRE. Это, в общей сложности, сведения о:
- 24 финансирующих структуры
- 97 000+ публикаторов (изданий/организаций)
- 3 000 000+ научных проектов
- 132 000 000+ научных публикаций
- 15 000 000+ научных наборов данных
а также сведения о программном обеспечении и иных научных продуктах.

Общий объём хранения в системе OpenAIRE около 860ТБ, а объём OpenAIRE Research Graph около 136ГБ [2].

Данные собираются из множества источников, включая ORCID, Crossref, Microsoft Academic Graph и других [3].

Это большая, сложная, неплохо продуманная система агрегации данных и публичный продукт в виде сайтов, данных и API.

Есть ли там исследователи и исследовательские центры из России? Да, конечно же есть. 797 научных организаций из России зарегистрированы в OpenAIRE [4].

Ссылки:
[1] https://graph.openaire.eu/develop/graph-dumps.html
[2] https://zenodo.org/record/5801283
[3] https://graph.openaire.eu/about#architecture
[4] https://explore.openaire.eu/search/find?active=organizations&country=%22RU%22

#data #opendata #science #openacess #datasets #eu
April 3, 2022
В Science вышла статья о "фабрике публикаций" [1], компании International Publisher, предлагающей учёным становится соавторами научных публикаций за деньги. В статье упоминается также происхождение сайта, его руководителя и сам сайт с таким предложением. Исследователь, Анна Абалкина провелֆ детальный анализ связываясь с учёными, компанией, представителями научных журналов и, собственно, итоги этого исследования/расследования запечатлены в статье в Science.

Ранее другая команда проводила похожий анализ [2] в отношении этого же сайта и компании и собрала большой набор данных [3], как раз для тех кто интересуется темой paper mills, такой набор данных будет интересен.

Ссылки:
[1] https://www.science.org/content/article/russian-website-peddles-authorships-linked-reputable-journals
[2] https://retractionwatch.com/2021/12/20/revealed-the-inner-workings-of-a-paper-mill/
[3] https://data.world/beperron/international-publisher

#dataset #science #data #research #investigations
April 8, 2022
August 15, 2022
Рекомендую последние две публикации в канале Ивана Стерлигова про то что CrossRef перестаёт работать с российскими журналами и о последствиях этого шага [1] [2]. Последствия для российских научных организаций и учёных весьма неприятные, поскольку DOI выдают, в основном, два агентства в мире, это CrossRef и DataCite. CrossRef находится в США, DataCite в Германии, и там, и там будут соблюдать санкционные требования. Понятно что некоторые российские журналы будут напрямую публиковать все материалы на Zenodo, Arxive.org и ряде других, но если это будут журналы которые будут аффилированы так или иначе с научными учреждениями или лицами под санкциями, то, вопрос только времени, когда и некоммерческие проекты могут ввести свои ограничения в виду своей юрисдикции.

Это же к вопросу о наукометрии в России, которая во многом сейчас построена на открытых базах цитирования. Много ли будет толку от этих баз если измеримость научных публикаций будет сильно ограничена? Вопрос, этот, конечно, риторический.

Я, кстати, считаю что китайские сервисы выдачи DOI тут не помогут по одной простой причине. Китайские научные власти уже давно выстраивают партнерство с большинством зарубежных агрегаторов научных публикаций и создают собственную инфраструктуру. У них, например, есть свой аналог DOI, называется CSTR, Common Science and Technology Resource Identification [3]. Он используется не только для научных статей, но и для идентификации наборов данных, диссертаций, препринтов, патентов, инструментов, проектов, научных институтов и исследователей. Огромная база с открытым API и с интеграцией с Google Scholar, Semantic Scholar, CrossRef, ORCID и другими. В Китае есть проект Science Data Bank [4] для публикации открытых наборов научных данных, это китайский аналог Zenodo, так вот он интегрирован с десятками наукометрических проектов в США и в Европе. Проект уже интегрирован с OpenAIRE, Schoolix, Google Dataset Search, Data Citation Index, DataCite и другими. И это далеко не вся китайская научная инфраструктура, она, в принципе, весьма велика и интегрирована и интегрируется в мировую научную инфраструктуру очень тесно.

Будут ли китайские власти рисковать этим всем ради взаимодействия с российскими научными организациями? Лично я буду в этом сдержанно скептичен.

Ссылки:
[1] https://t.iss.one/science_policy/833
[2] https://t.iss.one/science_policy/834
[3] https://www.cstr.cn
[4] https://www.scidb.cn/en

#opendata #openaccess #openscience #science #china #crossref #sanctions
February 23, 2023
March 18, 2023
March 24, 2023
June 27, 2023
September 28, 2023
October 3, 2023
November 15, 2023
January 3, 2024
Полезные ссылки про данные, технологии и не только:

AI &
Science
- AI Scientist [1] фреймворки и примеры научных статей созданных полностью с помощью больших языковых моделей. Создано в японской AI лаборатории Sakana, у них же в блоге подробности [2]
- Accelerating scientific breakthroughs with an AI co-scientist [3] в блоге Google о мультиагентной системе на базе Gemini 2.0 для помощи исследователям в формировании гипотез и предложений исследователям. С акцентом на биомедицину, ожидаемо. Кстати, я до сих пор не видел ни одного исследования о потенциальном влиянии ИИ на разные научные дисциплины, а ведь потребность в таком анализе есть.
- ScienceOS [4] коммерческий сервис помощи исследователям с помощью ИИ. Как я понимаю пока там три основных сервиса: поговорить о науке в чате, поговорить вокруг PDF документа и управление ссылками.
- Awesome MCP Servers [5] большая коллекция серверов с Model Context Protocol в самых разных областях, в том числе с интеграцией с СУБД: Clickhouse, Elastic, BigQuery, Postgres и др.

Open Source
- Make Ubuntu packages 90% faster by rebuilding them [6] автор рассказывает как пересобирать пакеты для Linux ускоряя их приложения на примере утилиты jq. Почему это важно? jq используется во многих системах преобразования данных (ELT/ETL/скрейпинг) и сами советы дают некоторое понимание того как оптимизировать приложения с открытым кодом не меняя сам код
- Plane [7] аналог системы управления проектами Asana/Monday с открытым кодом. У открытой версии лицензия AGPL-3.0, так что использовать локально можно, а вот перепродавать свой сервис на их основе не получится.

Government & Data
- Government data is disappearing before our eyes [8] в целом ничего нового, но много ссылок на старое и происходящее сейчас с исчезновением открытых госданных в США.
- The State of Open Humanitarian Data 2025 [9] обзор состояния данных в сфере гуманитарной помощи от United Nations Office for the Coordination of Humanitarian Affairs (OCHA).

Ссылки:
[1] https://github.com/SakanaAI/AI-Scientist
[2] https://sakana.ai/ai-scientist-first-publication/
[3] https://research.google/blog/accelerating-scientific-breakthroughs-with-an-ai-co-scientist/
[4] https://www.scienceos.ai/
[5] https://github.com/punkpeye/awesome-mcp-servers
[6] https://gist.github.com/jwbee/7e8b27e298de8bbbf8abfa4c232db097
[7] https://github.com/makeplane/plane
[8] https://thehill.com/opinion/technology/5201889-government-data-is-disappearing-before-our-eyes/

#opendata #opensource #openaccess #ai #science #government #data
March 24