Ivan Begtin
7.99K subscribers
1.87K photos
3 videos
101 files
4.58K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Большая практическая статья [1] о методах измерения открытости объектов научных данных (RDA, Research Data Objects). Она несколько далека от российских реалий поскольку начинается со слов Funders and policy makers have strongly recommended the uptake of the FAIR principles in scientific data management. Чего в России сейчас и в помине нет, ни регулятор(-ы), ни органы финансирующие научные разработки не проповедуют принципы открытости и качества работы с данными FAIR для исследований и не требуют обязательной публикации данных полученных в результате исследований [2]

В странах же где соблюдение этих принципов для исследователей стало частью их работы, теперь переходят к оценке соответствия, не одним, но множеством способов.

Ссылки:
[1] https://datascience.codata.org/articles/10.5334/dsj-2021-004/
[2] https://www.go-fair.org/fair-principles/

#opendata #openaccess #FAIR
В Nature статья о запросе учёных на полностью открытый обмен данными о коронавирусе [1]. 29 января сотнями ведущих учёных было подготовлено и подписано открытое письмо [2] о том что данные о расшифровке геномов штаммов SARS-CoV-2 должны публиковаться на портале International Nucleotide Sequence Database Collaboration (INSDC) [3] и быть доступными всем желающим.

Это необходимо потому что без этого невозможно поддерживать высокий темп разработки мер противодействия COVID-19.

Откуда возникло это письмо? В статье подробно рассматривается текущая инфраструктура раскрытия геномных данных. Основным порталом для их сбора является GISAID (Global Initiative on Sharing Avian Influenza Data) [4] созданный в форме государтсвенно-частной инициативы [5] правительствами Германии, США, Сингапура, Бразилии, компании Seqirus и фонда Sanofi Pasteur’s Foundation for Influenza Epidemiology.

GISAID изначально был платформой не про открытие данные, а про обмен данными (data sharing). Главная причина в том что учёные работающие над исследованиями хотят точно знать кто скачивал и использует их данные и быть уверенными что результаты их работы
не будут использованы без ссылки на них.

Авторы письма не предлагают открыть данные GISAID, но получится ли создать более полную базу данных и полностью открытую, вот в чём вопрос. Впрочем проблема COVID-19 - это, действительно, мировая проблема и хочется надеяться что принципы ограничения доступа к информации применяемые в "условно-мирное время" могут быть более открытыми во время пандемии.


Ссылки:
[1] https://www.nature.com/articles/d41586-021-00305-7
[2] https://www.covid19dataportal.org/support-data-sharing-covid19
[3] https://www.insdc.org/
[4] https://www.gisaid.org/
[5] https://www.gisaid.org/about-us/public-private-partnerships/

#opendata #openaccess #fair #covid19
В рубрике данные о России, не в России и в России, каталог открытых наборов данных о биоразнообразии GBIF Global Biodiversity Information Facility [1]. В каталоге более 63 тысяч наборов данных посвящённых таксономии живых существ и из них 548 наборов данных опубликовано из Российской Федерации [2], например, Национальный банк-депозитарий живых систем при МГУ [3] и многие другие.

Если быть точным, то у GBIF есть сообщество и в России [4] посвящённое оцифровке коллекций, правильному ведению метаданных, принципам FAIR и многое, а также о том как пишутся статьи на данных [5].

Здесь надо сказать что в России, возможно как и во многих других странах, внедрение практики открытости науки и открытости данных в науке продолжается там где есть живая наука интегрированная в мировую. Там где она есть там есть и принципы FAIR, и интеграция с большими международными каталогами данных и многое другое что является просто естественным развитием исследовательской деятельности.

При этом в России постепенно появляются руководства по управлению исследовательскими данными. Они есть, как минимум в виде рекомендаций [6] в ГПНТБ СО РАН и в Офисе управления исследовательскими данными СибГМУ [7], но нет ничего на уровне инициатив Минобрнауки или РНФ или иных финансирующих отечественную науку организаций.

Ссылки:
[1] https://www.gbif.org/
[2] https://www.gbif.org/dataset/search?publishing_country=RU
[3] https://plant.depo.msu.ru/
[4] https://gbif.ru/
[5] https://gbif.ru/datapaper
[6] https://www.spsl.nsc.ru/naukresursy-i-uslugi-gpntb-so-ran-dlya-nauki-i-biznesae-i-biznesu/rdm/
[7] https://ssmu.ru/ru/nauka/databank/

#opendata #openscience #openaccess #FAIR
В Nature статья Time to recognize authorship of open data [1], о сложностях сочетания научной работы и открытости данных по причине необходимости распространения данных под свободными лицензиями не предполагающими авторства.

Ответов статья не даёт, скорее задаёт правильный вопрос - как совместить необходимость упоминания вклада исследователей и открытость научных данных по принципам FAIR. По сути эта статья - это приглашение к дискуссии на эту тему.

Ссылки:
[1] https://www.nature.com/articles/d41586-022-00921-x

#opendata #openaccess #openscience #FAIR
В рубрике интересных наборов открытых данных публикуемых в России и малоизвестных, поскольку относящихся к узким научным областям знаний. В данном случае к биоинформатике.

- HOMOCOMO [1] проект по полной коллекции моделей связывания факторов транскрипции для человека и мыши с помощью крупномасштабного анализа ChIP-Seq создан на гранты РФФИ, РНФ и Skoltech Systems Biology Fellowship. Данные доступны под лицензией WTFPL ("Do What The Fuck You Want To Public License") [2]
- VDJdb [3] это курируемая база данных последовательностей Т-клеточных рецепторов (TCR) с известной антигенной специфичностью. Основной целью VDJdb является облегчение доступа к существующей информации о специфичности антигена Т-клеточного рецептора, т. е. способность распознавать определенные эпитопы в определенных контекстах MHC. Проект создавался совместным российским и европейским финансированием [4], а все данные и исходных код доступны на Github.
- GTRD (Gene Transcription Regulation Database) [5] наиболее полная коллекция единообразно обработанных данных ChIP-seq по идентификации сайтов связывания факторов транскрипции для человека и мыши. Доступно в виде данных для скачивания в машиночитаемых форматах.

А также многие другие данные создаются как открытые в проектах где российская наука существует и была интегрирована с мировой.

Ссылки։
[1] https://hocomoco11.autosome.org/
[2] https://en.wikipedia.org/wiki/WTFPL
[3] https://vdjdb.cdr3.net/
[4] https://vdjdb.cdr3.net/credits
[5] https://gtrd.biouml.org/#

#opendata #openaccess #FAIR
В рубрике как это работает у них, проект FairSharing [1] база стандартов, политик и баз данных/каталогов данных связанных с научными исследованиями.

В общей сложности в базе собраны։
- 1973 баз данных
- 1646 стандартов
- 159 политик
- 3487 организаций

Важная особенность в том что все материалы тщательно перелинкованы, включают ссылки на научные публикации, информацию об организациях, их роли и так далее.

Это курируемый каталог, с командой из 8 человек из Data Readiness Group из Университета Оксфорда [2] и десятков если не сотен исследователей вовлеченных в его наполнение.

Изначально специализация команды была в биомедицине, бионауках и всё что подпадает под life sciences, поэтому можно заметить что и FairSharing содержит более всего ресурсов по медицине и биологии, а также то что в самом каталоге есть возможность фильтрации по материалам относящимся к видам животных. Тем не менее, сейчас проект развивается скорее как универсальный. К примеру, уже много материалов по компьютерным наукам и совсем мало по экономике.

Материалов связанных с Россией там очень мало, с другими постсоветскими странами. Есть данные по метеорологии, несколько баз данных по биологии и генетике, профинансированных РНФ, и несколько баз созданных ещё в советское время в рамках World Data Centers.

При этом данные интегрированы с проектами Re3Data от DataCite и ROR.

Лично меня удивило только что сделан он на самостоятельно разработанном движке, а не на Wikidata, к примеру, который смотрится почти идеально для подобных задач. С другой стороны у продуктов на базе Mediawiki и Wikidata свои ограничения, несомненно собственный движок гораздо гибче.

Ссылки։
[1] https://fairsharing.org/
[2] https://datareadiness.eng.ox.ac.uk/

#openaccess #opendata #fair #datastandards