В рубрике как это устроено у них, поисковик по биомедицинским датасетам DataMed [1], создан в Университете Калифорнии, Сан Диего, на грант 10 миллионов USD [2] от Национального института здравоохранения США и других грантодающих организаций.
С одной стороны, это действительно поисковик, с 49 проиндексированными репозиториями, 4-мя фасетами и 1.2 миллионами датасетов, а с другой стороны...
Из этих репозиториев топ 4 содержат 1 миллион датасетов, более 83% и, в целом, если пройтись по сайтам этих топ 4 репозиториев: ClinicalTrials, Gene Expression Omnibus, NeuroMorpho, Zenodo то их поиск содержит гораздо больше возможностей.
Кроме того сами особенности индексируемых данных учитываются, как бы сказать, никак.
Не выглядит, конечно, как продукт за 10 миллиона долларов, но даже в таком виде любопытен и потенциально полезен.
И конечно, это не поисковик, а по сути агрегатор репозиториев. Главное отличие поисковика по данным и агрегатора, в том что агрегатор создан быть проиндексированным поисковыми системами и у каждого датасета есть отдельная индексируемая страница. А поисковик не предполагает что его будут индексировать другие поисковики.
Ссылки:
[1] https://datamed.org
[2] https://reporter.nih.gov/project-details/1U24AI117966-01
#opendata #datasets #datasearch #datacatalogs #healthcare #bioinformatics
С одной стороны, это действительно поисковик, с 49 проиндексированными репозиториями, 4-мя фасетами и 1.2 миллионами датасетов, а с другой стороны...
Из этих репозиториев топ 4 содержат 1 миллион датасетов, более 83% и, в целом, если пройтись по сайтам этих топ 4 репозиториев: ClinicalTrials, Gene Expression Omnibus, NeuroMorpho, Zenodo то их поиск содержит гораздо больше возможностей.
Кроме того сами особенности индексируемых данных учитываются, как бы сказать, никак.
Не выглядит, конечно, как продукт за 10 миллиона долларов, но даже в таком виде любопытен и потенциально полезен.
И конечно, это не поисковик, а по сути агрегатор репозиториев. Главное отличие поисковика по данным и агрегатора, в том что агрегатор создан быть проиндексированным поисковыми системами и у каждого датасета есть отдельная индексируемая страница. А поисковик не предполагает что его будут индексировать другие поисковики.
Ссылки:
[1] https://datamed.org
[2] https://reporter.nih.gov/project-details/1U24AI117966-01
#opendata #datasets #datasearch #datacatalogs #healthcare #bioinformatics
👍6
В рубрике интересных поисковиков по данным на которые, возможно, и нам в Dateno надо присмотреться на предмет лучших идей Discovery Portal [1] в рамках NIAID Data Ecosystem.
Этот портал не совсем портал данных и не совсем поисковик, его правильно называют discovery. От портала данных его отличает то что он только агрегирует данные из других источников, а на нём самом ничего пользователи не публикуют. А от поисковика его отличает наличие веб страницы карточки у каждого датасета.
Его плюс - это метаданные и поиск ориентированы на исследователей медиков и биологов и он, несомненно, даёт им больше возможностей чем поисковики общего типа.
К тому же там более 3 миллионов 370 тысяч наборов данных, что много, не бесконечно много, но много.
Его минус в том что почти 70% его содержания это база OmicsDI [2], тоже портала поиска по датасетам в медицине и биологии, являющийся частью европейской инфраструктуры научных исследований ELIXIR.
В OmicsDI сейчас 4.1 миллиона записей что даже побольше чем в базе NAIAD.
Как я уже писал, научные каталоги данных отличаются большим числом собственных схем и стандартов метаданных, более комплексными поисковыми инструментами и инструментами интеграции с другими продуктами.
Мы до них рано или поздно доберемся в Dateno, пока же изученное подсказывает что научные экосистемы данных устроены иначе и поиск по ним требует иных подходов.
Ссылки:
[1] https://data.niaid.nih.gov
[2] https://www.omicsdi.org
#opendata #data #datacatalogs #dateno #datasets #bioinformatics
NIAID - это национальный институт аллергии и инфекционных болезней в США. А Discovery portal - это часть их инфраструктуры создания и научного обмена данными о заболеваниях и связанных с ними объектах исследования (геномы, биологические исследования и тд.)
Этот портал не совсем портал данных и не совсем поисковик, его правильно называют discovery. От портала данных его отличает то что он только агрегирует данные из других источников, а на нём самом ничего пользователи не публикуют. А от поисковика его отличает наличие веб страницы карточки у каждого датасета.
Его плюс - это метаданные и поиск ориентированы на исследователей медиков и биологов и он, несомненно, даёт им больше возможностей чем поисковики общего типа.
К тому же там более 3 миллионов 370 тысяч наборов данных, что много, не бесконечно много, но много.
Его минус в том что почти 70% его содержания это база OmicsDI [2], тоже портала поиска по датасетам в медицине и биологии, являющийся частью европейской инфраструктуры научных исследований ELIXIR.
В OmicsDI сейчас 4.1 миллиона записей что даже побольше чем в базе NAIAD.
Как я уже писал, научные каталоги данных отличаются большим числом собственных схем и стандартов метаданных, более комплексными поисковыми инструментами и инструментами интеграции с другими продуктами.
Мы до них рано или поздно доберемся в Dateno, пока же изученное подсказывает что научные экосистемы данных устроены иначе и поиск по ним требует иных подходов.
Ссылки:
[1] https://data.niaid.nih.gov
[2] https://www.omicsdi.org
#opendata #data #datacatalogs #dateno #datasets #bioinformatics
По поводу новости о Национальной базе генетической информации [1] и о том как она будет устроена. Я вот ещё на первых новостях о её появлении пытался найти хотя бы страницу с описанием этого проекта и хотя бы один документ, но ничего кроме постановления Пр-ва не нашёл, на сайте Курчатовского института тоже ничего не находится или ну очень глубоко спрятано, хотя казалось бы...
Поэтому вместо рассуждений о несделанном напомню про Китайский национальный центр по биоинформатики в котором хранится национальный банк генетических данных Китая. Чуть менее чем год назад там было геномных данных на 53 петабайта [2], сейчас на 68.7 петабайт [3].
Ссылки:
[1] https://www.rbc.ru/technology_and_media/24/03/2025/67dda55f9a79470f47baa7f0
[2] https://t.iss.one/begtin/5954
[3] https://www.cncb.ac.cn/
#opendata #russia #china #genomics #bioinformatics
Поэтому вместо рассуждений о несделанном напомню про Китайский национальный центр по биоинформатики в котором хранится национальный банк генетических данных Китая. Чуть менее чем год назад там было геномных данных на 53 петабайта [2], сейчас на 68.7 петабайт [3].
Ссылки:
[1] https://www.rbc.ru/technology_and_media/24/03/2025/67dda55f9a79470f47baa7f0
[2] https://t.iss.one/begtin/5954
[3] https://www.cncb.ac.cn/
#opendata #russia #china #genomics #bioinformatics
👍6✍2