OdanChem research
298 subscribers
19 photos
13 links
О платформе OdanChem:
https://odanchem.org/
По всем вопросам: @ole_afan
Download Telegram
Channel created
OdanChem: О чём этот канал

Как и любой проект, который выходит на оперативный простор, мы наконец запускаем свой Telegram-канал. Здесь мы будем говорить о языке данных, исследований и новых решений.

Для кого это?
В первую очередь — для специалистов в области R&D и научных сотрудников, кто ежедневно сталкивается с задачами поиска и обработки данных в химии.

Основные тематики канала

В первую очередь - о платформе OdanChem. Новости, релизы, лайфхаки по использованию)
Также будут:
1. Обзоры и новости химических платформ.
Новости, их оценка. Будем рассказывать о полезных и работающих инструментах, которые действительно могут ускорить ваши исследования.
2. Нетривиальные способы поиска химических данных.
Глубокий поиск в статьях, работа с сложными базами данных, автоматизация сбора информации — раскроем методики, которые экономят время и открывают новые возможности.
3. Инсайты и открытия.
Будем делиться тем, что сами находим интересным: от новых статей и неочевидных химических свойств до обсуждения трендов в науке и разработке.

Чего ждать от формата?
Мы против информационного шума. Поэтому не будет строгого графика — посты будут появляться тогда, когда есть что сказать по-настоящему важное. В начале постов будет больше - опишем здесь основные подходы к работе с платформой. Далее - по мере появления инфоповодов

Ссылка на платформу: https://odanchem.org/

Тэги:
#spectrum_search - поиск по спектру
#odanchem - новости/общая информация

Ссылки на наиболее полезные посты (обновляется):
Общее
Как готовить образец на ЯМР
Что такое quality и overall quality
Как найти методику синтеза вещества с использованием OdanChem
Поиск по реакциям
Основные проблемы и способы их решения
Поиск новых реакций с помощью полуавтоматического анализа спектра

Поиск по спектру
Принципы поиска по спектру - ч
. 1
Принципы поиска по спектру - ч. 2
Принципы поиска по спектру - ч. 3
Пример поиска по спектру
Фильтры в поиске по спектру
🔥1
Что такое quality и overall quality, которые у нас приведены для каждого молекулы и спектра в системе?
#odanchem
Это внутренние метрики адекватности описания молекулы.
Quality - это параметр, показывающий насколько данный конкретный спектр соответствует данной конкретной молекуле (характеризует связку молекула-спектр-статья).
Overall quality - это параметр, показывающий насколько совокупное описание данной молекулы в данной статье адекватно (характеризует связку молекула-статья).

Рассмотрим на примере (картинка). Допустим, в какой-то статье авторы синтезировали п-анизидин и стали описывать его спектры.
Как видно из структуры, анизидин должен дать 5 сигналов в 13С ЯМР. Если все пять сигналов реально есть, и их положения сходятся с ожидаемым, исходя из предсказаний, а также с положениями сигналов на спектрах анизидина в других статьях, то quality будет высоким.
Если же авторы потеряли несколько сигналов, или они плохо сходятся по положениям с ожидаемым - quality упадет.

Теперь расширим пример (картинка). Есть две статьи. В одной для уже упомянутого анизидина есть 1Н ЯМР, 13С ЯМР, HRMS, температура плавления, и все это соответствует заявленной структуре и другим спектрам того же анизидина. То есть, существует много спектров, у каждого из которых высокое quality. Это приведет к тому, что overall quality описания анизидина в данной статье также будет высоким. Во второй статье авторы решили, что молекула известная, и привели только один 1Н ЯМР спектр. Спектр хороший, соответствует структуре, его quality высокое. Но он только один, в результате overall quality характеризации анизидина в данной статье будет низким. Так как, при прочих равных, мы явно больше верим авторам, которые зарегистрировали 5 спектров одной молекулы, по сравнению с авторами, показавшими только один спектр.
Это только поверхностное описание - в реальности в данные параметры зашита более хитрая логика.

Как этим пользоваться на практике?
- Чем выше quality и overall quality - тем лучше). И тот и тот параметр выше 70% считается хорошим
- Overall quality в общем случае важнее quality. Для какой-то молекулы может быть плохо описан один из спектров, но наличие еще трех сошедшихся перевесит и подтвердит, что авторы синтезировали именно то, что заявили.
- Думайте головой и перепроверяйте первоисточник в сомнительных случаях) Как - в другом посте.
Картинка для иллюстрации к предыдущему посту. Поясняет, чем отличаются quality и overall_quality друг от друга и от чего зависят
На недавно прошедшей II Научной конференции «Искусственный интеллект (ИИ) в химии и материаловедении» особое внимание было уделено необходимости создания качественных баз данных по химии (см., https://t.iss.one/khokhlovAR/1126), без которых невозможно разработать эффективные инструменты ИИ в этой области.

В данный момент химики пользуются двумя общепринятыми базами: Reaxys и SciFinder. Но оба сервиса являются иностранными, причем доступа к Reaxys в России сейчас нет. С учетом этого, вопрос о разработке отечественного аналога этих баз является актуальным. Хотел бы здесь привлечь внимание к российской платформе OdanChem (https://odanchem.org), которую я упоминал в своем вступительном слове на круглом столе по базам данных в прошедший четверг:

https://disk.yandex.ru/i/4vv-kIwdU0UmFQ

База OdanChem перекрывает часть функционала SciFinder и Reaxys. В частности, там удобно искать ИК и ЯМР спектры органических молекул, а также есть и свои уникальные возможности. В частности, можно автоматически решать обратную спектроскопическую задачу: поиск молекул, соответствующих заданному пользователем спектру, таким образом разгадывая состав смесей. Существенная часть этой системы находится в открытом доступе.

Разработчики OdanChem сообщили мне, что сегодня на данной платформе была размещена новая версия, в которой стал доступен поиск не только по молекулам, но и по реакциям, что еще больше увеличивает перекрытие функционала с SciFinder и Reaxys. Эта функция уже доступна, там все self-explanatory, но скоро появится и подробная инструкция, как ей пользоваться.

Интересно, что платформа была инициативно сделана выходцами из ИНЭОС РАН за собственные средства, и никакого бюджетного финансирования коллеги не получают. Это уже становится традицией – новые полезные для ученых информационные инструменты разрабатывают одни, а бюджетные деньги за научную информацию для российских ученых получают другие (см. также https://t.iss.one/khokhlovAR/1125).
👍4
Как найти методику синтеза вещества с использованием OdanChem
Сейчас у нас уже есть бета-версия поиска по реакциям, и доступных данных будет все больше. Однако, опишу здесь один лайфхак как искать доверенную методику синтеза.
Допустим, вы хотите сварить молекулу. Стандарты работы в органике говорят, что, если молекула получена, для нее нужно зарегистрировать спектр. Поэтому просто ищете по структуре, находите в odanchem ее спектры. Выбираете ту статью, где у молекулы максимальный overall quality, открываете эту статью и саппорт. Наверняка тут будет описан ее синтез. И вот в этот момент вам поможет то, что мы в явном виде приводим описания спектров, а не только ссылку на статью. Копируете строку спектра (лучше не всю, а ее часть, включающую основные сигналы - начало строки спектра мы немного модифицируем для унификации хранения в нашей БД), в саппорте/самой статье нажимаете ctrl+F и сразу попадаете на то место, где описан синтез данной молекулы. И не надо листать 200+ страниц саппорта).
👍4
Поиск по реакциям в OdanChem
#odanchem
Наконец можно подробнее написать про поиск по реакциям. Он возник, это большой шаг для нашей платформы, так как всем его не хватало.
Как обычно, чтобы им воспользоваться, нужно залогиниться. Страница
Мы постарались сделать интерфейс как можно проще.
Просто рисуете что вам нужно найти. Хотите реакцию сразу - в окне кетчера нужно ее изобразить. Система поймет, что это реакция, и будет по ней искать.
Если вы нарисовали молекулу, то надо с использованием выпадающих списков под рисовалкой выбрать, это продукт или исходник, и искать точно или в режиме фрагмента структуры.
После поиска можно уточнить результаты. Наша система позволяет гибко сочетать запросы, например выполнить поиск по реакции, а далее отфильтровать только те хиты, что содержат заявленную молекулу, или оставить только те реакции, которые идут в нужном диапазоне условий.
Сейчас у нас порядка 10 млн реакций, это много, но далеко не все, что хотелось бы. Поэтому мы пока считаем это бета-версией поиска.
👍10🔥6🍌4🎄2
Forwarded from CoLab.ws
Представляем интеграцию 🔥CoLab.ws и OdanChem🔥

OdanChem — это российский сервис поиска химической информации с самой большой в мире базой ЯМР-спектров.

Одна из ключевых фишек — возможность решения обратной спектроскопической задачи. То есть загрузить спектр и найти какая структура ему соответствует.

В их базе данных содержится:
>17млн ЯМР спектров на 37 типах ядер
>20млн молекул
>2млн ИК-спектров
>500k ВЭЖХ и ГХ

И теперь есть возможность искать по 10млн химических реакций.

1) Теперь в OdanChem можно авторизоваться через кнопкуLogin with CoLab.ws. После входа ваши данные автоматически подтянутся из профиля ученого CoLab — заполнять их вручную больше не нужно.

2) В это же время на страницах публикаций в CoLab и в результатах поиска Cobalt теперь отображается количество молекул и спектров из OdanChem. Нажав на этот счётчик, вы можете сразу перейти к соответствующим данным.

Функция уже доступна для авторизованных пользователей для более чем 880 000 публикаций на CoLab.

👉🏻Также призываем подписаться на канал коллег:
https://t.iss.one/odanchem
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥104👍3
Принципы поиска по спектру
#spectrum_search
Данным постом открываю серию публикаций на тему использованию поиска по ЯМР спектру в работе синтетика. Эта концепция не самая стандартная, поэтому для подавляющего большинства синтетиков вообще дико звучит идея "поищи по ЯМР спектру". Для массов благодаря базе NIST к этому все привыкли, для ИК спектров - в целом, тоже, но для ЯМР частая реакция - "А что, так можно было?". Внезапно да, можно и нужно. Будет серия постов, потом они объединятся в большой лонгрид с картинками.

Сегодняшний пост - начало рассуждений о том, как такой поиск вообще может работать, какие есть подводные камни. А потом будут части про то, как он работает у нас, какие-то практические use-case, а также рекомендации. 
Все программы для библиотечного поиска, которые я знаю (буду рад в комментариях обсудить другие подходы, концепции, примеры реализации), работают по принципу полнопрофильного сравнения спектров. То есть, допустим, у нас доступна библиотека ИК или масс спектров. Туда залиты экспериментально зарегистрированные и как-то предобработанные данные. По сути, полный профиль. Есть экспериментальный спектр, который мы хотим пробить по базе. Программа предобрабатывает загруженный спектр по аналогии с библиотечными и сравнивает со всеми спектрами в базе. По пути считает какую-то similarity, по которой ранжируется выдача результатов. Математика (алгоритм сравнения) там может быть разная, но общая логика примерно одна - мы каждую точку нашего спектра сравниваем с соответствующей точкой библиотечного. Возможно, когда-то потом сделаю пост с описанием классических алгоритмов поиска.
Схема - отличная, позволяет аккуратно искать по библиотеке, дает довольно точные результаты. Один нюанс - для ее работы нужна база данных с исходниками спектров. Такие базы для МС с ионизацией электронами делает NIST, есть много ИК-баз разного размера от производителей ИК-спектрометров. Новый спектр туда тоже попадает по одной схеме: автор базы должен либо зарегистрировать его сам, либо у кого-то доверенного (то есть автор верит этому кому-то, что спектр соответствует тому, чему заявлено) этот спектр взять. И это работает для коммерчески доступных веществ, но что, если мы хотим базу state-of-the-art молекул?  
Можно написать авторам статей, где они опубликованы. Но убедить всех все прислать, стандартизировать формат и т.п. - задача нетривиальная. Но погодите, они УЖЕ описали спектры своих  молекул в стандартном общепринятом виде строки спектра. Всем знакомое
1H NMR (400 MHz, CDCl3) δ 7.37 (dd, J = 7.4, 1.7 Hz, 1H), 7.30 (ddd appears as td, J = 7.9, 1.6 Hz, 1H), 7.25 – 7.19 (m, 2H), 6.99 – 6.91 (m, 2H), 6.75 (t, J = 7.3 Hz, 1H), 6.71 (d, J = 7.5 Hz, 2H), 4.39 (s, 2H), 4.17 (s, 1H), 3.90 (s, 3H).

Вот их можно попытаться оцифровать и получить список положений пиков. Но ключевая проблема - мы не можем по этим данным полноценно восстановить профиль спектра. Интенсивности на 13С ЯМР зависят от кучи факторов и их обычно не пишут. И, думаю, все это читающие хоть раз забивали на расшифровку сложной мультиплетности (сложнее дублета дублетов) на протоннике и писали "m". Ширина мультиплета тоже не всегда понятна. Поэтому нужен какой-то другой принцип поиска, который мы как раз и реализовали. В чем он заключается - будет следующий пост.
13👍5🔥4