🧬 Evo 2: Крупнейшая AI-модель для работы с геномами
И следом интереснейший анонс от NVidia: Arc Institute и Stanford выпустили Evo 2 - самую большую публично доступную модель для работы с геномными данными.
1. Технический масштаб:
- Обучающий датасет: 8.85 триллионов нуклеотидов
- 15,032 эукариотических и 113,379 прокариотических геномов
- До 40B параметров
- Контекстное окно до 1 миллиона токенов (в 8 раз больше предшественника!)
2. Архитектура:
- Новый StripedHyena 2 (гибридная архитектура)
- Вместо привычных трансформеров использует комбинацию свёрточных фильтров и гейтов
- Обучается значительно быстрее традиционных моделей
- Тренировали на 2,048 NVIDIA H100 через DGX Cloud на AWS
3. Мультимодальность:
- Работает одновременно с ДНК, РНК и белками
- Охватывает все домены жизни (прокариоты, эукариоты, археи)
- Zero-shot перенос между видами
Практическое применение 💼:
1. Для исследователей:
- Доступна через NVIDIA BioNeMo как микросервис
- Можно файнтюнить под свои задачи
- Есть API для генерации биологических последовательностей
2. Для бизнеса:
- Дизайн и репозиционирование лекарств
- Предсказание влияния мутаций (точность 90% на BRCA1!)
- Разработка устойчивых к климату сельхозкультур
Самое весёлое будет подключить Evo2 как инструмент к исследователю от Google!
Это ж они так и единорогов переизобретут. :)
Кстати, безопасность не забыли - намеренно исключили из датасета вирусы эукариот.
#BioTech #Genomics #Research
———
@tsingular
И следом интереснейший анонс от NVidia: Arc Institute и Stanford выпустили Evo 2 - самую большую публично доступную модель для работы с геномными данными.
1. Технический масштаб:
- Обучающий датасет: 8.85 триллионов нуклеотидов
- 15,032 эукариотических и 113,379 прокариотических геномов
- До 40B параметров
- Контекстное окно до 1 миллиона токенов (в 8 раз больше предшественника!)
2. Архитектура:
- Новый StripedHyena 2 (гибридная архитектура)
- Вместо привычных трансформеров использует комбинацию свёрточных фильтров и гейтов
- Обучается значительно быстрее традиционных моделей
- Тренировали на 2,048 NVIDIA H100 через DGX Cloud на AWS
3. Мультимодальность:
- Работает одновременно с ДНК, РНК и белками
- Охватывает все домены жизни (прокариоты, эукариоты, археи)
- Zero-shot перенос между видами
Практическое применение 💼:
1. Для исследователей:
- Доступна через NVIDIA BioNeMo как микросервис
- Можно файнтюнить под свои задачи
- Есть API для генерации биологических последовательностей
2. Для бизнеса:
- Дизайн и репозиционирование лекарств
- Предсказание влияния мутаций (точность 90% на BRCA1!)
- Разработка устойчивых к климату сельхозкультур
Самое весёлое будет подключить Evo2 как инструмент к исследователю от Google!
Это ж они так и единорогов переизобретут. :)
Кстати, безопасность не забыли - намеренно исключили из датасета вирусы эукариот.
#BioTech #Genomics #Research
———
@tsingular
🔥7