Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
🧬 ESM3 - это новая, мощнейшая мультимодальная генеративная языковая модель для биологии.
ESM3 может cмоделировать 500 миллионов лет эволюции для генерации новых белков и молекул.
Модель обучена с использованием более 1x1024 FLOPS и 98B параметров!
Используя модель авторы смоделировали эволюционный процесс и создали новый тип белка GFP (зеленый флуоресцентный белок), отличающийся от всего, что встречается в природе. Это буквально модель для программирования биологии.
▪Почитать подробнее: https://www.evolutionaryscale.ai/blog/esm3-release
▪Статья: https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/research/esm3.pdf
@ai_machinelearning_big_data
ESM3 может cмоделировать 500 миллионов лет эволюции для генерации новых белков и молекул.
Модель обучена с использованием более 1x1024 FLOPS и 98B параметров!
Используя модель авторы смоделировали эволюционный процесс и создали новый тип белка GFP (зеленый флуоресцентный белок), отличающийся от всего, что встречается в природе. Это буквально модель для программирования биологии.
▪Почитать подробнее: https://www.evolutionaryscale.ai/blog/esm3-release
▪Статья: https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/research/esm3.pdf
@ai_machinelearning_big_data
Forwarded from Machinelearning
⚡️ Gemma 2 9B GGUF — набор квантизованных версий Gemma 2
Встречайте набор моделей, полученных квантизацией Gemma 2 с разной степенью сжатия.
Для квантизации использовался этот датасет
Особенности:
- GGuf версии очень слабы, более-менее адекватная - 9B (Q4 и Q5)
- Фокус "специализации": текст (
- Модель не поддерживает системные промты
🤗 Hugging Face
🟡 Неквантизованная Gemma 2
@ai_machinelearning_big_data
Встречайте набор моделей, полученных квантизацией Gemma 2 с разной степенью сжатия.
Для квантизации использовался этот датасет
Особенности:
- GGuf версии очень слабы, более-менее адекватная - 9B (Q4 и Q5)
- Фокус "специализации": текст (
стилистика, словарный запас, обсуждения
), применимо только к English-language content, программирование - обучение синтаксису и паттернам написания кода ( прокачка скиллов модели по ЯП не уточняются), математика - решение задач, логика постоения ответов.- Модель не поддерживает системные промты
🤗 Hugging Face
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Пост о мотивации от нейросетей
В Индии учитель использует изображения, сгенерированные в DALL-E 3, чтобы мотивировать своих учеников.
@neural
В Индии учитель использует изображения, сгенерированные в DALL-E 3, чтобы мотивировать своих учеников.
@neural
🧬 Бывшие ученые компании MetaAI представили огромную модель искусственного интеллекта для проектирования белков, которая может стать одной из крупнейших моделей ИИ в биологии.
Компания EvolutionaryScale, основанная бывшими сотрудниками Meta, разработала модель языка белков, которая может быть использована для создания новых флуоресцентных молекул и нашла применение в разработке лекарств, устойчивом развитии и других областях.
Модель ESM3 была обучена на более чем 2,7 миллиардах последовательностей и структур белков, а также на информации о функциях этих белков. Пользователи могут вводить спецификации, и модель создаст нужные белки, подобно тому, как чатботы, такие как ChatGPT, генерируют текст.
Команда EvolutionaryScale продемонстрировала возможности своей модели, создав новые варианты зеленого флуоресцентного белка (GFP), который был открыт в 1960-х годах в биолюминесцентной медузе. Улучшенные варианты GFP имеют более яркий свет и могут использоваться для маркировки других белков под микроскопом.
Модель ESM3 создала несколько вариантов белков, один из которых, esmGFP, имеет структуру, схожую со структурой природных флуоресцентных белков, но его последовательность аминокислот отличается более чем на 40%. Ученые считают, что для появления такого белка в природе могло бы потребоваться более 500 миллионов лет эволюции.
Однако некоторые эксперты выражают обеспокоенность по поводу потенциально вводящих в заблуждение утверждений о возможностях ИИ и ускорении эволюции. ESM3 является одной из первых биологических моделей ИИ, которая требует уведомления правительства США и принятия мер по снижению рисков из-за огромного количества вычислительных ресурсов, необходимых для ее обучения.
Компания EvolutionaryScale выпустила открытую версию модели ESM3, но самая большая версия требует значительных вычислительных ресурсов и не доступна широкой публике. Ученые планируют применять модель ESM3 для решения различных задач, включая устойчивое развитие, создание антител и разработку белковых лекарственных препаратов
Источник
Компания EvolutionaryScale, основанная бывшими сотрудниками Meta, разработала модель языка белков, которая может быть использована для создания новых флуоресцентных молекул и нашла применение в разработке лекарств, устойчивом развитии и других областях.
Модель ESM3 была обучена на более чем 2,7 миллиардах последовательностей и структур белков, а также на информации о функциях этих белков. Пользователи могут вводить спецификации, и модель создаст нужные белки, подобно тому, как чатботы, такие как ChatGPT, генерируют текст.
Команда EvolutionaryScale продемонстрировала возможности своей модели, создав новые варианты зеленого флуоресцентного белка (GFP), который был открыт в 1960-х годах в биолюминесцентной медузе. Улучшенные варианты GFP имеют более яркий свет и могут использоваться для маркировки других белков под микроскопом.
Модель ESM3 создала несколько вариантов белков, один из которых, esmGFP, имеет структуру, схожую со структурой природных флуоресцентных белков, но его последовательность аминокислот отличается более чем на 40%. Ученые считают, что для появления такого белка в природе могло бы потребоваться более 500 миллионов лет эволюции.
Однако некоторые эксперты выражают обеспокоенность по поводу потенциально вводящих в заблуждение утверждений о возможностях ИИ и ускорении эволюции. ESM3 является одной из первых биологических моделей ИИ, которая требует уведомления правительства США и принятия мер по снижению рисков из-за огромного количества вычислительных ресурсов, необходимых для ее обучения.
Компания EvolutionaryScale выпустила открытую версию модели ESM3, но самая большая версия требует значительных вычислительных ресурсов и не доступна широкой публике. Ученые планируют применять модель ESM3 для решения различных задач, включая устойчивое развитие, создание антител и разработку белковых лекарственных препаратов
Источник
🔥 Дайджест новостей.
🏭 Xiaomi представил новый завод, который работает 24/7 без человеческого труда.
Xiaomi запустила в Пекине новый автономный интеллектуальный завод, который сможет производить 10 миллионов мобильных телефонов в год и самостоятельно устранять производственные проблемы с помощью технологий искусственного интеллекта.
Завод площадью 80 000 квадратных метров включает 11 производственных линий и производит новейшие смартфоны Xiaomi, в том числе MIX Fold 4 и MIX Flip.
Работая круглосуточно, фабрика использует собственную ИИ-производственную платформу для оптимизации процессов и управления операциями — от закупки материалов до доставки продукции. Gizmochina.com
🇰🇷 Samsung представляет новые носимые устройства с интегрированными функциями ИИ на выставке Unpacked 2024.
На мероприятии Unpacked 2024 компания Samsung представила передовые носимые устройства с искусственным интеллектом, в том числе Samsung Galaxy Ring, складные смартфоны с искусственным интеллектом, Galaxy Watch 7 и Galaxy Watch Ultra. Все новинки за 12 минут
🖥 Новый инструмент AWS генерирует корпоративные приложения по текстовому промпту.
Инструмент под названием App Studio позволяет вам использовать подсказку на естественном языке для создания корпоративных приложений, таких как системы отслеживания запасов или процессы утверждения претензий, устраняя необходимость в профессиональных разработчиках. В настоящее время он доступен для предварительного просмотра. Amazon.com
📹 Vimeo запускает маркировку для контента с использованием искусственного интеллекта.
Следуя по стопам TikTok, YouTube и Meta, видеоплатформа Vimeo призывает авторов контента раскрывать информацию о том, когда искусственный интеллект помогает им создавать загружаемый контент.
Компания также работает над разработкой автоматизированных систем маркировки с использованием искусственного интеллекта. Vimeo
✍️ Платформа Writer добавляет функции ИИ в свои сервисы.
Улучшения включают расширенную генерацию с расширенным поиском на основе графов (RAG). Новые функции доступны для пользователей Ask Writer и AI Studio. Writer.com
@neural
🏭 Xiaomi представил новый завод, который работает 24/7 без человеческого труда.
Xiaomi запустила в Пекине новый автономный интеллектуальный завод, который сможет производить 10 миллионов мобильных телефонов в год и самостоятельно устранять производственные проблемы с помощью технологий искусственного интеллекта.
Завод площадью 80 000 квадратных метров включает 11 производственных линий и производит новейшие смартфоны Xiaomi, в том числе MIX Fold 4 и MIX Flip.
Работая круглосуточно, фабрика использует собственную ИИ-производственную платформу для оптимизации процессов и управления операциями — от закупки материалов до доставки продукции. Gizmochina.com
🇰🇷 Samsung представляет новые носимые устройства с интегрированными функциями ИИ на выставке Unpacked 2024.
На мероприятии Unpacked 2024 компания Samsung представила передовые носимые устройства с искусственным интеллектом, в том числе Samsung Galaxy Ring, складные смартфоны с искусственным интеллектом, Galaxy Watch 7 и Galaxy Watch Ultra. Все новинки за 12 минут
Инструмент под названием App Studio позволяет вам использовать подсказку на естественном языке для создания корпоративных приложений, таких как системы отслеживания запасов или процессы утверждения претензий, устраняя необходимость в профессиональных разработчиках. В настоящее время он доступен для предварительного просмотра. Amazon.com
📹 Vimeo запускает маркировку для контента с использованием искусственного интеллекта.
Следуя по стопам TikTok, YouTube и Meta, видеоплатформа Vimeo призывает авторов контента раскрывать информацию о том, когда искусственный интеллект помогает им создавать загружаемый контент.
Компания также работает над разработкой автоматизированных систем маркировки с использованием искусственного интеллекта. Vimeo
✍️ Платформа Writer добавляет функции ИИ в свои сервисы.
Улучшения включают расширенную генерацию с расширенным поиском на основе графов (RAG). Новые функции доступны для пользователей Ask Writer и AI Studio. Writer.com
@neural
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
EchoMimic - проект инновационного подхода, комбинирующий использование аудиодорожки и маркеры лиц для создания динамичных портретов сохраняя реалистичность исходного иpображения.
Mетод EchoMimic построен на моделях Stable Diffusion и использует модули Reference U-Net, Landmark Encoder и Audio Encoder для кодирования референсных изображений, характеристик лиц и аудио соответственно. На финальном этапе, Attention Layers декодирует временную динамику для создания последовательностей согласованных по времени видео.
Согласно проведенным в ходе разработки бенчмаркам, EchoMimic демонстрирует лучшие результаты по сравнению с другими проектами, такими как: SadTalker, AniPortrait, V-Express и Hallo в различных наборах данных, достигая высоких показателей по метрикам FID, FVD, SSIM и E-FID.
Рекомендованные ресурсы - от 16 GB VRAM, но EchoMimic работает и на 8 GB VRAM (увеличивается время инференса).
⚠️ В процессе установки скачиваются дополнительные модели:
⚖️ Лицензирование: Apache-2.0
@ai_machinelearning_big_data
#Image2Animate #LipSync #ML #Diffusers #EchoMimic
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Конец эры: через несколько часов ChatGPT-3.5 будет отключён на сайте OpenAI
Вскоре ChatGPT-3.5 прекратит свою работу на сайте OpenAI. На его место придёт новый бесплатный ИИ — GPT-4o-mini, о чём досрочно сообщили в Bloomberg.
Новый ИИ обещает быть значительно умнее своего предшественника, поддерживая работу не только с текстом, но и с видео и аудио.
@neural
Вскоре ChatGPT-3.5 прекратит свою работу на сайте OpenAI. На его место придёт новый бесплатный ИИ — GPT-4o-mini, о чём досрочно сообщили в Bloomberg.
Новый ИИ обещает быть значительно умнее своего предшественника, поддерживая работу не только с текстом, но и с видео и аудио.
@neural
Forwarded from Machinelearning
🔥 Apple только что выпустила LLM с открытым исходным кодом 7B, весами, кодом и набором данных! 👀
TL;DR:
🧠 Базовая модель 7B, обученная на 2,5Т токенах ✅ Данные в основном на английском языке, контекстное окно 2048
✅ Объединенные данные DCLM-BASELINE, StarCoder и ProofPile2
✅ MMLU 0.6372 > Mistral & < Llama3
✅ Открытая лицензия с лицензией Apple
✅ Соответствует моделям с закрытыми наборами данных, таким как Mistral
✅ Обучен с использованием Python и OpenLM framework
✅ Доступно на huggingface и в Transformers
▪Модель: https://huggingface.co/apple/DCLM-7B
▪Репозиторий: https://github.com/mlfoundations/dclm
▪Набор данных: https://huggingface.co/datasets/mlfoundations/dclm-baseline-1.0
▪Документация: https://arxiv.org/abs/2406.11794
@ai_machinelearning_big_data
#LLM #ML #Apple
TL;DR:
🧠 Базовая модель 7B, обученная на 2,5Т токенах ✅ Данные в основном на английском языке, контекстное окно 2048
✅ Объединенные данные DCLM-BASELINE, StarCoder и ProofPile2
✅ MMLU 0.6372 > Mistral & < Llama3
✅ Открытая лицензия с лицензией Apple
✅ Соответствует моделям с закрытыми наборами данных, таким как Mistral
✅ Обучен с использованием Python и OpenLM framework
✅ Доступно на huggingface и в Transformers
▪Модель: https://huggingface.co/apple/DCLM-7B
▪Репозиторий: https://github.com/mlfoundations/dclm
▪Набор данных: https://huggingface.co/datasets/mlfoundations/dclm-baseline-1.0
▪Документация: https://arxiv.org/abs/2406.11794
@ai_machinelearning_big_data
#LLM #ML #Apple
📢 Новая аспирантура по ИИ : теория + практика
В новой аспирантуре по ИИ молодые ученые будут работать с новейшими алгоритмами и моделями машинного обучения, изучать и применять самые современные методологии — глубокое обучение, нейронные сети и усовершенствованные методы обработки данных. Запускают ее Яндекс, Вышка и ИТМО, чтобы объединить исследования с практикой. Это позволит получить ценный опыт в решении конкретных задач с использованием машинного обучения.
Также студентов ждет ежегодный грант в размере 800 тысяч рублей. Эти средства можно использовать для приобретения необходимого оборудования и программного обеспечения.
Подобные инициативы — шанс для будущих ученых быстрее сделать карьеру и углубить знания, применить их на практике в реальных продуктах.
В новой аспирантуре по ИИ молодые ученые будут работать с новейшими алгоритмами и моделями машинного обучения, изучать и применять самые современные методологии — глубокое обучение, нейронные сети и усовершенствованные методы обработки данных. Запускают ее Яндекс, Вышка и ИТМО, чтобы объединить исследования с практикой. Это позволит получить ценный опыт в решении конкретных задач с использованием машинного обучения.
Также студентов ждет ежегодный грант в размере 800 тысяч рублей. Эти средства можно использовать для приобретения необходимого оборудования и программного обеспечения.
Подобные инициативы — шанс для будущих ученых быстрее сделать карьеру и углубить знания, применить их на практике в реальных продуктах.
Forwarded from Machinelearning
Llama 3.1 - набор предварительно обученных и настроенных по инструкции генеративных моделей размером 8B, 70B и 405B (текст в тексте/текст на выходе). Модели Llama 3.1 с инструкциями (8B, 70B, 405B) оптимизированы для использования в многоязычных диалогах и превосходят многие из доступных моделей с открытым исходным кодом и закрытых моделей для чатов в распространенных отраслевых тестах.
Llama 3.1 - это авторегрессивная языковая модель, использующая оптимизированную архитектуру трансформаторов. В настроенных версиях используются контролируемая тонкая настройка (SFT) и обучение с подкреплением и обратной связью (RLHF) для согласования с предпочтениями человека в отношении полезности и безопасности.
Pretrained:
Meta-Llama-3.1-8B
Meta-Llama-3.1-70B
Meta-Llama-3.1-405B
Meta-Llama-3.1-405B-MP16
Meta-Llama-3.1-405B-FP8
Fine-tuned:
Meta-Llama-3.1-8B-Instruct
Meta-Llama-3.1-70B-Instruct
Meta-Llama-3.1-405B-Instruct
Meta-Llama-3.1-405B-Instruct-MP16
Meta-Llama-3.1-405B-Instruct-FP8
Llama-Guard-3-8B
Llama-Guard-3-8B-INT8
Llama-Guard-2-8B
Llama-Guard-8B
Prompt-Guard-86M
Эти веса можно запустить только на нескольких нодах с использованием pipelined parallel инференса. Минимально требуется 2 ноды с 8 GPU.
@ai_machinelearning_big_data
#AI #Llama3.1 #ML #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
⚡️ Q-GaLore: алгоритм обучения и файнтюна LLM с экономией памяти.
Q-GaLore - набор методик, который значительно оптимизирует использование памяти при сохранении высокой производительности за счет техник, полученных в результате наблюдения за поведением стабилизации слоев и устойчивости матриц проекции к квантованию:
🟢 адаптивного обновления подпространств (увеличение интервала между операциями SVD и, как следствие, сокращение их числа на 60%);
🟢 квантовании весов и матриц в проекции (хранение весов модели в INT8, использовании 4-битных матриц проекции и применение стохастического округления для аппроксимации траектории обучения с высокой точностью)
🟢 применении метода fused backward operation в совокупности с 8-битным оптимизатором Adam.
Совокупность этих техник позволяет проводить полнопараметрическое обучение при меньших затратах памяти, например, обучение модели LLaMA-7B с нуля на одном NVIDIA RTX 4060 Ti с использованием всего 16 ГБ памяти.
▶️ Локальный запуск:
Пример конфига для претрейга LLaMa на с4 датасете
Пример конфига для претрейна LLaMA-7B на 16 GB VRAM
▪Лицензирование: Apache-2.0
▪Arxiv
▪Video from Open AGI Summit
▪Github [ Stars: 3.4K | Issues: 122 | Forks: 274]
@ai_machinelearning_big_data
#AI #FineTuning #LLM #QGalore #ML
Q-GaLore - набор методик, который значительно оптимизирует использование памяти при сохранении высокой производительности за счет техник, полученных в результате наблюдения за поведением стабилизации слоев и устойчивости матриц проекции к квантованию:
Совокупность этих техник позволяет проводить полнопараметрическое обучение при меньших затратах памяти, например, обучение модели LLaMA-7B с нуля на одном NVIDIA RTX 4060 Ti с использованием всего 16 ГБ памяти.
# # Install via conda
conda env create - f environment.yml
# or Install Q-GaLore optimizer and experiment dependencies
# install from pip
pip install q-galore-torch
# or install from source:
git clone https://github.com/VITA-Group/Q-GaLore.git
cd Q-GaLore
pip install -e
pip install -r exp_requirements.txt
Пример конфига для претрейга LLaMa на с4 датасете
Пример конфига для претрейна LLaMA-7B на 16 GB VRAM
▪Лицензирование: Apache-2.0
▪Arxiv
▪Video from Open AGI Summit
▪Github [ Stars: 3.4K | Issues: 122 | Forks: 274]
@ai_machinelearning_big_data
#AI #FineTuning #LLM #QGalore #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Zamba2-2.7B - это гибридная модель, состоящая из блоков пространства состояний (state-space) и трансформеров. Она сохраняет качество инференса модели 3-4В плотности, требуя при этом вычислительных ресурсов на уровне модели плотностью 1-2B.
Такие характеристики были получены за счет использования блоков Mamba2, чередования блоков внимания в схеме "А-В-А-В" и применения LoRA projector для каждого общего MLP-блока.
Zamba2-2.7B использует токенизатор Mistral v0.1 и была предварительно обучена на 3T токенов текста и кода, полученных из открытых источников, включая датасет Zyda.
По завершению обучения, модель была подвергнута дополнительной фазе агрессивного снижения скорости обучения на смеси из 100B высококачественных токенов.
Согласно заверению создателей, Zamba2-2.7B достигает лучших результатов среди моделей аналогичного масштаба, таких как Gemma2-2.7B, StableLM-3B, OpenELM-3B и Phi2-2.7B.
⚠️ Внимание:
Эксплуатация модели доступна с использованием Zyphra's fork of transformers или с помощью кода из репозитория разработчиков модели.
# Сlone and install
git clone https://github.com/Zyphra/Zamba2.git
cd Zamba2
pip install -e
# Install core mamba dependencies
pip install -U mamba-ssm causal-conv1d
# Inference
from mamba_model import MambaModel
from mamba_config import MambaConfig
import torch
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("Zyphra/Zamba2-2.7B")
input_text = 'A funny prompt would be '
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")["input_ids"].transpose(0,1)
model = MambaModel.from_pretrained(model_name = "Zyphra/Zamba2-2.7B").cuda().half()
tokens_to_generate = 20
model.eval()
with torch.no_grad():
for _ in range(tokens_to_generate):
out = model(input_ids)
out_last = out[:, -1]
idx = torch.argmax(out_last)[None, None]
input_ids = torch.cat((input_ids, idx), dim=0)
input_ids = input_ids.transpose(0, 1)[0]
print(repr(tokenizer.decode(input_ids.cpu().numpy().tolist())))
@ai_machinelearning_big_data
#AI #ML #SLM #Mamba
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
https://github.com/stas00/ml-engineering/blob/master/compute/accelerator/amd/debug.md
А здесь большое руководству по устранению различных неполадок для NVIDIA https://github.com/stas00/ml-engineering/blob/master/compute/accelerator/nvidia/debug.md
@ai_machinelearning_big_data
#amd #NVIDIA #Troubleshooting
Please open Telegram to view this post
VIEW IN TELEGRAM