Neural Networks | Нейронные сети
11.6K subscribers
737 photos
161 videos
170 files
9.4K links
Все о машинном обучении

По всем вопросам - @notxxx1

№ 4959169263
Download Telegram
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
🧬 ESM3 - это новая, мощнейшая мультимодальная генеративная языковая модель для биологии.

ESM3 может cмоделировать 500 миллионов лет эволюции для генерации новых белков и молекул.

Модель обучена с использованием более 1x1024 FLOPS и 98B параметров!

Используя модель авторы смоделировали эволюционный процесс и создали новый тип белка GFP (зеленый флуоресцентный белок), отличающийся от всего, что встречается в природе. Это буквально модель для программирования биологии.

Почитать подробнее: https://www.evolutionaryscale.ai/blog/esm3-release
Статья: https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/research/esm3.pdf

@ai_machinelearning_big_data
Forwarded from Machinelearning
⚡️ Gemma 2 9B GGUF — набор квантизованных версий Gemma 2

Встречайте набор моделей, полученных квантизацией Gemma 2 с разной степенью сжатия.
Для квантизации использовался этот датасет

Особенности:
- GGuf версии очень слабы, более-менее адекватная - 9B (Q4 и Q5)
- Фокус "специализации": текст (стилистика, словарный запас, обсуждения), применимо только к English-language content, программирование - обучение синтаксису и паттернам написания кода ( прокачка скиллов модели по ЯП не уточняются), математика - решение задач, логика постоения ответов.
- Модель не поддерживает системные промты

🤗 Hugging Face
🟡 Неквантизованная Gemma 2

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Пост о мотивации от нейросетей

В Индии учитель использует изображения, сгенерированные в DALL-E 3, чтобы мотивировать своих учеников.

@neural
🧬 Бывшие ученые компании MetaAI представили огромную модель искусственного интеллекта для проектирования белков, которая может стать одной из крупнейших моделей ИИ в биологии.
Компания EvolutionaryScale, основанная бывшими сотрудниками Meta, разработала модель языка белков, которая может быть использована для создания новых флуоресцентных молекул и нашла применение в разработке лекарств, устойчивом развитии и других областях.

Модель ESM3 была обучена на более чем 2,7 миллиардах последовательностей и структур белков, а также на информации о функциях этих белков. Пользователи могут вводить спецификации, и модель создаст нужные белки, подобно тому, как чатботы, такие как ChatGPT, генерируют текст.

Команда EvolutionaryScale продемонстрировала возможности своей модели, создав новые варианты зеленого флуоресцентного белка (GFP), который был открыт в 1960-х годах в биолюминесцентной медузе. Улучшенные варианты GFP имеют более яркий свет и могут использоваться для маркировки других белков под микроскопом.

Модель ESM3 создала несколько вариантов белков, один из которых, esmGFP, имеет структуру, схожую со структурой природных флуоресцентных белков, но его последовательность аминокислот отличается более чем на 40%. Ученые считают, что для появления такого белка в природе могло бы потребоваться более 500 миллионов лет эволюции.

Однако некоторые эксперты выражают обеспокоенность по поводу потенциально вводящих в заблуждение утверждений о возможностях ИИ и ускорении эволюции. ESM3 является одной из первых биологических моделей ИИ, которая требует уведомления правительства США и принятия мер по снижению рисков из-за огромного количества вычислительных ресурсов, необходимых для ее обучения.

Компания EvolutionaryScale выпустила открытую версию модели ESM3, но самая большая версия требует значительных вычислительных ресурсов и не доступна широкой публике. Ученые планируют применять модель ESM3 для решения различных задач, включая устойчивое развитие, создание антител и разработку белковых лекарственных препаратов

Источник
🔥 Дайджест новостей.

🏭 Xiaomi представил новый завод, который работает 24/7 без человеческого труда.

Xiaomi запустила в Пекине новый автономный интеллектуальный завод, который сможет производить 10 миллионов мобильных телефонов в год и самостоятельно устранять производственные проблемы с помощью технологий искусственного интеллекта.
Завод площадью 80 000 квадратных метров включает 11 производственных линий и производит новейшие смартфоны Xiaomi, в том числе MIX Fold 4 и MIX Flip.
Работая круглосуточно, фабрика использует собственную ИИ-производственную платформу для оптимизации процессов и управления операциями — от закупки материалов до доставки продукции. Gizmochina.com

🇰🇷 Samsung представляет новые носимые устройства с интегрированными функциями ИИ на выставке Unpacked 2024.

На мероприятии Unpacked 2024 компания Samsung представила передовые носимые устройства с искусственным интеллектом, в том числе Samsung Galaxy Ring, складные смартфоны с искусственным интеллектом, Galaxy Watch 7 и Galaxy Watch Ultra. Все новинки за 12 минут

🖥 Новый инструмент AWS генерирует корпоративные приложения по текстовому промпту.

Инструмент под названием App Studio позволяет вам использовать подсказку на естественном языке для создания корпоративных приложений, таких как системы отслеживания запасов или процессы утверждения претензий, устраняя необходимость в профессиональных разработчиках. В настоящее время он доступен для предварительного просмотра. Amazon.com

📹 Vimeo запускает маркировку для контента с использованием искусственного интеллекта.

Следуя по стопам TikTok, YouTube и Meta, видеоплатформа Vimeo призывает авторов контента раскрывать информацию о том, когда искусственный интеллект помогает им создавать загружаемый контент.
Компания также работает над разработкой автоматизированных систем маркировки с использованием искусственного интеллекта. Vimeo

✍️ Платформа Writer добавляет функции ИИ в свои сервисы.

Улучшения включают расширенную генерацию с расширенным поиском на основе графов (RAG). Новые функции доступны для пользователей Ask Writer и AI Studio. Writer.com

@neural
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🌟 EchoMimic: реалистичная портретная анимация изображений на основе звука с помощью редактируемых маркеров-ориентиров.

EchoMimic - проект инновационного подхода, комбинирующий использование аудиодорожки и маркеры лиц для создания динамичных портретов сохраняя реалистичность исходного иpображения.

Mетод EchoMimic построен на моделях Stable Diffusion и использует модули Reference U-Net, Landmark Encoder и Audio Encoder для кодирования референсных изображений, характеристик лиц и аудио соответственно. На финальном этапе, Attention Layers декодирует временную динамику для создания последовательностей согласованных по времени видео.

Согласно проведенным в ходе разработки бенчмаркам, EchoMimic демонстрирует лучшие результаты по сравнению с другими проектами, такими как: SadTalker, AniPortrait, V-Express и Hallo в различных наборах данных, достигая высоких показателей по метрикам FID, FVD, SSIM и E-FID.

🖥 Локальный запуск возможен в ComfyUI или отдельный UI-интерфейс.
Рекомендованные ресурсы - от 16 GB VRAM, но EchoMimic работает и на 8 GB VRAM (увеличивается время инференса).

⚠️ В процессе установки скачиваются дополнительные модели:
🟢sd-vae-ft-mse;
🟢sd-image-variations-diffusers;
🟢audio_processor(whisper).

⚖️ Лицензирование: Apache-2.0

🖥 GitHub [ Stars: 492 | Issues: 6 | Forks: 50 ]
🟡Страница проекта
🟡Модели на HF
🟡Arxiv

@ai_machinelearning_big_data

#Image2Animate #LipSync #ML #Diffusers #EchoMimic
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Конец эры: через несколько часов ChatGPT-3.5 будет отключён на сайте OpenAI

Вскоре ChatGPT-3.5 прекратит свою работу на сайте OpenAI. На его место придёт новый бесплатный ИИ — GPT-4o-mini, о чём досрочно сообщили в Bloomberg.

Новый ИИ обещает быть значительно умнее своего предшественника, поддерживая работу не только с текстом, но и с видео и аудио.

@neural
Forwarded from Machinelearning
🔥 Apple только что выпустила LLM с открытым исходным кодом 7B, весами, кодом и набором данных! 👀

TL;DR:
🧠 Базовая модель 7B, обученная на 2,5Т токенах Данные в основном на английском языке, контекстное окно 2048
Объединенные данные DCLM-BASELINE, StarCoder и ProofPile2
MMLU 0.6372 > Mistral & < Llama3
Открытая лицензия с лицензией Apple
Соответствует моделям с закрытыми наборами данных, таким как Mistral
Обучен с использованием Python и OpenLM framework
Доступно на huggingface и в Transformers

Модель: https://huggingface.co/apple/DCLM-7B
Репозиторий: https://github.com/mlfoundations/dclm
Набор данных: https://huggingface.co/datasets/mlfoundations/dclm-baseline-1.0
Документация: https://arxiv.org/abs/2406.11794

@ai_machinelearning_big_data

#LLM #ML #Apple
📢 Новая аспирантура по ИИ : теория + практика

В новой аспирантуре по ИИ молодые ученые будут работать с новейшими алгоритмами и моделями машинного обучения, изучать и применять самые современные методологии — глубокое обучение, нейронные сети и усовершенствованные методы обработки данных. Запускают ее Яндекс, Вышка и ИТМО, чтобы объединить исследования с практикой. Это позволит получить ценный опыт в решении конкретных задач с использованием машинного обучения.

Также студентов ждет ежегодный грант в размере 800 тысяч рублей. Эти средства можно использовать для приобретения необходимого оборудования и программного обеспечения.

Подобные инициативы — шанс для будущих ученых быстрее сделать карьеру и углубить знания, применить их на практике в реальных продуктах.
Forwarded from Machinelearning
⚡️ Llama-3.1: Обновление семейства моделей

Llama 3.1 - набор предварительно обученных и настроенных по инструкции генеративных моделей размером 8B, 70B и 405B (текст в тексте/текст на выходе). Модели Llama 3.1 с инструкциями (8B, 70B, 405B) оптимизированы для использования в многоязычных диалогах и превосходят многие из доступных моделей с открытым исходным кодом и закрытых моделей для чатов в распространенных отраслевых тестах.

Llama 3.1 - это авторегрессивная языковая модель, использующая оптимизированную архитектуру трансформаторов. В настроенных версиях используются контролируемая тонкая настройка (SFT) и обучение с подкреплением и обратной связью (RLHF) для согласования с предпочтениями человека в отношении полезности и безопасности.

▶️Доступные для скачивания модели LLaMa 3.1( полный список)

Pretrained:
Meta-Llama-3.1-8B
Meta-Llama-3.1-70B
Meta-Llama-3.1-405B
Meta-Llama-3.1-405B-MP16
Meta-Llama-3.1-405B-FP8

Fine-tuned:
Meta-Llama-3.1-8B-Instruct
Meta-Llama-3.1-70B-Instruct
Meta-Llama-3.1-405B-Instruct
Meta-Llama-3.1-405B-Instruct-MP16
Meta-Llama-3.1-405B-Instruct-FP8
Llama-Guard-3-8B
Llama-Guard-3-8B-INT8
Llama-Guard-2-8B
Llama-Guard-8B
Prompt-Guard-86M



▶️ Комментарии к версии 405B:

🟢MP16 (Model Parallel 16) - полная версия весов BF16.
Эти веса можно запустить только на нескольких нодах с использованием pipelined parallel инференса. Минимально требуется 2 ноды с 8 GPU.

🟢MP8 - полная версия весов BF16, но может быть развернута на одной ноде с 8 GPU с использованием динамического квантования FP8 (Floating Point 8).

🟢FP8 (Floating Point 8) - квантованная версия весов. Эти веса можно запустить на одной ноде с 8 GPU и с использованием статического квантования FP.

📌 Модель 405B требует примерно 750 ГБ и минимум двух нод (по 8 GPU) для инференса в MP16.

📌Загрузить модели можно с сайта Meta.Ai или с официальное репозитория на Huggingface Для скачивания нужно заполнить форму запроса доступа.


🟠UPD: Первая GGUF-версия на HF в Q8 уже появилась.


@ai_machinelearning_big_data

#AI #Llama3.1 #ML #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
⚡️ Q-GaLore: алгоритм обучения и файнтюна LLM с экономией памяти.

Q-GaLore - набор методик, который значительно оптимизирует использование памяти при сохранении высокой производительности за счет техник, полученных в результате наблюдения за поведением стабилизации слоев и устойчивости матриц проекции к квантованию:

🟢адаптивного обновления подпространств (увеличение интервала между операциями SVD и, как следствие, сокращение их числа на 60%);
🟢квантовании весов и матриц в проекции (хранение весов модели в INT8, использовании 4-битных матриц проекции и применение стохастического округления для аппроксимации траектории обучения с высокой точностью)
🟢применении метода fused backward operation в совокупности с 8-битным оптимизатором Adam.

Совокупность этих техник позволяет проводить полнопараметрическое обучение при меньших затратах памяти, например, обучение модели LLaMA-7B с нуля на одном NVIDIA RTX 4060 Ti с использованием всего 16 ГБ памяти.

▶️ Локальный запуск:


# # Install via conda
conda env create - f environment.yml

# or Install Q-GaLore optimizer and experiment dependencies

# install from pip
pip install q-galore-torch

# or install from source:
git clone https://github.com/VITA-Group/Q-GaLore.git
cd Q-GaLore
pip install -e

pip install -r exp_requirements.txt


Пример конфига для претрейга LLaMa на с4 датасете

Пример конфига для претрейна LLaMA-7B на 16 GB VRAM

Лицензирование: Apache-2.0


Arxiv
Video from Open AGI Summit
Github [ Stars: 3.4K | Issues: 122 | Forks: 274]


@ai_machinelearning_big_data

#AI #FineTuning #LLM #QGalore #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
⚡️ Zamba2-2.7B: небольшая гибридная языковая модель на Mamba.

Zamba2-2.7B - это гибридная модель, состоящая из блоков пространства состояний (state-space) и трансформеров. Она сохраняет качество инференса модели 3-4В плотности, требуя при этом вычислительных ресурсов на уровне модели плотностью 1-2B.
Такие характеристики были получены за счет использования блоков Mamba2, чередования блоков внимания в схеме "А-В-А-В" и применения LoRA projector для каждого общего MLP-блока.

Zamba2-2.7B использует токенизатор Mistral v0.1 и была предварительно обучена на 3T токенов текста и кода, полученных из открытых источников, включая датасет Zyda.
По завершению обучения, модель была подвергнута дополнительной фазе агрессивного снижения скорости обучения на смеси из 100B высококачественных токенов.

Согласно заверению создателей, Zamba2-2.7B достигает лучших результатов среди моделей аналогичного масштаба, таких как Gemma2-2.7B, StableLM-3B, OpenELM-3B и Phi2-2.7B.

⚠️ Внимание:

🟠модель не имеет встроенной модерации и не подвергалась дополнительному цензурированию;
🟠модель не была дообучена для выполнения инструкций или выполнений функций чата, поэтому не стоит ожидать хороших результатов от нее в этих задачах;
🟠не рекомендуется использовать модель без поддержки Mamba, поскольку это приведет к значительному увеличению задержки и использования памяти.

Эксплуатация модели доступна с использованием Zyphra's fork of transformers или с помощью кода из репозитория разработчиков модели.

▶️Локальный запуск :

# Сlone and install
git clone https://github.com/Zyphra/Zamba2.git
cd Zamba2
pip install -e

# Install core mamba dependencies
pip install -U mamba-ssm causal-conv1d

# Inference
from mamba_model import MambaModel
from mamba_config import MambaConfig
import torch
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("Zyphra/Zamba2-2.7B")
input_text = 'A funny prompt would be '
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")["input_ids"].transpose(0,1)
model = MambaModel.from_pretrained(model_name = "Zyphra/Zamba2-2.7B").cuda().half()
tokens_to_generate = 20
model.eval()
with torch.no_grad():
for _ in range(tokens_to_generate):
out = model(input_ids)
out_last = out[:, -1]
idx = torch.argmax(out_last)[None, None]
input_ids = torch.cat((input_ids, idx), dim=0)
input_ids = input_ids.transpose(0, 1)[0]
print(repr(tokenizer.decode(input_ids.cpu().numpy().tolist())))


📌Лицензирование : Apache 2.0 license


🟡Страница проекта
🟡Arxiv
🟡Модель на HF
🖥Github [ Stars: 10 | Issues: 0 | Forks: 0]


@ai_machinelearning_big_data

#AI #ML #SLM #Mamba
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🖥 Полезные заметки по устранению неполадок в AMD MI300X и других подобных устройствах

https://github.com/stas00/ml-engineering/blob/master/compute/accelerator/amd/debug.md

А здесь большое руководству по устранению различных неполадок для NVIDIA https://github.com/stas00/ml-engineering/blob/master/compute/accelerator/nvidia/debug.md

@ai_machinelearning_big_data

#amd #NVIDIA #Troubleshooting
Please open Telegram to view this post
VIEW IN TELEGRAM