Zamba2-2.7B - это гибридная модель, состоящая из блоков пространства состояний (state-space) и трансформеров. Она сохраняет качество инференса модели 3-4В плотности, требуя при этом вычислительных ресурсов на уровне модели плотностью 1-2B.
Такие характеристики были получены за счет использования блоков Mamba2, чередования блоков внимания в схеме "А-В-А-В" и применения LoRA projector для каждого общего MLP-блока.
Zamba2-2.7B использует токенизатор Mistral v0.1 и была предварительно обучена на 3T токенов текста и кода, полученных из открытых источников, включая датасет Zyda.
По завершению обучения, модель была подвергнута дополнительной фазе агрессивного снижения скорости обучения на смеси из 100B высококачественных токенов.
Согласно заверению создателей, Zamba2-2.7B достигает лучших результатов среди моделей аналогичного масштаба, таких как Gemma2-2.7B, StableLM-3B, OpenELM-3B и Phi2-2.7B.
⚠️ Внимание:
Эксплуатация модели доступна с использованием Zyphra's fork of transformers или с помощью кода из репозитория разработчиков модели.
# Сlone and install
git clone https://github.com/Zyphra/Zamba2.git
cd Zamba2
pip install -e
# Install core mamba dependencies
pip install -U mamba-ssm causal-conv1d
# Inference
from mamba_model import MambaModel
from mamba_config import MambaConfig
import torch
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("Zyphra/Zamba2-2.7B")
input_text = 'A funny prompt would be '
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")["input_ids"].transpose(0,1)
model = MambaModel.from_pretrained(model_name = "Zyphra/Zamba2-2.7B").cuda().half()
tokens_to_generate = 20
model.eval()
with torch.no_grad():
for _ in range(tokens_to_generate):
out = model(input_ids)
out_last = out[:, -1]
idx = torch.argmax(out_last)[None, None]
input_ids = torch.cat((input_ids, idx), dim=0)
input_ids = input_ids.transpose(0, 1)[0]
print(repr(tokenizer.decode(input_ids.cpu().numpy().tolist())))
@ai_machinelearning_big_data
#AI #ML #SLM #Mamba
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤20👍14🥰2🎉2🤔1
Falcon Mamba - модель от Technology Innovation Institute (TII, Dubai, UAE), основанная на архитектуре Mamba, которая может обрабатывать последовательности произвольной длины без увеличения памяти хранения.
Модель была обучена на ~5500GT данных RefinedWeb, качественных технических данных и экземпляров кода на разных языках программирования из открытых источников.
Архитектура модели построена на оригинальной Mamba с добавлением дополнительных слоев нормализации RMS.
Такая комбинация придает модели возможность обрабатывать последовательности любой длины без необходимости увеличения потребления памяти, вмещаясь, по сути, на одну А10 24 GB.
Falcon Mamba доступна в экосистеме Hugging Face и совместима с большинством API Hugging Face. Модель также поддерживает функцию квантование bitsandbytes, для обеспечения возможности запуска модели на небольших GPU и CPU.
Коллекция моделей FalconMamba 7B:
@ai_machinelearning_big_data
#AI #Falcon #ML #LLM #Mamba
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24🔥8❤7
Zamba2-mini - гибридная модель c 1.2B параметров, построенная из блоков state-space Mamba (SSM) и transformer.
Модель создана на общей архитектуре Zamba, но отличается от большей модели 2.7B тремя особенностями:
Zamba2-mini использует токенизатор Mistral v0.1 и была предварительно обучена на 3 триллионах токенов текстовых данных и коде различных языков программирования, полученных из открытых веб-наборов данных, к которым был добавлен собственный корпу данных Zyda.
Впоследствии, на втором этапе Zamba2-mini была подвергнута дополнительной фазе агрессивного снижения скорости обучения на смеси из 100B высококачественных токенов.
Zamba2-mini показала в тестах результаты, сопоставимые с моделями с параметрами <2B и может конкурировать с некоторыми LLM большего размера.
Благодаря уникальной гибридной архитектуре SSM Zamba2-mini демонстрирует низкие задержки логического вывода и быструю генерацию при значительно меньшем потреблении VRAM, чем другие модели такой же плотности параметров на основе трансформеров.
Такие характеристики делает ее идеальной универсальной моделью для приложений на устройствах.
⚠️ Примечание: Zamba2-mini еще не полностью совместима со всеми фреймворками и инструментами HuggingFace.
Реализацию Zamba2-1.2B для Pytorch можно найти здесь.
# Clone repositiry
git clone https://github.com/Zyphra/transformers_zamba2.git
#Install requirments:
cd transformers_zamba2
pip install -e .
pip install accelerate
#Inference
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
tokenizer = AutoTokenizer.from_pretrained("Zyphra/Zamba2-1.2B")
model = AutoModelForCausalLM.from_pretrained("Zyphra/Zamba2-1.2B", device_map="cuda", torch_dtype=torch.bfloat16)
input_text = "A funny prompt would be "
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids, max_new_tokens=100)
print(tokenizer.decode(outputs[0]))
@ai_machinelearning_big_data
#AI #SLM #Mamba #ML #Zamba2mini
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17❤7🔥5😁3
Mixture-of-Mamba — экспериментальная архитектура, которая делает мультимодальные модели (работающие с разными типами данных, например, текстом, изображениями и речью) более эффективными и быстрыми. Она использует идею разреженности, чтобы уменьшить количество вычислений, сохраняя при этом высокое качество работы модели.
Разреженность — это подход, при котором модель фокусируется только на приоритетных данных, игнорируя менее значимые. Это похоже на то, как человек читает текст: мы не вникаем в каждую букву, а схватываем ключевые слова и фразы. В ML разреженность позволяет: уменьшить вычислительные затраты, ускорить обучение и инференс, повысить качество.
Mixture-of-Mamba добавляет модально-ориентированную разреженность в блоки Mamba и динамически выбирает модально-специфичные веса в каждом компоненте обработки ввода блоков Mamba.
В отличие от MoE-Mamba, где разреженность применяется только к MLP-слоям, Mixture-of-Mamba модифицирует непосредственно структуру блока Mamba. Модально-специфичная параметризация применяется к входной проекции, промежуточным и выходной проекциям. Сверточные слои и переходы состояний остаются общими.
Обучение Mixture-of-Mamba происходит в 3 модальных режимах: Transfusion (чередование текста и непрерывных токенов изображений с диффузионной потерей), Chameleon (чередование текста и дискретных токенов изображений) и расширенная трехмодальная среда со включением речи.
В Transfusion Mixture-of-Mamba достигает эквивалентных значений потерь для изображений, используя при этом лишь 34.76% от общего объема вычислительных ресурсов (FLOPs) при масштабе модели 1.4B. В сценарии Chameleon аналогичный уровень потерь при обработке изображений при использовании 42.50% FLOPs, а при обработке текстовых данных – 65.40% FLOPs. В трехмодальной среде Mixture-of-Mamba показывает потери в речевом режиме при 24.80% FLOPs на масштабе 1.4B.
@ai_machinelearning_big_data
#AI #ML #MMLM #Mamba #MixtureOfMamba
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍38❤12🥰4
🔹 Главные особенности:
▪ SOTA-производительность: превосходит существующие модели по точности (Top-1) и скорости обработки на ImageNet-1K.
▪ Гибридная архитектура: сочетает Mamba (State Space Models, SSMs) и архитектуру трансформеров, улучшая эффективность обработки изображений.
▪ Подходит для задач классификации изображений, извлечения признаков и других задач CV.
MambaVision подойдет вам для автоматического анализа изображений, фильтрации данных и интеграции в AI-системы для компьютерного зрения.
#nvidia #mamba #computervision
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍50🔥14❤7