Hymba-1.5B-Base имеет embedding size 1600, 25 attention heads, MLP 5504, 32 слоя, 16 состояний SSM, 3 слоя полного внимания, остальные - внимания со скользящим окном.
В отличие от стандартного трансформера, каждый слой внимания в Hymba имеет гибридную комбинацию стандартных attention heads и Mamba heads в параллельном исполнении. Hymba использует технологии Grouped-Query Attention (GQA) и Rotary Position Embeddings (RoPE).
Hymba обучалась на 1.5 трлн токенах в 2 этапа предварительного обучения и 3 этапами посттренининга.
Hymba-1.5B-Instruct - файнтон Hymba-1.5B-Base на комбинации открытых наборов данных инструкций и собранных собственными силами синтетических датасетов.
Эта модель настраивалась с помощью SFT и DPO и способна как в математические рассуждения и вызов функций, так и в ролевые сценарии.
⚠️ В Hymba-1.5B-Instruct используется кастомный шаблон промпта, который был интегрирован в токенизатор и может быть применен с помощью
tokenizer.apply_chat_template.
from transformers import LlamaTokenizer, AutoModelForCausalLM, AutoTokenizer, AutoModel
import torch
# Load the tokenizer and model
repo_name = "nvidia/Hymba-1.5B-Base"
tokenizer = AutoTokenizer.from_pretrained(repo_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(repo_name, trust_remote_code=True)
model = model.cuda().to(torch.bfloat16)
# Chat with Hymba
prompt = input()
inputs = tokenizer(prompt, return_tensors="pt").to('cuda')
outputs = model.generate(**inputs, max_length=64, do_sample=False, temperature=0.7, use_cache=True)
response = tokenizer.decode(outputs[0][inputs['input_ids'].shape[1]:], skip_special_tokens=True)
print(f"Model response: {response}")
@ai_machinelearning_big_data
#AI #ML #SLM #Hymba #Nvidia
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16❤7🔥4