Технозаметки Малышева

Llama-3-8B с увеличенным контекстом

Gradient AI представила модель Llama-3-8B-Instruct-262k, увеличивающую длину контекста до 160k токенов. 🦙
Обучение велось на расширенных данных SlimPajama с использованием EasyContext Blockwise RingAttention. 🧩

Предобучение Llama 3 проводилось на 15 триллионах токенов из открытых источников. 📚

Локальную Лламу 3 на 8B c 160K контекстного окна не хотите?

#Llama #Gradient
-------
@tsingular

372 viewsedited 13:06

About

Blog

Apps

Platform