Llama-3-8B с увеличенным контекстом
Gradient AI представила модель Llama-3-8B-Instruct-262k, увеличивающую длину контекста до 160k токенов. 🦙
Обучение велось на расширенных данных SlimPajama с использованием EasyContext Blockwise RingAttention. 🧩
Предобучение Llama 3 проводилось на 15 триллионах токенов из открытых источников. 📚
Локальную Лламу 3 на 8B c 160K контекстного окна не хотите?
#Llama #Gradient
-------
@tsingular
Gradient AI представила модель Llama-3-8B-Instruct-262k, увеличивающую длину контекста до 160k токенов. 🦙
Обучение велось на расширенных данных SlimPajama с использованием EasyContext Blockwise RingAttention. 🧩
Предобучение Llama 3 проводилось на 15 триллионах токенов из открытых источников. 📚
Локальную Лламу 3 на 8B c 160K контекстного окна не хотите?
#Llama #Gradient
-------
@tsingular