Технозаметки Малышева

Alibaba с Qwen2.5-Turbo бъёт рекорды скорости в работе с 1M токенов контекста

Модель Qwen2.5-Turbo демонстрирует 4х кратный рост скорости обработки гигантских объемов текста документов.
Технология sparse attention позволила сжать вычисления в 12.5 раз, обеспечив ускорение обработки в 3.2-4.3 раза.
Система успешно справляется с полными романами (690k токенов), кодовыми базами (133k) и научными статьями (171k).
Производительность сопоставима с GPT-4o-mini и превосходит аналогичные открытые решения.

Кому нужен RAG вообще с таким контекстным окном.. Правда тут Гугл к Новому Году 2млн обещает, - интересно что у них по скорости будет

#Qwen #LongContext #SparseAttention #Китай #Alibaba
-------
@tsingular

🍾5⚡3👍2

2.11K views18:00

About

Blog

Apps

Platform