Технозаметки Малышева

LLM становятся менее памяти-зависимыми с методом "attention sinks"

- Большие языковые модели (LLM) страдают от линейного роста памяти и потери связности с увеличением длины контекста.
- "Attention sinks" используют специальные "sink" токены, которые всегда находятся в окне внимания, позволяя моделям сохранять связность даже при удалении старых токенов.
- Эксперименты показывают, что "attention sinks" обеспечивают стабильное использование памяти и стабильность результата даже в очень длинных контекстах.
- Метод улучшает связность ответов при поточной генерации и при обработке многих последовательных запросов, как в чат-боте.

Теперь языковые модели могут обрабатывать гораздо больше данных без потери связанности и стабильности.

#LLM, #attention_sinks, #AI

huggingface.co

🕳️ Attention Sinks in LLMs for endless fluency

A Blog post by Tom Aarsen on Hugging Face

19 viewsedited 07:56

Технозаметки Малышева

Многотокенное внимание: новый подход к работе с контекстом в LLM

Исследователи предложили новый механизм внимания для языковых моделей — Multi-Token Attention (MTA), который решает ключевое ограничение стандартного механизма внимания.

В обычных трансформерах веса внимания определяются сходством только одной пары векторов query-key. MTA позволяет моделям учитывать несколько токенов одновременно, применяя свёрточные операции над запросами, ключами и головами внимания.

Простой пример: если нужно найти предложение, где упоминаются и "Алиса", и "кролик", стандартное внимание должно кодировать оба токена в одном векторе запроса. MTA же может сначала найти все упоминания "Алисы" и "кролика" по отдельности, а затем определить места, где они встречаются вместе.

Тесты показали, что модели с MTA превосходят базовые трансформеры как в стандартных задачах языкового моделирования, так и в задачах с длинным контекстом, где особенно важно точно находить релевантную информацию.

При этом MTA добавляет всего 0.001% дополнительных параметров и может быть применено выборочно только к нескольким слоям модели без потери эффективности.

#Attention #Architecture #Context
------
@tsingular

👍7✍3⚡2❤1❤‍🔥1🔥1

1.62K views15:23

About

Blog

Apps

Platform