LLM становятся менее памяти-зависимыми с методом "attention sinks"
- Большие языковые модели (LLM) страдают от линейного роста памяти и потери связности с увеличением длины контекста.
- "Attention sinks" используют специальные "sink" токены, которые всегда находятся в окне внимания, позволяя моделям сохранять связность даже при удалении старых токенов.
- Эксперименты показывают, что "attention sinks" обеспечивают стабильное использование памяти и стабильность результата даже в очень длинных контекстах.
- Метод улучшает связность ответов при поточной генерации и при обработке многих последовательных запросов, как в чат-боте.
Теперь языковые модели могут обрабатывать гораздо больше данных без потери связанности и стабильности.
#LLM, #attention_sinks, #AI
- Большие языковые модели (LLM) страдают от линейного роста памяти и потери связности с увеличением длины контекста.
- "Attention sinks" используют специальные "sink" токены, которые всегда находятся в окне внимания, позволяя моделям сохранять связность даже при удалении старых токенов.
- Эксперименты показывают, что "attention sinks" обеспечивают стабильное использование памяти и стабильность результата даже в очень длинных контекстах.
- Метод улучшает связность ответов при поточной генерации и при обработке многих последовательных запросов, как в чат-боте.
Теперь языковые модели могут обрабатывать гораздо больше данных без потери связанности и стабильности.
#LLM, #attention_sinks, #AI
huggingface.co
🕳️ Attention Sinks in LLMs for endless fluency
A Blog post by Tom Aarsen on Hugging Face
Многотокенное внимание: новый подход к работе с контекстом в LLM
Исследователи предложили новый механизм внимания для языковых моделей — Multi-Token Attention (MTA), который решает ключевое ограничение стандартного механизма внимания.
В обычных трансформерах веса внимания определяются сходством только одной пары векторов query-key. MTA позволяет моделям учитывать несколько токенов одновременно, применяя свёрточные операции над запросами, ключами и головами внимания.
Простой пример: если нужно найти предложение, где упоминаются и "Алиса", и "кролик", стандартное внимание должно кодировать оба токена в одном векторе запроса. MTA же может сначала найти все упоминания "Алисы" и "кролика" по отдельности, а затем определить места, где они встречаются вместе.
Тесты показали, что модели с MTA превосходят базовые трансформеры как в стандартных задачах языкового моделирования, так и в задачах с длинным контекстом, где особенно важно точно находить релевантную информацию.
При этом MTA добавляет всего 0.001% дополнительных параметров и может быть применено выборочно только к нескольким слоям модели без потери эффективности.
#Attention #Architecture #Context
------
@tsingular
Исследователи предложили новый механизм внимания для языковых моделей — Multi-Token Attention (MTA), который решает ключевое ограничение стандартного механизма внимания.
В обычных трансформерах веса внимания определяются сходством только одной пары векторов query-key. MTA позволяет моделям учитывать несколько токенов одновременно, применяя свёрточные операции над запросами, ключами и головами внимания.
Простой пример: если нужно найти предложение, где упоминаются и "Алиса", и "кролик", стандартное внимание должно кодировать оба токена в одном векторе запроса. MTA же может сначала найти все упоминания "Алисы" и "кролика" по отдельности, а затем определить места, где они встречаются вместе.
Тесты показали, что модели с MTA превосходят базовые трансформеры как в стандартных задачах языкового моделирования, так и в задачах с длинным контекстом, где особенно важно точно находить релевантную информацию.
При этом MTA добавляет всего 0.001% дополнительных параметров и может быть применено выборочно только к нескольким слоям модели без потери эффективности.
#Attention #Architecture #Context
------
@tsingular
👍7✍3⚡2❤1❤🔥1🔥1