Многотокенное внимание: новый подход к работе с контекстом в LLM
Исследователи предложили новый механизм внимания для языковых моделей — Multi-Token Attention (MTA), который решает ключевое ограничение стандартного механизма внимания.
В обычных трансформерах веса внимания определяются сходством только одной пары векторов query-key. MTA позволяет моделям учитывать несколько токенов одновременно, применяя свёрточные операции над запросами, ключами и головами внимания.
Простой пример: если нужно найти предложение, где упоминаются и "Алиса", и "кролик", стандартное внимание должно кодировать оба токена в одном векторе запроса. MTA же может сначала найти все упоминания "Алисы" и "кролика" по отдельности, а затем определить места, где они встречаются вместе.
Тесты показали, что модели с MTA превосходят базовые трансформеры как в стандартных задачах языкового моделирования, так и в задачах с длинным контекстом, где особенно важно точно находить релевантную информацию.
При этом MTA добавляет всего 0.001% дополнительных параметров и может быть применено выборочно только к нескольким слоям модели без потери эффективности.
#Attention #Architecture #Context
------
@tsingular
Исследователи предложили новый механизм внимания для языковых моделей — Multi-Token Attention (MTA), который решает ключевое ограничение стандартного механизма внимания.
В обычных трансформерах веса внимания определяются сходством только одной пары векторов query-key. MTA позволяет моделям учитывать несколько токенов одновременно, применяя свёрточные операции над запросами, ключами и головами внимания.
Простой пример: если нужно найти предложение, где упоминаются и "Алиса", и "кролик", стандартное внимание должно кодировать оба токена в одном векторе запроса. MTA же может сначала найти все упоминания "Алисы" и "кролика" по отдельности, а затем определить места, где они встречаются вместе.
Тесты показали, что модели с MTA превосходят базовые трансформеры как в стандартных задачах языкового моделирования, так и в задачах с длинным контекстом, где особенно важно точно находить релевантную информацию.
При этом MTA добавляет всего 0.001% дополнительных параметров и может быть применено выборочно только к нескольким слоям модели без потери эффективности.
#Attention #Architecture #Context
------
@tsingular
👍7✍3⚡2❤1❤🔥1🔥1