LLM становятся менее памяти-зависимыми с методом "attention sinks"
- Большие языковые модели (LLM) страдают от линейного роста памяти и потери связности с увеличением длины контекста.
- "Attention sinks" используют специальные "sink" токены, которые всегда находятся в окне внимания, позволяя моделям сохранять связность даже при удалении старых токенов.
- Эксперименты показывают, что "attention sinks" обеспечивают стабильное использование памяти и стабильность результата даже в очень длинных контекстах.
- Метод улучшает связность ответов при поточной генерации и при обработке многих последовательных запросов, как в чат-боте.
Теперь языковые модели могут обрабатывать гораздо больше данных без потери связанности и стабильности.
#LLM, #attention_sinks, #AI
- Большие языковые модели (LLM) страдают от линейного роста памяти и потери связности с увеличением длины контекста.
- "Attention sinks" используют специальные "sink" токены, которые всегда находятся в окне внимания, позволяя моделям сохранять связность даже при удалении старых токенов.
- Эксперименты показывают, что "attention sinks" обеспечивают стабильное использование памяти и стабильность результата даже в очень длинных контекстах.
- Метод улучшает связность ответов при поточной генерации и при обработке многих последовательных запросов, как в чат-боте.
Теперь языковые модели могут обрабатывать гораздо больше данных без потери связанности и стабильности.
#LLM, #attention_sinks, #AI
huggingface.co
🕳️ Attention Sinks in LLMs for endless fluency
A Blog post by Tom Aarsen on Hugging Face