Технозаметки Малышева
5.55K subscribers
2.79K photos
927 videos
38 files
3.07K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
LLM становятся менее памяти-зависимыми с методом "attention sinks"

- Большие языковые модели (LLM) страдают от линейного роста памяти и потери связности с увеличением длины контекста.
- "Attention sinks" используют специальные "sink" токены, которые всегда находятся в окне внимания, позволяя моделям сохранять связность даже при удалении старых токенов.
- Эксперименты показывают, что "attention sinks" обеспечивают стабильное использование памяти и стабильность результата даже в очень длинных контекстах.
- Метод улучшает связность ответов при поточной генерации и при обработке многих последовательных запросов, как в чат-боте.

Теперь языковые модели могут обрабатывать гораздо больше данных без потери связанности и стабильности.

#LLM, #attention_sinks, #AI
Многотокенное внимание: новый подход к работе с контекстом в LLM

Исследователи предложили новый механизм внимания для языковых моделей — Multi-Token Attention (MTA), который решает ключевое ограничение стандартного механизма внимания.

В обычных трансформерах веса внимания определяются сходством только одной пары векторов query-key. MTA позволяет моделям учитывать несколько токенов одновременно, применяя свёрточные операции над запросами, ключами и головами внимания.

Простой пример: если нужно найти предложение, где упоминаются и "Алиса", и "кролик", стандартное внимание должно кодировать оба токена в одном векторе запроса. MTA же может сначала найти все упоминания "Алисы" и "кролика" по отдельности, а затем определить места, где они встречаются вместе.

Тесты показали, что модели с MTA превосходят базовые трансформеры как в стандартных задачах языкового моделирования, так и в задачах с длинным контекстом, где особенно важно точно находить релевантную информацию.

При этом MTA добавляет всего 0.001% дополнительных параметров и может быть применено выборочно только к нескольким слоям модели без потери эффективности.

#Attention #Architecture #Context
------
@tsingular
👍7321❤‍🔥1🔥1