Идеальный стартап

Критика Next Token Prediction

LLM работает авторегрессионно с помощью предсказания следующего токена. Токен – это примерно слово (чуть меньше), а авторегрессионно значит, что предсказание следующего токена зависит от текущего. Когда вы даете промпт "Мама мыла...", то модель предсказывает по одному токену и генерирует вам ответ.

"Мама мыла раму"

"Мама мыла раму и"

Если для текстовых задач это подходит, то с попытками построить общий искусственный интеллект на тех же паттернах мы сталкиваемся с определенными трудностями. Модель часто учит шорткаты, не обобщается и не особо хорошо решает задачи планирования и логики. Сейчас принято решать эти проблемы путем закидывания новых данных, но что если оглянуться назад и переосмыслить наш подход к инструментам для решения задач? В этих статьях так и сделали.

Две статьи рассматривают две фундаментальных проблемы NTP: логические ошибки вследствии шорткатов и разнообразие ответов.

Шорткаты и NTP

Шорткаты – это когда модель вместо нахождения алгоритма решения задачи находит лазейки, позволяющие решать задачу. Если мы обучаем модель предсказывать отзывы к фильмам, то модель вместо реального понимания контекста просто ищет слова-сигналы. К примеру, в предложении: "Это кино отличный способ умереть от скуки" – есть "отличный" благодаря которую модель классифицирует отзыв как позитивный.

В особенности выделяется Clever Hans cheat (почитайте про лошадь, если не знаете): когда в обучении с учителем модель предсказывает ответ, то последние токены правильного ответа легче предсказать, так как модель видела уже часть правильного ответа. Модель вместо понимания алгоритма решения задачи, учится предсказывать последние токены ответа на основе первых.

Усугубляется это лавинным эффектом: ошибка на раннем этапе порождает цепочку новых ошибок и один неверный токен смещает контекст, и модель начинает всё больше отклоняться от правильной последовательности, то есть ошибка суммируется.

Разнообразие ответов

Казалось бы какая разница, насколько наши ответы разнообразны? Важно. Разнообразие ответов напрямую зависит от того, научилась ли модель алгоритму решения задачи и обобщилась, либо же просто выучила тренировочный набор данных, подсмотрела несколько шорткатов и на этом все.

NTP имеет явное ограничение при взаимодействии с задачами планирования – зачастую просто запонимания тренировочный набор. Авторы приводят игрушечный пример поиска родственников: дан граф и необходимо найти связанные между собой вершины в определенном порядке. Этим графом может быть и задача исследования, когда необходимо найти неочевидные связи между конкцепциями. В обычном сеттинге вместо изучание паттерна планирования, модель откатывается к поиску шорткатов и запоминанию тренировочной выборки.

Закидывание данных

NTP позволяет изучать локальные зависимости и паттерны для построения текста / решения простых задач, но с глобальными в этом методе явно возникают проблемы. Шорткаты либо не позволяют обобщаться вообще, либо нам приходится прибегать к техникам борьбы с запоминанием: больше данных, больше регуляризация, дропауты.

Как справиться

Авторы протестировали два подхода (на картинках):

–Предсказание нескольких токенов одновременно. Уменьшает рассинхрон обучения и инференса и частично лечит накопление ошибок.
–Диффузии. Показывают улучшения по разнообразию, но стандартом еще не стали.

Приведет ли это в дальнейшем к переходу с NTP на что-то другое? Надеюсь, потому что мне подход NTP кажется очень лимитированным.

Если соберет отклик, то сделаю лонгрид с за-против NTP

🔥2❤1

765 viewsedited 17:05