FastNews | Никита Пастухов

Контекст агента: почему LLM "тупит"

В прошлый раз мы выяснили, что агент — это "мозг" (LLM) + "руки" (инструменты). На самом деле мне хочется плакать от такого упрощения😢
Но чтобы этот мозг работал, ему нужна память. А то он забудет, что вообще просили его сделать. В мире LLM эта память называется контекстом.

Контекст - это всё, что модель видит в одном-единственном API-запросе. Когда вы "продолжаете диалог" с ChatGPT, на самом деле ваше приложение каждый раз отправляет ему всю предыдущую историю заново. И именно от того, что и как мы положим в этот контекст, зависит, будет ли агент умным или не очень помощником

Из чего состоит "контекст" агента?

Когда агент решает задачу, в его "голову" (промпт) загружается целый набор данных:

1️⃣ System Prompt (Личность и инструкция): "Ты — AI-ассистент для разработчиков. Твоя задача — помогать с кодом. Будь краток и точен". Это его внутренний устав
2️⃣ Инструменты: Спецификации всех доступных ему "рук". "Ты можешь вызвать file_system.read_file(path: str) для чтения файла..." и тд
3️⃣ Цель (User-prompt): Исходная задача от пользователя. "Найди все использования функции process_user в проекте"
4️⃣ История диалога и вызовов: Все предыдущие шаги. "Я уже вызывал find_usages и получил вот такой результат..."
5️⃣ План/Мысли: "Внутренний монолог" агента. "Окей, я нашел два файла. Теперь мне нужно их прочитать, чтобы понять контекст использования"

Все это склеивается в один гигантский текстовый промпт и отправляется в LLM.

Проблема №1: Перегрузка инструментами

А теперь представьте, что вы дали агенту 1000 инструментов. Спецификация каждого из них — это, по сути, кусок документации. И каждый этот кусок длиннее исходного промпта пользователя. В итоге 99% контекста будет забито этим "справочником", и на сам диалог, историю и мысли агента просто не останется места.

Я лично видел, когда агенту давали 150 MCP инструментов и он вообще не понимал, что пользователь его попросил. Он просто начал вызывать инструменты по кругу без всякой системы. Просто потому что знает, как это делать😎

Вывод: Эффективный агент — это не тот, у кого больше инструментов, а тот, кому в нужный момент дают только релевантные.

На практике: я вообще не использую MCP инструменты при работе с Cursor / ChatGPT. Я вручную указываю какие инструменты будут доступны агенту как часть промпта при необходимости.

Проблема №2: "Потеря в середине" (Lost in the Middle)

Но даже если контекст не перегружен, есть еще одна фундаментальная проблема. Исследователи из Стэнфорда выяснили, что LLM лучше всего обращают внимание на начало и конец контекста, а информация в середине часто "теряется" или игнорируется.

Это похоже на то, как мы читаем длинную статью: вступление и выводы мы запоминаем хорошо, а вот детали из середины — уже смутно.

В своем исследовании они наглядно показали этот эффект. Модель должна была найти нужный факт в длинном документе. Когда факт находился в начале или в конце — точность была >90%. Когда тот же факт перемещали в середину — точность падала до 60-70%.

Что это значит для нас?

При проектировании агентов мы должны быть хитрее. Самую важную информацию (например, последнюю цель пользователя или критически важный результат вызова инструмента) нужно размещать в конце контекста, прямо перед тем, как попросить модель сделать следующий шаг.

Управление контекстом — это ключевой навык в создании агентов. Это не просто "запихнуть все в промпт", а организация информации так, чтобы "мозг" всегда имел под рукой то, что нужно, и не отвлекался на мусор.

В общем-то поэтому иногда проще дропнуть чат и начать заново с другого промпта, чем пытаться "вырулить" в правильном направлении.

#AI #LLM #агенты

🔥8👍4❤1

1.15K views08:29