Интересное что-то

Forwarded from Pavel Zloi

Долгосрочная память агентов Под моей прошлой публикацией разгорелась бодрая дискуссия. В ходе которой я наконец-то четко сформулировал, что именно считаю "долгосрочной памятью" в контексте LLM-агентов и как, на мой взгляд, она должна работать. Что я вообще…

Memory Copilot - концепт инструмента памяти агента

В своей практике стараюсь избегать прямых отсылок на то как (мне и многим моим визави кажется) работает разум и мышление, поскольку стоит только привести такую аналогию, как дискуссия сразу же уходит куда-то в эзотерические дали.

Поэтому вместо "внутреннего голоса" предлагаю более инженерный образ - "второй пилот" - сабагента, который целиком отвечает за память (саб- потому как у него нет своей памяти, он лишь оперирует тулами работы с базой).

И так, Memory Copilot - это самостоятельный сабагент, который:
1) обогащает промт перед генерацией за счет релевантного опыта, примерно как это описано в "Automatic Engineering of Long Prompts" (arXiv:2311.10117)
2) решает, что из результатов текущего шага стоит сохранить
3) работает автоматически, без того чтобы основная модель "тригерила память как тул"

То есть грубо говоря, я вижу данный модуль где-то между языковой моделью и интерфейсом общения с пользователем, эдаким генератором системного промта.

Предполагаю, что данный сабагент имеет только два тула:

- вспомнить (search) - происходит перед генерацией ответа, на этапе сборки промта. Агент сопоставляет текущий запрос пользователя с тем, что есть в долговременном хранилище, извлекает релевантные куски (например в виде few-shots или кратких "фактов") и подает это в контекст вместе с системными инструкциями и историей диалога.

- запомнить (save) - происходит после генерации, опциональный шаг. Агент оценивает полезность сгенерированного ответа и решает, стоит ли сохранить короткую выжимку из результата. Это снижает шум, экономит место и улучшает последующие извлечения.

Как это выглядит на одном запросе:

1) после запроса юзера вызываем search, в ответе получаем релевантные куски, добавляем в промт, генерируем ответ.

2) после ответа вызываем save, но не вслепую, сначала мини-оценка "LLM-as-a-judge" (есть ли уже такое воспоминание, пригодится ли это в будущем, оригинально ли, не дублирует ли уже сохраненное). Только если прошло отсев - сохраняем. Подробнее про оценку ответов в "From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge" (arXiv:2411.16594)

Такой цикл делает агента "самонастраивающимся", то есть чем дольше он работает, тем точнее подмешивает опыт и тем меньше ошибается ошибки, агент таким образом "учится", хотя наверно это не самая лучшая аналогия. Идея близка к линиям работы "Reflexion: Language Agents with Verbal Reinforcement Learning" (arXiv:2303.11366) про рефлексию и самокритику генераций, где модель перед сохранением оценивает свою же работу.

Не только лишь чат

Тот же принцип годится и "за пределами чатика".

Например, можно запоминать удачные решения на уровне действий, типа какой тул и с какими параметрами сработал лучше для определенного класса запросов, типа "поисковая кверя А дала релевантные документы".

По моим наблюдением добавление few-shots позитивно влияет на планирование вызова тулов, так как моделька быстрее и точнее выбирает нужный, про фьюшотс "Language Models are Few-Shot Learners" (arXiv:2005.14165).

В отличие запросов считаю, что ответы тула хранить не стоит, так как они устаревают и занимают место. Как по мне практичнее запоминать короткие правила и шаблоны действий, а не сам ответ.

Простенький пайплайн

1) Приходит запрос пользователя.
2) Сопоставление с долговременной памятью -> извлеченные фрагменты превращаем в few-shots/факты -> собираем промт.
3) Генерация ответа.
4) Быстрая проверка полезности результата (LLM-as-a-judge).
5) Если полезно, то дистиллируем и сохраняем.

На следующих шагах этот "опыт" автоматически всплывает при сборке промта.

[2/3]

53 views13:55