Neural Kovalskii
Платформа для ERC3: AI Agents открыта! И так, приступим к тестам! 😈 Что за задача Бенчмарк store — это онлайн‑магазин с продуктовым каталогом, скидками и корзиной. Есть API: /products/list — поиск товаров /basket/view — корзина /basket/add/basket/remove…
ERC3 соревнование агентных архитектур
3 День перебора архитектур и подходов, и я наконец выбил на моделях 4 серии и qwen3 100 балов, и то не стабильно, 7 из 10 раз, что еще раз доказывает сложность отладки таких систем, особенно если вы придерживаетесь классического подхода полноценного агента.
Не фитились под датасет.
Не строили классификаторов на задачи.
И не делали сабагентов под задачи из бенча (вспоминаем ROMA).
Думаю, что если бы вы знали, что такое возможно в проде и постоянно улучшали систему, то наверное точно обрасли бы некоторым количеством спец агентов.
А сейчас я тестирую ReAct + PlanAct и разные уровни сжатия контекста и памяти, чтобы агент помнил, что сделал и что осталось, и чтобы всегда сомневался в том, что перебрал все варианты.
Что за задача, читайте тут
Что точно сработало?
Сжатие контекста, но не как у всех (как обычно, Валер).
Я придумал такой подход, что сжимаю reasoning и tool фазы c определенными маркерами, так же показываю еще, сколько таких reasoningов было до).
Так же написал парсер, чтобы собирать все тулы в отдельный блок, и получаем:
- system (тут мейн промпт агента)
- user (тут таска)
- user (сжатая память)
- 5-10 новых тулколов или 1, зависит, вызвала ли модель parallel_tool_call
Работает почти для всех типов моделей.
Отдельно протестировал:
- gpt oss 120b (1 раз из 10 запусков 93%)
- qwen3-235b-a22b-2507 (6 раза из 10 запусков 93%)
- 3-30b-a3b-instruct-2507 (стабильно 70-80%)
- gpt4.1-mini (80-93%)
- gpt4.1 (100% 8 из 10 раз)
На текущий момент я потратил
$180 на прогоны
И $250 на улучшения через курсор
Делаю вывод, что нужно экспериментировать и дальше, так как вижу в лидерборде gpt oss 120b, которая выбила 100 (честно, сложно представить, как этого добиться без фита под сет, так как модель стабильно не перебирает все варианты из матрицы, даже если ее рассчитать отдельным кодовым тулом).
Тут теперь есть лидерборд: https://erc.timetoact-group.at/benchmarks/store
3 День перебора архитектур и подходов, и я наконец выбил на моделях 4 серии и qwen3 100 балов, и то не стабильно, 7 из 10 раз, что еще раз доказывает сложность отладки таких систем, особенно если вы придерживаетесь классического подхода полноценного агента.
Не фитились под датасет.
Не строили классификаторов на задачи.
И не делали сабагентов под задачи из бенча (вспоминаем ROMA).
Думаю, что если бы вы знали, что такое возможно в проде и постоянно улучшали систему, то наверное точно обрасли бы некоторым количеством спец агентов.
А сейчас я тестирую ReAct + PlanAct и разные уровни сжатия контекста и памяти, чтобы агент помнил, что сделал и что осталось, и чтобы всегда сомневался в том, что перебрал все варианты.
Что за задача, читайте тут
Что точно сработало?
Сжатие контекста, но не как у всех (как обычно, Валер).
Я придумал такой подход, что сжимаю reasoning и tool фазы c определенными маркерами, так же показываю еще, сколько таких reasoningов было до).
Так же написал парсер, чтобы собирать все тулы в отдельный блок, и получаем:
- system (тут мейн промпт агента)
- user (тут таска)
- user (сжатая память)
- 5-10 новых тулколов или 1, зависит, вызвала ли модель parallel_tool_call
Работает почти для всех типов моделей.
Отдельно протестировал:
- gpt oss 120b (1 раз из 10 запусков 93%)
- qwen3-235b-a22b-2507 (6 раза из 10 запусков 93%)
- 3-30b-a3b-instruct-2507 (стабильно 70-80%)
- gpt4.1-mini (80-93%)
- gpt4.1 (100% 8 из 10 раз)
На текущий момент я потратил
$180 на прогоны
И $250 на улучшения через курсор
Делаю вывод, что нужно экспериментировать и дальше, так как вижу в лидерборде gpt oss 120b, которая выбила 100 (честно, сложно представить, как этого добиться без фита под сет, так как модель стабильно не перебирает все варианты из матрицы, даже если ее рассчитать отдельным кодовым тулом).
Тут теперь есть лидерборд: https://erc.timetoact-group.at/benchmarks/store
🔥15❤1