Neural Kovalskii

Платформа для ERC3: AI Agents открыта!

И так, приступим к тестам! 😈

Что за задача
Бенчмарк store — это онлайн‑магазин с продуктовым каталогом, скидками и корзиной.
Есть API:

/products/list — поиск товаров
/basket/view — корзина
/basket/add/basket/remove — добавить / убрать
/coupon/apply/coupon/remove — купоны
/basket/checkout — оформить заказ

Задачи типа:

«Купи ВСЕ GPUs»
«Купи 24 колы как можно дешевле (куча купонов и пагинация)»
«Купи 1x Dog Food Premium с максимальной скидкой (часть купонов не работает)»
«Купи ноутбук до $500 (невыполнимая задача — нужно признать невозможность)»
и т.д.
Агент должен сам:

разобрать задачу,
найти нужные товары через API,
оптимизировать цену / скидку / бюджет,
корректно применить купоны,
аккуратно завершить или честно сказать, что задача невозможна.

Мы же не зря пилим с вами sgr-agent-core

Взял этого агента

Адаптировал тулы для store через курсор 1 час
Делал прогоны и сохранял последние 2 тула которые генерировал агент (вчера-сегодня)
Улучшал итерационно промпт без few shot (названий кол-во и так далее, КЛОД 4.5 вечно норовит их вставить)

Под магазин получилось сделать 3к токенов промпт

Весь прогон на
gpt-4.1 стоит $4-5
gpt-4.1-mini $1

Метрики
gpt-4.1 = 90-100%
gpt-4.1-mini = 70-90%

Узнал что модель ленится делать тесты всех вариаций(тут пришлось прописать что бы делала)

Детерминизма нет
От прогона к прогону скочит на 10-15 процентов качество

Хочу уйти от ReAct агента все думаю как на gpt-4.1-mini сделать кодового агента что бы агент писал питон код для теста корзины и вариацый и редактировал код а не генерировал аргументы для апишки

Вот так выглядит успешный лог

{
  "session_id": "ssn-42JaV8ik4wpM8vXXeMQAZ2",
  "timestamp": "2025-11-21T10:13:18.413082",
  "benchmark": "store",
  "workspace": "sgr-agent-core",
  "model": "gpt-4.1-mini",
  "tasks": [
    {
      "task_number": 1,
      "task_id": "tsk-42JaV8j1P6ENA4vqJhwnrS",
      "spec_id": "gpu_race",
      "task_text": "Buy ALL GPUs",
      "start_time": "2025-11-21T10:13:18.413146",
      "error": null,
      "score": 1.0,
      "eval_logs": "PASS: should contain one event *Evt_BasketCheckedOut{Items:[{gpu-h100 1 20000} {gpu-a100 4 11950}]}\n",
      "last_3_tools": [
        {
          "tool_name": "storecheckouttool",
          "parameters": {
            "reasoning": "Basket contains all available GPUs as per verified stock quantities, verified total price, ready for final purchase."
          },
          "result": "{\"items\":[{\"sku\":\"gpu-h100\",\"quantity\":1,\"price\":20000},{\"sku\":\"gpu-a100\",\"quantity\":4,\"price\":11950}],\"subtotal\":67800,\"coupon\":\"\",\"discount\":0,\"total\":67800}"
        },
        {
          "tool_name": "finalanswertool",
          "parameters": {
            "reasoning": "All available GPUs were found, added to basket within stock limits, and purchased successfully after verification. Checkout confirmed with correct quantities and total price.",
            "completed_steps": [
              "Paginated product list to find GPUs.",
              "Added all available GPUs respecting stock limits.",
              "Verified basket contents.",
              "Completed checkout successfully."
            ],
            "answer": "Purchased all available GPUs: 1 unit of NVidia H100 and 4 units of NVidia A100, total price $67,800.",
            "status": "completed"
          },
          "result": "{\n  \"reasoning\": \"All available GPUs were found, added to basket within stock limits, and purchased successfully after verification. Checkout confirmed with correct quantities and total price.\",\n  \"co"
        }
      ],
      "end_time": "2025-11-21T10:14:13.819502",
      "duration_sec": 55.40637
    },

Как вывод, если дальше задачи будут универсальные или из другой сферы, то такой подход не подойдет
нужно будет делать немного обучение под задачи (без валидации сложно будет)

Далее на тест qwen!

Платформа | Регистрация | Пример агента

Please open Telegram to view this post

VIEW IN TELEGRAM

1❤11👍93👏2

2.02K viewsedited 10:50

Neural Kovalskii

Платформа для ERC3: AI Agents открыта! И так, приступим к тестам! 😈 Что за задача Бенчмарк store — это онлайн‑магазин с продуктовым каталогом, скидками и корзиной. Есть API: /products/list — поиск товаров /basket/view — корзина /basket/add/basket/remove…

ERC3 соревнование агентных архитектур

3 День перебора архитектур и подходов, и я наконец выбил на моделях 4 серии и qwen3 100 балов, и то не стабильно, 7 из 10 раз, что еще раз доказывает сложность отладки таких систем, особенно если вы придерживаетесь классического подхода полноценного агента.

Не фитились под датасет.
Не строили классификаторов на задачи.
И не делали сабагентов под задачи из бенча (вспоминаем ROMA).

Думаю, что если бы вы знали, что такое возможно в проде и постоянно улучшали систему, то наверное точно обрасли бы некоторым количеством спец агентов.

А сейчас я тестирую ReAct + PlanAct и разные уровни сжатия контекста и памяти, чтобы агент помнил, что сделал и что осталось, и чтобы всегда сомневался в том, что перебрал все варианты.

Что за задача, читайте тут

Что точно сработало?

Сжатие контекста, но не как у всех (как обычно, Валер).

Я придумал такой подход, что сжимаю reasoning и tool фазы c определенными маркерами, так же показываю еще, сколько таких reasoningов было до).

Так же написал парсер, чтобы собирать все тулы в отдельный блок, и получаем:
- system (тут мейн промпт агента)
- user (тут таска)
- user (сжатая память)
- 5-10 новых тулколов или 1, зависит, вызвала ли модель parallel_tool_call

Работает почти для всех типов моделей.

Отдельно протестировал:
- gpt oss 120b (1 раз из 10 запусков 93%)
- qwen3-235b-a22b-2507 (6 раза из 10 запусков 93%)
- 3-30b-a3b-instruct-2507 (стабильно 70-80%)
- gpt4.1-mini (80-93%)
- gpt4.1 (100% 8 из 10 раз)

На текущий момент я потратил
$180 на прогоны
И $250 на улучшения через курсор

Делаю вывод, что нужно экспериментировать и дальше, так как вижу в лидерборде gpt oss 120b, которая выбила 100 (честно, сложно представить, как этого добиться без фита под сет, так как модель стабильно не перебирает все варианты из матрицы, даже если ее рассчитать отдельным кодовым тулом).

Тут теперь есть лидерборд: https://erc.timetoact-group.at/benchmarks/store

🔥15❤1

1.55K viewsedited 05:01

About

Blog

Apps

Platform