🌐Digest полезных материалов по ML🤖Benchmarking of AI AgentsТема AI-агентов сегодня становится актуальна как никогда. Копнула в сторону их оценки и собрала подборку материалов по бенмаркингу агентов.1⃣Статья на Medium по введению в агентов
2⃣HumanEval и
ruHumanEval - классика бенчмаркинга по оценки способностей моделей писать программный код
3⃣WebArena (
статья) платформа для имитации работы Агента в Web среде. Пользователи могут создавать имитацию собственных сред, использовать реализованные на платформе инструменты оценки и тестировать модели на готовых задачах интегрированного в платформу бенчмарка.
4⃣AgentBench - самый популярный бенчмарк для оценки агентов. Позволяет оценивать модели на основе Chain-of-Thought в средах 8 типов, разделенных на три категории (
Code-, Web- и Game-Grounded). Для оценки используются автоматические метрики (
Success Rate, F1, Game Progress и т. п.), а общий скор получается усреднением метрик по всем задачам.
5⃣LLMArena - Арена для агентов, где модели соревнуются между собой в 7 игровых средах разного формата (
командные игры, соревнования, настолки и т. п.), заданный с помощью текстового описания в виде набора из трех промптов (
System prompt, Observation prompts, Action prompt). Рейтинг моделей строится по скиллам, оцениваемых с помощью
TrueSkill.
6⃣AppWorld - бенчмарк, где агент выступает в роли виртуального ассистента, помогающего виртуальным пользователям выполнять повседневные дела через приложения (
составить плейлист для тренировки, заказать пиццу, заплатить другу через splitwise и т. п.). Авторы заморочились и создали с помощью ChatGPT мини сообщество из 107 человек, полностью расписав информации о них в приложении так, чтобы весь граф общения согласовывался между людьми (если Петя записан к тренеру Васе, то у Васе стоит слот на тренировку с Петей в календаре)
7⃣AI Agent That Matter — большой обзор по бенчмаркингу агентов, авторы которого рассматривают вызовы при оценке агентов и среди них выделяют следующие 5:
➖AI agent evaluations must be cost-controlled.
➖Jointly optimizing accuracy and cost can yield better agent design.
➖Model developers and downstream developers have distinct benchmarking needs.
➖Agent benchmarks enable shortcuts.
➖Agent evaluations lack standardization and reproducibility.Как итог они приходят к выводу, что при оценке агентов важно критично оценивать не только основную метрику, но и стоимость инференса, и оптимизировать эти величины совместно. Помимо этого, чтобы избежать читинга со стороны моделей важно, чтобы тест отличался по распределению/задачам/доменам от обучающих данных, а оценка на бенчмарке была максимально стандартизирована.
@mashkka_ds#usefullinks #ml_на_пальцах #полезныематериалы #aiagents