Технозаметки Малышева
5.61K subscribers
2.8K photos
938 videos
38 files
3.08K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
🌐Digest полезных материалов по ML
🤖Benchmarking of AI Agents

Тема AI-агентов сегодня становится актуальна как никогда. Копнула в сторону их оценки и собрала подборку материалов по бенмаркингу агентов.

1⃣Статья на Medium по введению в агентов
2⃣HumanEval и ruHumanEval - классика бенчмаркинга по оценки способностей моделей писать программный код
3⃣WebArena (статья) платформа для имитации работы Агента в Web среде. Пользователи могут создавать имитацию собственных сред, использовать реализованные на платформе инструменты оценки и тестировать модели на готовых задачах интегрированного в платформу бенчмарка.
4⃣AgentBench - самый популярный бенчмарк для оценки агентов. Позволяет оценивать модели на основе Chain-of-Thought в средах 8 типов, разделенных на три категории (Code-, Web- и Game-Grounded). Для оценки используются автоматические метрики (Success Rate, F1, Game Progress и т. п.), а общий скор получается усреднением метрик по всем задачам.
5⃣LLMArena - Арена для агентов, где модели соревнуются между собой в 7 игровых средах разного формата (командные игры, соревнования, настолки и т. п.), заданный с помощью текстового описания в виде набора из трех промптов (System prompt, Observation prompts, Action prompt). Рейтинг моделей строится по скиллам, оцениваемых с помощью TrueSkill.
6⃣AppWorld - бенчмарк, где агент выступает в роли виртуального ассистента, помогающего виртуальным пользователям выполнять повседневные дела через приложения (составить плейлист для тренировки, заказать пиццу, заплатить другу через splitwise и т. п.). Авторы заморочились и создали с помощью ChatGPT мини сообщество из 107 человек, полностью расписав информации о них в приложении так, чтобы весь граф общения согласовывался между людьми (если Петя записан к тренеру Васе, то у Васе стоит слот на тренировку с Петей в календаре)
7⃣AI Agent That Matter — большой обзор по бенчмаркингу агентов, авторы которого рассматривают вызовы при оценке агентов и среди них выделяют следующие 5:
AI agent evaluations must be cost-controlled.
Jointly optimizing accuracy and cost can yield better agent design.
Model developers and downstream developers have distinct benchmarking needs.
Agent benchmarks enable shortcuts.
Agent evaluations lack standardization and reproducibility.
Как итог они приходят к выводу, что при оценке агентов важно критично оценивать не только основную метрику, но и стоимость инференса, и оптимизировать эти величины совместно. Помимо этого, чтобы избежать читинга со стороны моделей важно, чтобы тест отличался по распределению/задачам/доменам от обучающих данных, а оценка на бенчмарке была максимально стандартизирована.

@mashkka_ds

#usefullinks #ml_на_пальцах #полезныематериалы #aiagents
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍31