VIRSUN

🌸 رونمایی از GAIA2 — عامل‌ها در محیط واقع‌گرایانه 😘

🚀 نسخه دوم بِنچمارک چندمرحله‌ای GAIA2 و محیط شبیه‌سازی واقع‌گرایانه‌ی Agentic Research Environment (ARE) منتشر شد — هر دو کاملاً متن‌باز!

✨ در GAIA2 عامل‌ها باید در محیطی کار کنند که پر از API، اپلیکیشن‌ها، بازخورد کاربر و حتی سایر عامل‌هاست. وظایف چندمرحله‌ای هستند و مسیرهای حل مختلفی دارند.

🟣 توانایی‌هایی که سنجیده می‌شوند:

♻️اجرای درست دستورها و استفاده از ابزارها (Execution)
♻️جستجو و استخراج اطلاعات (Search)
♻️برخورد با اطلاعات مبهم (Ambiguity)
♻️سازگاری با شرایط متغیر (Adaptability)
♻️مدیریت زمان و وظایف تکرارشونده (Time)
♻️رسیدن به نتیجه با وجود اطلاعات اضافی یا غلط (Noise)
♻️همکاری با سایر عامل‌ها (Agent2Agent)

💡 Agentic Research Environment:

✳️محیط شبیه‌سازی با گذر زمان و تغییر شرایط
✳️پشتیبانی از اجرای async
✳️اپلیکیشن‌های آماده مثل تقویم، ایمیل، تاکسی و ... (سازگار با MCP)
✳️کاربرد برای تست امنیت (red teaming)، آموزش و ساخت دیتاست

📊 این بِنچمارک در حال حاضر بزرگ‌ترین معیار عمومی برای ارزیابی عامل‌هاست و هیچ مدل SOTA نتوانسته در همه بخش‌ها برتری کامل بگیرد.
@rss_ai_ir
🔗 منابع:
👉 Leaderboard
👉 Github
👉 HF Demo
👉 HF Blog
👉 Dataset

#AI #Agents #GAIA2 #Benchmark #DeepResearch

🥰18😁14👍13❤12🎉12👏11🔥10👎1

1.2K views03:07

About

Blog

Apps

Platform