VIRSUN
12.2K subscribers
1.17K photos
701 videos
5 files
772 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
🌸 رونمایی از GAIA2 — عامل‌ها در محیط واقع‌گرایانه 😘

🚀 نسخه دوم بِنچمارک چندمرحله‌ای GAIA2 و محیط شبیه‌سازی واقع‌گرایانه‌ی Agentic Research Environment (ARE) منتشر شد — هر دو کاملاً متن‌باز!

در GAIA2 عامل‌ها باید در محیطی کار کنند که پر از API، اپلیکیشن‌ها، بازخورد کاربر و حتی سایر عامل‌هاست. وظایف چندمرحله‌ای هستند و مسیرهای حل مختلفی دارند.

🟣 توانایی‌هایی که سنجیده می‌شوند:

♻️اجرای درست دستورها و استفاده از ابزارها (Execution)
♻️جستجو و استخراج اطلاعات (Search)
♻️برخورد با اطلاعات مبهم (Ambiguity)
♻️سازگاری با شرایط متغیر (Adaptability)
♻️مدیریت زمان و وظایف تکرارشونده (Time)
♻️رسیدن به نتیجه با وجود اطلاعات اضافی یا غلط (Noise)
♻️همکاری با سایر عامل‌ها (Agent2Agent)


💡 Agentic Research Environment:

✳️محیط شبیه‌سازی با گذر زمان و تغییر شرایط
✳️پشتیبانی از اجرای async
✳️اپلیکیشن‌های آماده مثل تقویم، ایمیل، تاکسی و ... (سازگار با MCP)
✳️کاربرد برای تست امنیت (red teaming)، آموزش و ساخت دیتاست


📊 این بِنچمارک در حال حاضر بزرگ‌ترین معیار عمومی برای ارزیابی عامل‌هاست و هیچ مدل SOTA نتوانسته در همه بخش‌ها برتری کامل بگیرد.
@rss_ai_ir
🔗 منابع:
👉 Leaderboard
👉 Github
👉 HF Demo
👉 HF Blog
👉 Dataset

#AI #Agents #GAIA2 #Benchmark #DeepResearch
🥰18😁14👍1312🎉12👏11🔥10👎1