VIRSUN
11.1K subscribers
1.09K photos
651 videos
5 files
719 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
📊 نتایج بنچمارک MCP-Universe

تست‌های تازه‌ی MCP-Universe یک برنده‌ی مشخص داشتند: GPT-5 با اختلاف زیاد در صدر قرار گرفت:

🏆 نرخ موفقیت (SR) → ۴۳.۷٪

🏆 امتیاز ارزیابان (AE) → ۶۰.۲٪

📈 در تمام حوزه‌ها پیشتاز است، به جز Browser Automation که کمی بهتر از آن Grok-4 عمل کرده.



---

🔎 جزئیات بر اساس حوزه‌ها:

تحلیل مالی (Financial Analysis) → رکورد GPT-5 با ۶۷.۵٪؛ فاصله‌ی چشمگیر از بقیه.

طراحی سه‌بعدی (3D Designing) → باز هم صدرنشین با ۵۲.۶٪.

مدیریت مخزن کد (Repository Management) → GPT-5 با ۳۰.۳٪ به‌وضوح بالاتر از رقباست.

اتوماسیون مرورگر (Browser Automation) → این‌جا شگفتی رقم خورد: Grok-4 با ۴۱.۰٪ جلوتر از GPT-5 (۳۵.۹٪).



---

🟢 در میان مدل‌های متن‌باز (Open-Source):

♻️مدل GLM-4.5 بهترین عملکرد را داشت با ۲۴.۷٪ SR و ۴۱.۲٪ AE.

♻️مدل Kimi-K2 با وجود تبلیغات زیاد درباره‌ی آموزش ویژه برای MCP، تنها به ۱۹٪ SR رسید.



---

⚠️ نکته‌ی مهم: حتی رهبر جدول یعنی GPT-5 هم نتوانست از مرز ۵۰٪ کیفیت نهایی عبور کند. این نشان می‌دهد که تعامل LLMها با سرورهای MCP هنوز راه زیادی تا بلوغ کامل دارد، و این وظایف واقعاً پیچیده و چندلایه هستند.

@rss_ai_ir
#هوش_مصنوعی #LLM #MCP #GPT5 #Benchmarks
15😁11🔥9👍8🎉8
🤖 MiniMax-M2 —
نسل جدید مدل‌های MoE از سری MiniMax

مدل MiniMax-M2 نقطه‌ی عطفی در بهینه‌سازی هوش مصنوعی است:
با ۲۳۰ میلیارد پارامتر (که تنها ۱۰ میلیارد از آن‌ها فعال‌اند)، این مدل ترکیبی از قدرت مدل‌های بزرگ LLM و کارایی بالا برای کاربردهای عامل‌محور (Agentic) و برنامه‌نویسی است ⚙️


---

🔹 ویژگی‌های کلیدی

🧠 هوش در سطح جهانی:
بر اساس گزارش Artificial Analysis، مدل MiniMax-M2 عملکردی درخشان در ریاضیات، علوم، برنامه‌نویسی و استدلال چندمرحله‌ای دارد.
در شاخص هوش کلی، در رتبه‌ی #۱ بین مدل‌های متن‌باز قرار گرفته است.

💻 کدنویسی هوشمند:
برای کل چرخه توسعه طراحی شده — از ویرایش فایل تا تست و تصحیح خودکار کد.
در آزمون‌های Terminal-Bench و SWE-Bench نتایج عالی گرفته و در IDE و CI/CD بسیار مؤثر عمل می‌کند.

🧩 توانایی‌های عامل‌محور (Agentic):
توانایی برنامه‌ریزی و اجرای زنجیره‌های پیچیده‌ی اقدامات از طریق shell، مرورگر، retrieval و code runner دارد.
در آزمون BrowseComp به‌خوبی منابع سخت‌دسترس را پیدا کرده و پس از خطاها بدون از دست دادن رشته استدلال ادامه می‌دهد.

⚙️ معماری ترکیبی:
♻️همچنین MiniMax-M2 بر پایه‌ی GPT-OSS ساخته شده و از Full Attention و Sliding Window Attention (SWA) به‌صورت هم‌زمان استفاده می‌کند.
♻️این ترکیب باعث می‌شود مدل هم دید کلی داشته باشد و هم روی بخش‌های نزدیک تمرکز کند — تعادل بین حافظه‌ی طولانی و دقت محلی.

♻️هر سر attention نرمال‌سازی مستقل (RMSNorm) دارد، و پارامترهای RoPE در بخش‌های مختلف متفاوت‌اند، که منجر به پایداری و انعطاف بالا می‌شود.


---

🚀 نتیجه:
همچنین MiniMax-M2 استاندارد جدیدی برای عامل‌های هوشمند و برنامه‌نویسی خودکار است —
هوشمندتر، سریع‌تر و اقتصادی‌تر از مدل‌های مشابه.

🔗 https://huggingface.co/MiniMaxAI/MiniMax-M2

@rss_ai_ir
#AI #MiniMax #LLM #ArtificialIntelligence #Benchmarks #AgenticAI #Coding
3