VIRSUN
7.42K subscribers
795 photos
463 videos
3 files
508 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
📌 دیپ‌سیک نسخه V3.1

♻️مدل جدید با ۶۸۵ میلیارد پارامتر به‌عنوان یک مدل متن‌باز ترکیبی برای استدلال معرفی شده است. این نسخه علاوه بر بهبودهای کیفی، تمرکز ویژه‌ای روی توانایی‌های عامل‌محور (agentic capabilities) دارد.

📊 نتایج بنچمارک‌ها نشان می‌دهد:

♻️در SWE-bench Verified امتیاز 66.0 در برابر 44.6 نسخه R1
♻️در SWE-bench Multilingual امتیاز 54.5 (تقریباً دو برابر نسخه‌های قبلی)
♻️در Terminal-Bench جهش بزرگ تا 31.3 (مقایسه با 5.7 نسخه R1)


همچنین در حوزه‌های کاربردی دیگر:

SimpleQA → دقت 93.4%

Frames → امتیاز 83.7

xBench-DeepSearch → امتیاز 71.2

و در Browsecomp نیز برتری قابل توجه نسبت به نسخه قبلی.


🚀 این نتایج نشان می‌دهد که DeepSeek-V3.1 یکی از قوی‌ترین مدل‌های متن‌باز حال حاضر است، مخصوصاً در وظایف چندزبانه، QA و محیط‌های پویا مثل ترمینال.

🔗 این حرکت، رقابت متن‌بازها با مدل‌های کلوزد مثل GPT-5 و Claude را وارد مرحله تازه‌ای می‌کند.

#AI #LLM #DeepSeek #opensource #benchmark

@rss_ai_ir
⚡️ Qwen 3 Next —
مدل فوق‌العاده بهینه از تیم Qwen

🔹 معماری: ترکیب Gated Attention و Gated DeltaNet (نسخه‌ای از Mamba)

🔹 اندازه: 80B-A3B در دو نسخه‌ی Instruct و Reasoning

🔹 کارایی: تا ۱۰ برابر سریع‌تر از Qwen 3 32B، مخصوصاً در کانتکست‌های طولانی

🔹 داده‌ها: آموزش‌دیده روی ۱۵ تریلیون توکن (در مقابل ۳۶ تریلیون در Qwen 3 32B) با تنها ۱۰٪ منابع محاسباتی

🔹 پشتیبانی از Multi-Token Prediction برای افزایش سرعت دیکودینگ

🔹 در بنچمارک‌ها، نسخه‌ی Thinking توانسته Gemini 2.5 Thinking را پشت سر بگذارد 🚀

📌 تیم Qwen به‌طور فشرده مدل‌های جدید منتشر می‌کند:

هفته‌ی گذشته Qwen 3 Max (Instruct) و Qwen 3 ASR معرفی شدند.

به‌زودی Qwen 3 VL و Qwen 3 Omni هم منتشر می‌شوند.

و به نظر می‌رسد Qwen 4 هم در راه است 👀

https://qwen.ai/blog?id=4074cca80393150c248e508aa62983f9cb7d27cd&from=research.latest-advancements-list


https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d


@rss_ai_ir

#Qwen #هوش_مصنوعی #مدل_زبان #LLM #AI #Reasoning #Benchmark
🔥25👏18👍16🥰1513😁12🎉8🙏1
🌸 رونمایی از GAIA2 — عامل‌ها در محیط واقع‌گرایانه 😘

🚀 نسخه دوم بِنچمارک چندمرحله‌ای GAIA2 و محیط شبیه‌سازی واقع‌گرایانه‌ی Agentic Research Environment (ARE) منتشر شد — هر دو کاملاً متن‌باز!

در GAIA2 عامل‌ها باید در محیطی کار کنند که پر از API، اپلیکیشن‌ها، بازخورد کاربر و حتی سایر عامل‌هاست. وظایف چندمرحله‌ای هستند و مسیرهای حل مختلفی دارند.

🟣 توانایی‌هایی که سنجیده می‌شوند:

♻️اجرای درست دستورها و استفاده از ابزارها (Execution)
♻️جستجو و استخراج اطلاعات (Search)
♻️برخورد با اطلاعات مبهم (Ambiguity)
♻️سازگاری با شرایط متغیر (Adaptability)
♻️مدیریت زمان و وظایف تکرارشونده (Time)
♻️رسیدن به نتیجه با وجود اطلاعات اضافی یا غلط (Noise)
♻️همکاری با سایر عامل‌ها (Agent2Agent)


💡 Agentic Research Environment:

✳️محیط شبیه‌سازی با گذر زمان و تغییر شرایط
✳️پشتیبانی از اجرای async
✳️اپلیکیشن‌های آماده مثل تقویم، ایمیل، تاکسی و ... (سازگار با MCP)
✳️کاربرد برای تست امنیت (red teaming)، آموزش و ساخت دیتاست


📊 این بِنچمارک در حال حاضر بزرگ‌ترین معیار عمومی برای ارزیابی عامل‌هاست و هیچ مدل SOTA نتوانسته در همه بخش‌ها برتری کامل بگیرد.
@rss_ai_ir
🔗 منابع:
👉 Leaderboard
👉 Github
👉 HF Demo
👉 HF Blog
👉 Dataset

#AI #Agents #GAIA2 #Benchmark #DeepResearch
🥰18😁14👍1312🎉12👏11🔥10👎1
🌐 بنچمارک جدید هوش مصنوعی روی ۹ حوزه‌ی اصلی و ۴۴ شغل تمرکز دارد.
اینجا خبری از کارهای فیزیکی نیست، بلکه همه‌چیز درباره‌ی وظایف تحلیلی و ذهنی است.

🔹 حوزه‌های پوشش داده شده:
1️⃣ املاک، اجاره و لیزینگ
2️⃣ خدمات دولتی
3️⃣ تولید (غیر فیزیکی؛ مثل نقشه‌کشی و بررسی اسناد)
4️⃣ خدمات حرفه‌ای، علمی و فنی
5️⃣ بهداشت و درمان و خدمات اجتماعی
6️⃣ مالی و بیمه
7️⃣ خرده‌فروشی
8️⃣ عمده‌فروشی
9️⃣ کار با اطلاعات

📌 حتی در بخش «تولید» هم تمرکز روی مدیریت، تحلیل و بررسی داده‌هاست، نه کار فیزیکی.

@rss_ai_ir 🤖
#AI #Industry #Benchmark #هوش_مصنوعی #صنعت