📌 دیپسیک نسخه V3.1
♻️مدل جدید با ۶۸۵ میلیارد پارامتر بهعنوان یک مدل متنباز ترکیبی برای استدلال معرفی شده است. این نسخه علاوه بر بهبودهای کیفی، تمرکز ویژهای روی تواناییهای عاملمحور (agentic capabilities) دارد.
📊 نتایج بنچمارکها نشان میدهد:
♻️در SWE-bench Verified امتیاز 66.0 در برابر 44.6 نسخه R1
♻️در SWE-bench Multilingual امتیاز 54.5 (تقریباً دو برابر نسخههای قبلی)
♻️در Terminal-Bench جهش بزرگ تا 31.3 (مقایسه با 5.7 نسخه R1)
همچنین در حوزههای کاربردی دیگر:
SimpleQA → دقت 93.4%
Frames → امتیاز 83.7
xBench-DeepSearch → امتیاز 71.2
و در Browsecomp نیز برتری قابل توجه نسبت به نسخه قبلی.
🚀 این نتایج نشان میدهد که DeepSeek-V3.1 یکی از قویترین مدلهای متنباز حال حاضر است، مخصوصاً در وظایف چندزبانه، QA و محیطهای پویا مثل ترمینال.
🔗 این حرکت، رقابت متنبازها با مدلهای کلوزد مثل GPT-5 و Claude را وارد مرحله تازهای میکند.
#AI #LLM #DeepSeek #opensource #benchmark
@rss_ai_ir
♻️مدل جدید با ۶۸۵ میلیارد پارامتر بهعنوان یک مدل متنباز ترکیبی برای استدلال معرفی شده است. این نسخه علاوه بر بهبودهای کیفی، تمرکز ویژهای روی تواناییهای عاملمحور (agentic capabilities) دارد.
📊 نتایج بنچمارکها نشان میدهد:
♻️در SWE-bench Verified امتیاز 66.0 در برابر 44.6 نسخه R1
♻️در SWE-bench Multilingual امتیاز 54.5 (تقریباً دو برابر نسخههای قبلی)
♻️در Terminal-Bench جهش بزرگ تا 31.3 (مقایسه با 5.7 نسخه R1)
همچنین در حوزههای کاربردی دیگر:
SimpleQA → دقت 93.4%
Frames → امتیاز 83.7
xBench-DeepSearch → امتیاز 71.2
و در Browsecomp نیز برتری قابل توجه نسبت به نسخه قبلی.
🚀 این نتایج نشان میدهد که DeepSeek-V3.1 یکی از قویترین مدلهای متنباز حال حاضر است، مخصوصاً در وظایف چندزبانه، QA و محیطهای پویا مثل ترمینال.
🔗 این حرکت، رقابت متنبازها با مدلهای کلوزد مثل GPT-5 و Claude را وارد مرحله تازهای میکند.
#AI #LLM #DeepSeek #opensource #benchmark
@rss_ai_ir
⚡️ Qwen 3 Next —
مدل فوقالعاده بهینه از تیم Qwen
🔹 معماری: ترکیب Gated Attention و Gated DeltaNet (نسخهای از Mamba)
🔹 اندازه: 80B-A3B در دو نسخهی Instruct و Reasoning
🔹 کارایی: تا ۱۰ برابر سریعتر از Qwen 3 32B، مخصوصاً در کانتکستهای طولانی
🔹 دادهها: آموزشدیده روی ۱۵ تریلیون توکن (در مقابل ۳۶ تریلیون در Qwen 3 32B) با تنها ۱۰٪ منابع محاسباتی
🔹 پشتیبانی از Multi-Token Prediction برای افزایش سرعت دیکودینگ
🔹 در بنچمارکها، نسخهی Thinking توانسته Gemini 2.5 Thinking را پشت سر بگذارد 🚀
📌 تیم Qwen بهطور فشرده مدلهای جدید منتشر میکند:
✅هفتهی گذشته Qwen 3 Max (Instruct) و Qwen 3 ASR معرفی شدند.
✅بهزودی Qwen 3 VL و Qwen 3 Omni هم منتشر میشوند.
و به نظر میرسد Qwen 4 هم در راه است 👀
https://qwen.ai/blog?id=4074cca80393150c248e508aa62983f9cb7d27cd&from=research.latest-advancements-list
https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d
@rss_ai_ir
#Qwen #هوش_مصنوعی #مدل_زبان #LLM #AI #Reasoning #Benchmark
مدل فوقالعاده بهینه از تیم Qwen
🔹 معماری: ترکیب Gated Attention و Gated DeltaNet (نسخهای از Mamba)
🔹 اندازه: 80B-A3B در دو نسخهی Instruct و Reasoning
🔹 کارایی: تا ۱۰ برابر سریعتر از Qwen 3 32B، مخصوصاً در کانتکستهای طولانی
🔹 دادهها: آموزشدیده روی ۱۵ تریلیون توکن (در مقابل ۳۶ تریلیون در Qwen 3 32B) با تنها ۱۰٪ منابع محاسباتی
🔹 پشتیبانی از Multi-Token Prediction برای افزایش سرعت دیکودینگ
🔹 در بنچمارکها، نسخهی Thinking توانسته Gemini 2.5 Thinking را پشت سر بگذارد 🚀
📌 تیم Qwen بهطور فشرده مدلهای جدید منتشر میکند:
✅هفتهی گذشته Qwen 3 Max (Instruct) و Qwen 3 ASR معرفی شدند.
✅بهزودی Qwen 3 VL و Qwen 3 Omni هم منتشر میشوند.
و به نظر میرسد Qwen 4 هم در راه است 👀
https://qwen.ai/blog?id=4074cca80393150c248e508aa62983f9cb7d27cd&from=research.latest-advancements-list
https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d
@rss_ai_ir
#Qwen #هوش_مصنوعی #مدل_زبان #LLM #AI #Reasoning #Benchmark
🔥25👏18👍16🥰15❤13😁12🎉8🙏1
🌸 رونمایی از GAIA2 — عاملها در محیط واقعگرایانه 😘
🚀 نسخه دوم بِنچمارک چندمرحلهای GAIA2 و محیط شبیهسازی واقعگرایانهی Agentic Research Environment (ARE) منتشر شد — هر دو کاملاً متنباز!
✨ در GAIA2 عاملها باید در محیطی کار کنند که پر از API، اپلیکیشنها، بازخورد کاربر و حتی سایر عاملهاست. وظایف چندمرحلهای هستند و مسیرهای حل مختلفی دارند.
🟣 تواناییهایی که سنجیده میشوند:
♻️اجرای درست دستورها و استفاده از ابزارها (Execution)
♻️جستجو و استخراج اطلاعات (Search)
♻️برخورد با اطلاعات مبهم (Ambiguity)
♻️سازگاری با شرایط متغیر (Adaptability)
♻️مدیریت زمان و وظایف تکرارشونده (Time)
♻️رسیدن به نتیجه با وجود اطلاعات اضافی یا غلط (Noise)
♻️همکاری با سایر عاملها (Agent2Agent)
💡 Agentic Research Environment:
✳️محیط شبیهسازی با گذر زمان و تغییر شرایط
✳️پشتیبانی از اجرای async
✳️اپلیکیشنهای آماده مثل تقویم، ایمیل، تاکسی و ... (سازگار با MCP)
✳️کاربرد برای تست امنیت (red teaming)، آموزش و ساخت دیتاست
📊 این بِنچمارک در حال حاضر بزرگترین معیار عمومی برای ارزیابی عاملهاست و هیچ مدل SOTA نتوانسته در همه بخشها برتری کامل بگیرد.
@rss_ai_ir
🔗 منابع:
👉 Leaderboard
👉 Github
👉 HF Demo
👉 HF Blog
👉 Dataset
#AI #Agents #GAIA2 #Benchmark #DeepResearch
🚀 نسخه دوم بِنچمارک چندمرحلهای GAIA2 و محیط شبیهسازی واقعگرایانهی Agentic Research Environment (ARE) منتشر شد — هر دو کاملاً متنباز!
✨ در GAIA2 عاملها باید در محیطی کار کنند که پر از API، اپلیکیشنها، بازخورد کاربر و حتی سایر عاملهاست. وظایف چندمرحلهای هستند و مسیرهای حل مختلفی دارند.
🟣 تواناییهایی که سنجیده میشوند:
♻️اجرای درست دستورها و استفاده از ابزارها (Execution)
♻️جستجو و استخراج اطلاعات (Search)
♻️برخورد با اطلاعات مبهم (Ambiguity)
♻️سازگاری با شرایط متغیر (Adaptability)
♻️مدیریت زمان و وظایف تکرارشونده (Time)
♻️رسیدن به نتیجه با وجود اطلاعات اضافی یا غلط (Noise)
♻️همکاری با سایر عاملها (Agent2Agent)
💡 Agentic Research Environment:
✳️محیط شبیهسازی با گذر زمان و تغییر شرایط
✳️پشتیبانی از اجرای async
✳️اپلیکیشنهای آماده مثل تقویم، ایمیل، تاکسی و ... (سازگار با MCP)
✳️کاربرد برای تست امنیت (red teaming)، آموزش و ساخت دیتاست
📊 این بِنچمارک در حال حاضر بزرگترین معیار عمومی برای ارزیابی عاملهاست و هیچ مدل SOTA نتوانسته در همه بخشها برتری کامل بگیرد.
@rss_ai_ir
🔗 منابع:
👉 Leaderboard
👉 Github
👉 HF Demo
👉 HF Blog
👉 Dataset
#AI #Agents #GAIA2 #Benchmark #DeepResearch
🥰18😁14👍13❤12🎉12👏11🔥10👎1
🌐 بنچمارک جدید هوش مصنوعی روی ۹ حوزهی اصلی و ۴۴ شغل تمرکز دارد.
اینجا خبری از کارهای فیزیکی نیست، بلکه همهچیز دربارهی وظایف تحلیلی و ذهنی است.
🔹 حوزههای پوشش داده شده:
1️⃣ املاک، اجاره و لیزینگ
2️⃣ خدمات دولتی
3️⃣ تولید (غیر فیزیکی؛ مثل نقشهکشی و بررسی اسناد)
4️⃣ خدمات حرفهای، علمی و فنی
5️⃣ بهداشت و درمان و خدمات اجتماعی
6️⃣ مالی و بیمه
7️⃣ خردهفروشی
8️⃣ عمدهفروشی
9️⃣ کار با اطلاعات
📌 حتی در بخش «تولید» هم تمرکز روی مدیریت، تحلیل و بررسی دادههاست، نه کار فیزیکی.
@rss_ai_ir 🤖
#AI #Industry #Benchmark #هوش_مصنوعی #صنعت
اینجا خبری از کارهای فیزیکی نیست، بلکه همهچیز دربارهی وظایف تحلیلی و ذهنی است.
🔹 حوزههای پوشش داده شده:
1️⃣ املاک، اجاره و لیزینگ
2️⃣ خدمات دولتی
3️⃣ تولید (غیر فیزیکی؛ مثل نقشهکشی و بررسی اسناد)
4️⃣ خدمات حرفهای، علمی و فنی
5️⃣ بهداشت و درمان و خدمات اجتماعی
6️⃣ مالی و بیمه
7️⃣ خردهفروشی
8️⃣ عمدهفروشی
9️⃣ کار با اطلاعات
📌 حتی در بخش «تولید» هم تمرکز روی مدیریت، تحلیل و بررسی دادههاست، نه کار فیزیکی.
@rss_ai_ir 🤖
#AI #Industry #Benchmark #هوش_مصنوعی #صنعت