📌 دیپسیک نسخه V3.1
♻️مدل جدید با ۶۸۵ میلیارد پارامتر بهعنوان یک مدل متنباز ترکیبی برای استدلال معرفی شده است. این نسخه علاوه بر بهبودهای کیفی، تمرکز ویژهای روی تواناییهای عاملمحور (agentic capabilities) دارد.
📊 نتایج بنچمارکها نشان میدهد:
♻️در SWE-bench Verified امتیاز 66.0 در برابر 44.6 نسخه R1
♻️در SWE-bench Multilingual امتیاز 54.5 (تقریباً دو برابر نسخههای قبلی)
♻️در Terminal-Bench جهش بزرگ تا 31.3 (مقایسه با 5.7 نسخه R1)
همچنین در حوزههای کاربردی دیگر:
SimpleQA → دقت 93.4%
Frames → امتیاز 83.7
xBench-DeepSearch → امتیاز 71.2
و در Browsecomp نیز برتری قابل توجه نسبت به نسخه قبلی.
🚀 این نتایج نشان میدهد که DeepSeek-V3.1 یکی از قویترین مدلهای متنباز حال حاضر است، مخصوصاً در وظایف چندزبانه، QA و محیطهای پویا مثل ترمینال.
🔗 این حرکت، رقابت متنبازها با مدلهای کلوزد مثل GPT-5 و Claude را وارد مرحله تازهای میکند.
#AI #LLM #DeepSeek #opensource #benchmark
@rss_ai_ir
♻️مدل جدید با ۶۸۵ میلیارد پارامتر بهعنوان یک مدل متنباز ترکیبی برای استدلال معرفی شده است. این نسخه علاوه بر بهبودهای کیفی، تمرکز ویژهای روی تواناییهای عاملمحور (agentic capabilities) دارد.
📊 نتایج بنچمارکها نشان میدهد:
♻️در SWE-bench Verified امتیاز 66.0 در برابر 44.6 نسخه R1
♻️در SWE-bench Multilingual امتیاز 54.5 (تقریباً دو برابر نسخههای قبلی)
♻️در Terminal-Bench جهش بزرگ تا 31.3 (مقایسه با 5.7 نسخه R1)
همچنین در حوزههای کاربردی دیگر:
SimpleQA → دقت 93.4%
Frames → امتیاز 83.7
xBench-DeepSearch → امتیاز 71.2
و در Browsecomp نیز برتری قابل توجه نسبت به نسخه قبلی.
🚀 این نتایج نشان میدهد که DeepSeek-V3.1 یکی از قویترین مدلهای متنباز حال حاضر است، مخصوصاً در وظایف چندزبانه، QA و محیطهای پویا مثل ترمینال.
🔗 این حرکت، رقابت متنبازها با مدلهای کلوزد مثل GPT-5 و Claude را وارد مرحله تازهای میکند.
#AI #LLM #DeepSeek #opensource #benchmark
@rss_ai_ir
⚡️ Qwen 3 Next —
مدل فوقالعاده بهینه از تیم Qwen
🔹 معماری: ترکیب Gated Attention و Gated DeltaNet (نسخهای از Mamba)
🔹 اندازه: 80B-A3B در دو نسخهی Instruct و Reasoning
🔹 کارایی: تا ۱۰ برابر سریعتر از Qwen 3 32B، مخصوصاً در کانتکستهای طولانی
🔹 دادهها: آموزشدیده روی ۱۵ تریلیون توکن (در مقابل ۳۶ تریلیون در Qwen 3 32B) با تنها ۱۰٪ منابع محاسباتی
🔹 پشتیبانی از Multi-Token Prediction برای افزایش سرعت دیکودینگ
🔹 در بنچمارکها، نسخهی Thinking توانسته Gemini 2.5 Thinking را پشت سر بگذارد 🚀
📌 تیم Qwen بهطور فشرده مدلهای جدید منتشر میکند:
✅هفتهی گذشته Qwen 3 Max (Instruct) و Qwen 3 ASR معرفی شدند.
✅بهزودی Qwen 3 VL و Qwen 3 Omni هم منتشر میشوند.
و به نظر میرسد Qwen 4 هم در راه است 👀
https://qwen.ai/blog?id=4074cca80393150c248e508aa62983f9cb7d27cd&from=research.latest-advancements-list
https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d
@rss_ai_ir
#Qwen #هوش_مصنوعی #مدل_زبان #LLM #AI #Reasoning #Benchmark
مدل فوقالعاده بهینه از تیم Qwen
🔹 معماری: ترکیب Gated Attention و Gated DeltaNet (نسخهای از Mamba)
🔹 اندازه: 80B-A3B در دو نسخهی Instruct و Reasoning
🔹 کارایی: تا ۱۰ برابر سریعتر از Qwen 3 32B، مخصوصاً در کانتکستهای طولانی
🔹 دادهها: آموزشدیده روی ۱۵ تریلیون توکن (در مقابل ۳۶ تریلیون در Qwen 3 32B) با تنها ۱۰٪ منابع محاسباتی
🔹 پشتیبانی از Multi-Token Prediction برای افزایش سرعت دیکودینگ
🔹 در بنچمارکها، نسخهی Thinking توانسته Gemini 2.5 Thinking را پشت سر بگذارد 🚀
📌 تیم Qwen بهطور فشرده مدلهای جدید منتشر میکند:
✅هفتهی گذشته Qwen 3 Max (Instruct) و Qwen 3 ASR معرفی شدند.
✅بهزودی Qwen 3 VL و Qwen 3 Omni هم منتشر میشوند.
و به نظر میرسد Qwen 4 هم در راه است 👀
https://qwen.ai/blog?id=4074cca80393150c248e508aa62983f9cb7d27cd&from=research.latest-advancements-list
https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d
@rss_ai_ir
#Qwen #هوش_مصنوعی #مدل_زبان #LLM #AI #Reasoning #Benchmark
🔥25👏18👍16🥰15❤13😁12🎉8🙏1
🌸 رونمایی از GAIA2 — عاملها در محیط واقعگرایانه 😘
🚀 نسخه دوم بِنچمارک چندمرحلهای GAIA2 و محیط شبیهسازی واقعگرایانهی Agentic Research Environment (ARE) منتشر شد — هر دو کاملاً متنباز!
✨ در GAIA2 عاملها باید در محیطی کار کنند که پر از API، اپلیکیشنها، بازخورد کاربر و حتی سایر عاملهاست. وظایف چندمرحلهای هستند و مسیرهای حل مختلفی دارند.
🟣 تواناییهایی که سنجیده میشوند:
♻️اجرای درست دستورها و استفاده از ابزارها (Execution)
♻️جستجو و استخراج اطلاعات (Search)
♻️برخورد با اطلاعات مبهم (Ambiguity)
♻️سازگاری با شرایط متغیر (Adaptability)
♻️مدیریت زمان و وظایف تکرارشونده (Time)
♻️رسیدن به نتیجه با وجود اطلاعات اضافی یا غلط (Noise)
♻️همکاری با سایر عاملها (Agent2Agent)
💡 Agentic Research Environment:
✳️محیط شبیهسازی با گذر زمان و تغییر شرایط
✳️پشتیبانی از اجرای async
✳️اپلیکیشنهای آماده مثل تقویم، ایمیل، تاکسی و ... (سازگار با MCP)
✳️کاربرد برای تست امنیت (red teaming)، آموزش و ساخت دیتاست
📊 این بِنچمارک در حال حاضر بزرگترین معیار عمومی برای ارزیابی عاملهاست و هیچ مدل SOTA نتوانسته در همه بخشها برتری کامل بگیرد.
@rss_ai_ir
🔗 منابع:
👉 Leaderboard
👉 Github
👉 HF Demo
👉 HF Blog
👉 Dataset
#AI #Agents #GAIA2 #Benchmark #DeepResearch
🚀 نسخه دوم بِنچمارک چندمرحلهای GAIA2 و محیط شبیهسازی واقعگرایانهی Agentic Research Environment (ARE) منتشر شد — هر دو کاملاً متنباز!
✨ در GAIA2 عاملها باید در محیطی کار کنند که پر از API، اپلیکیشنها، بازخورد کاربر و حتی سایر عاملهاست. وظایف چندمرحلهای هستند و مسیرهای حل مختلفی دارند.
🟣 تواناییهایی که سنجیده میشوند:
♻️اجرای درست دستورها و استفاده از ابزارها (Execution)
♻️جستجو و استخراج اطلاعات (Search)
♻️برخورد با اطلاعات مبهم (Ambiguity)
♻️سازگاری با شرایط متغیر (Adaptability)
♻️مدیریت زمان و وظایف تکرارشونده (Time)
♻️رسیدن به نتیجه با وجود اطلاعات اضافی یا غلط (Noise)
♻️همکاری با سایر عاملها (Agent2Agent)
💡 Agentic Research Environment:
✳️محیط شبیهسازی با گذر زمان و تغییر شرایط
✳️پشتیبانی از اجرای async
✳️اپلیکیشنهای آماده مثل تقویم، ایمیل، تاکسی و ... (سازگار با MCP)
✳️کاربرد برای تست امنیت (red teaming)، آموزش و ساخت دیتاست
📊 این بِنچمارک در حال حاضر بزرگترین معیار عمومی برای ارزیابی عاملهاست و هیچ مدل SOTA نتوانسته در همه بخشها برتری کامل بگیرد.
@rss_ai_ir
🔗 منابع:
👉 Leaderboard
👉 Github
👉 HF Demo
👉 HF Blog
👉 Dataset
#AI #Agents #GAIA2 #Benchmark #DeepResearch
🥰18😁14👍13❤12🎉12👏11🔥10👎1
🌐 بنچمارک جدید هوش مصنوعی روی ۹ حوزهی اصلی و ۴۴ شغل تمرکز دارد.
اینجا خبری از کارهای فیزیکی نیست، بلکه همهچیز دربارهی وظایف تحلیلی و ذهنی است.
🔹 حوزههای پوشش داده شده:
1️⃣ املاک، اجاره و لیزینگ
2️⃣ خدمات دولتی
3️⃣ تولید (غیر فیزیکی؛ مثل نقشهکشی و بررسی اسناد)
4️⃣ خدمات حرفهای، علمی و فنی
5️⃣ بهداشت و درمان و خدمات اجتماعی
6️⃣ مالی و بیمه
7️⃣ خردهفروشی
8️⃣ عمدهفروشی
9️⃣ کار با اطلاعات
📌 حتی در بخش «تولید» هم تمرکز روی مدیریت، تحلیل و بررسی دادههاست، نه کار فیزیکی.
@rss_ai_ir 🤖
#AI #Industry #Benchmark #هوش_مصنوعی #صنعت
اینجا خبری از کارهای فیزیکی نیست، بلکه همهچیز دربارهی وظایف تحلیلی و ذهنی است.
🔹 حوزههای پوشش داده شده:
1️⃣ املاک، اجاره و لیزینگ
2️⃣ خدمات دولتی
3️⃣ تولید (غیر فیزیکی؛ مثل نقشهکشی و بررسی اسناد)
4️⃣ خدمات حرفهای، علمی و فنی
5️⃣ بهداشت و درمان و خدمات اجتماعی
6️⃣ مالی و بیمه
7️⃣ خردهفروشی
8️⃣ عمدهفروشی
9️⃣ کار با اطلاعات
📌 حتی در بخش «تولید» هم تمرکز روی مدیریت، تحلیل و بررسی دادههاست، نه کار فیزیکی.
@rss_ai_ir 🤖
#AI #Industry #Benchmark #هوش_مصنوعی #صنعت
This media is not supported in your browser
VIEW IN TELEGRAM
🌱 PlanarTrack:
مرجع بزرگ برای رهگیری صفحات (Planar Tracking) 🌱
👉 بنچمارک PlanarTrack یک دیتاست و بنچمارک بزرگ و باکیفیت برای رهگیری صفحات در ویدیوها است — شامل ۱,۱۵۰ توالی با بیش از ۷۳۳ هزار فریم، که دربرگیرندهی ۱۰۰۰ ویدیو کوتاهمدت و ۱۵۰ ویدیو بلندمدت است.
این مجموعه برای آموزش و ارزیابی الگوریتمهای رهگیری دقیق در سطوح مختلف طراحی شده و چالشی جدید برای مدلهای بینایی ماشین محسوب میشود. 💙
🔗 مرجعها:
📘 Review
📄 Paper (arXiv)
💻 Repo
🌐 Project
🧩 Dataset
#AI #ComputerVision #Tracking #PlanarTrack #Dataset #Benchmark #DeepLearning #ML #هوش_مصنوعی #بینایی_ماشین
مرجع بزرگ برای رهگیری صفحات (Planar Tracking) 🌱
👉 بنچمارک PlanarTrack یک دیتاست و بنچمارک بزرگ و باکیفیت برای رهگیری صفحات در ویدیوها است — شامل ۱,۱۵۰ توالی با بیش از ۷۳۳ هزار فریم، که دربرگیرندهی ۱۰۰۰ ویدیو کوتاهمدت و ۱۵۰ ویدیو بلندمدت است.
این مجموعه برای آموزش و ارزیابی الگوریتمهای رهگیری دقیق در سطوح مختلف طراحی شده و چالشی جدید برای مدلهای بینایی ماشین محسوب میشود. 💙
🔗 مرجعها:
📘 Review
📄 Paper (arXiv)
💻 Repo
🌐 Project
🧩 Dataset
#AI #ComputerVision #Tracking #PlanarTrack #Dataset #Benchmark #DeepLearning #ML #هوش_مصنوعی #بینایی_ماشین
This media is not supported in your browser
VIEW IN TELEGRAM
🖥️ من اسمش را «بنچمارک پرولتری» میگذارم 😄
کاربری یک تست جذاب انجام داده:
او فقط یک پرامپت برای ساخت بازی قدیمی Pinball داد و از چهار مدل برترِ فعلی خواست همین بازی را در قالب یک فایل HTML تولید کنند.
⏳ نتیجه؟
به نظر من، Opus-4.5 از بقیه عملکرد بهتری داشت — هم از نظر ساختار کد، هم اجرای روان، هم میزان خطاهای کمتر در منطق بازی.
این سبک تستها خیلی خوب نشان میدهد که قدرت واقعی مدلها در «vibecoding» چقدر با هم متفاوت است.
#vibecoding #AI #Opus45 #ChatGPT #Coding #Benchmark
کاربری یک تست جذاب انجام داده:
او فقط یک پرامپت برای ساخت بازی قدیمی Pinball داد و از چهار مدل برترِ فعلی خواست همین بازی را در قالب یک فایل HTML تولید کنند.
⏳ نتیجه؟
به نظر من، Opus-4.5 از بقیه عملکرد بهتری داشت — هم از نظر ساختار کد، هم اجرای روان، هم میزان خطاهای کمتر در منطق بازی.
این سبک تستها خیلی خوب نشان میدهد که قدرت واقعی مدلها در «vibecoding» چقدر با هم متفاوت است.
#vibecoding #AI #Opus45 #ChatGPT #Coding #Benchmark
❤3👍3🔥2👏1
✨ بنچمارک IF-Bench: بنچمارک جدید برای ارزیابی مدلهای چندوجهی روی تصاویر مادونقرمز
📝 خلاصه:
مقاله IF-Bench اولین بنچمارک جامع برای ارزیابی مدلهای بزرگ چندوجهی (MLLMs) روی تصاویر مادونقرمز (Infrared) است.
این مجموعه شامل انواع تصاویر IR و مجموعهای گسترده از پرسش–پاسخهاست که عملکرد بیش از ۴۰ مدل را درک عمیق، استدلال، و تولید بهبودیافته میسنجد.
این کار علاوهبر بنچمارک، روشی جدید به نام GenViP معرفی میکند که یک Visual Prompting مولد است و به مدلها کمک میکند بدون فاینتون سنگین، درک بهتری از تصاویر IR کسب کنند.
🔹 تاریخ انتشار: ۱۰ دسامبر ۲۰۲۵
🔗 لینکهای مقاله:
• arXiv Page: https://arxiv.org/abs/2512.09663
• PDF:
https://arxiv.org/pdf/2512.09663
📌 مدلهای مرتبط:
• https://huggingface.co/casiatao/Qwen-Edit-2509-FT
📌 دیتاست مرتبط:
• https://huggingface.co/datasets/casiatao/IF-Bench
==================================
#AI #InfraredImaging #MLLM #Benchmark #DeepLearning #Research
@rss_ai_ir 🔍🤖
📝 خلاصه:
مقاله IF-Bench اولین بنچمارک جامع برای ارزیابی مدلهای بزرگ چندوجهی (MLLMs) روی تصاویر مادونقرمز (Infrared) است.
این مجموعه شامل انواع تصاویر IR و مجموعهای گسترده از پرسش–پاسخهاست که عملکرد بیش از ۴۰ مدل را درک عمیق، استدلال، و تولید بهبودیافته میسنجد.
این کار علاوهبر بنچمارک، روشی جدید به نام GenViP معرفی میکند که یک Visual Prompting مولد است و به مدلها کمک میکند بدون فاینتون سنگین، درک بهتری از تصاویر IR کسب کنند.
🔹 تاریخ انتشار: ۱۰ دسامبر ۲۰۲۵
🔗 لینکهای مقاله:
• arXiv Page: https://arxiv.org/abs/2512.09663
• PDF:
https://arxiv.org/pdf/2512.09663
📌 مدلهای مرتبط:
• https://huggingface.co/casiatao/Qwen-Edit-2509-FT
📌 دیتاست مرتبط:
• https://huggingface.co/datasets/casiatao/IF-Bench
==================================
#AI #InfraredImaging #MLLM #Benchmark #DeepLearning #Research
@rss_ai_ir 🔍🤖
👍1🔥1👏1
🚀 بزرگترین جهش GPT-5.2 احتمالاً روی بنچمارک ARC-AGI اتفاق افتاده است
🧠 در ARC-AGI 1، این مدل به امتیاز 86.2٪ رسیده؛
در حالی که GPT-5.1 روی 72.8٪ و Gemini 3 Pro روی 75٪ متوقف شده بودند. این یک جهش بسیار جدی محسوب میشود.
⚡️ نسخه GPT-5.2 Pro با سطح استدلال X-High حتی به 90.5٪ رسیده، آن هم با هزینهی 11.64 دلار برای هر مسئله.
برای مقایسه: فقط یک سال پیش، مدل منتشرنشدهی o3-High با 88٪، حدود 4500 دلار برای هر مسئله هزینه داشت.
📈 نتیجه؟
کارایی در عرض یک سال حدود 390 برابر افزایش یافته است.
🔥 اما در ARC-AGI 2 اوضاع حتی جالبتر میشود:
امتیاز از 17.6٪ به 52.9٪ جهش کرده!
نزدیکترین رقیب یعنی Claude Opus 4.5 تنها 37.6٪ گرفته است.
و فقط یادآوری: بین انتشار GPT-5.1 و GPT-5.2 فقط یک ماه فاصله بوده 😐
⏳ نسخه GPT-5.2 Pro X-High احتمالاً امتیاز بالاتری هم دارد، اما برگزارکنندگان بنچمارک گفتهاند بهدلیل API timeout هنوز نتوانستهاند نتیجه را بهطور قطعی تأیید کنند.
سطح متوسط انسان در ARC-AGI 2 حدود 60٪ است… باید دید آیا مدل از انسان عبور میکند یا نه 👀
📡 @rss_ai_ir
#AI #GPT52 #ARCAGI #هوش_مصنوعی #LLM #Benchmark #AGI
🧠 در ARC-AGI 1، این مدل به امتیاز 86.2٪ رسیده؛
در حالی که GPT-5.1 روی 72.8٪ و Gemini 3 Pro روی 75٪ متوقف شده بودند. این یک جهش بسیار جدی محسوب میشود.
⚡️ نسخه GPT-5.2 Pro با سطح استدلال X-High حتی به 90.5٪ رسیده، آن هم با هزینهی 11.64 دلار برای هر مسئله.
برای مقایسه: فقط یک سال پیش، مدل منتشرنشدهی o3-High با 88٪، حدود 4500 دلار برای هر مسئله هزینه داشت.
📈 نتیجه؟
کارایی در عرض یک سال حدود 390 برابر افزایش یافته است.
🔥 اما در ARC-AGI 2 اوضاع حتی جالبتر میشود:
امتیاز از 17.6٪ به 52.9٪ جهش کرده!
نزدیکترین رقیب یعنی Claude Opus 4.5 تنها 37.6٪ گرفته است.
و فقط یادآوری: بین انتشار GPT-5.1 و GPT-5.2 فقط یک ماه فاصله بوده 😐
⏳ نسخه GPT-5.2 Pro X-High احتمالاً امتیاز بالاتری هم دارد، اما برگزارکنندگان بنچمارک گفتهاند بهدلیل API timeout هنوز نتوانستهاند نتیجه را بهطور قطعی تأیید کنند.
سطح متوسط انسان در ARC-AGI 2 حدود 60٪ است… باید دید آیا مدل از انسان عبور میکند یا نه 👀
📡 @rss_ai_ir
#AI #GPT52 #ARCAGI #هوش_مصنوعی #LLM #Benchmark #AGI