VIRSUN
7.48K subscribers
1.41K photos
804 videos
5 files
893 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
📌 دیپ‌سیک نسخه V3.1

♻️مدل جدید با ۶۸۵ میلیارد پارامتر به‌عنوان یک مدل متن‌باز ترکیبی برای استدلال معرفی شده است. این نسخه علاوه بر بهبودهای کیفی، تمرکز ویژه‌ای روی توانایی‌های عامل‌محور (agentic capabilities) دارد.

📊 نتایج بنچمارک‌ها نشان می‌دهد:

♻️در SWE-bench Verified امتیاز 66.0 در برابر 44.6 نسخه R1
♻️در SWE-bench Multilingual امتیاز 54.5 (تقریباً دو برابر نسخه‌های قبلی)
♻️در Terminal-Bench جهش بزرگ تا 31.3 (مقایسه با 5.7 نسخه R1)


همچنین در حوزه‌های کاربردی دیگر:

SimpleQA → دقت 93.4%

Frames → امتیاز 83.7

xBench-DeepSearch → امتیاز 71.2

و در Browsecomp نیز برتری قابل توجه نسبت به نسخه قبلی.


🚀 این نتایج نشان می‌دهد که DeepSeek-V3.1 یکی از قوی‌ترین مدل‌های متن‌باز حال حاضر است، مخصوصاً در وظایف چندزبانه، QA و محیط‌های پویا مثل ترمینال.

🔗 این حرکت، رقابت متن‌بازها با مدل‌های کلوزد مثل GPT-5 و Claude را وارد مرحله تازه‌ای می‌کند.

#AI #LLM #DeepSeek #opensource #benchmark

@rss_ai_ir
⚡️ Qwen 3 Next —
مدل فوق‌العاده بهینه از تیم Qwen

🔹 معماری: ترکیب Gated Attention و Gated DeltaNet (نسخه‌ای از Mamba)

🔹 اندازه: 80B-A3B در دو نسخه‌ی Instruct و Reasoning

🔹 کارایی: تا ۱۰ برابر سریع‌تر از Qwen 3 32B، مخصوصاً در کانتکست‌های طولانی

🔹 داده‌ها: آموزش‌دیده روی ۱۵ تریلیون توکن (در مقابل ۳۶ تریلیون در Qwen 3 32B) با تنها ۱۰٪ منابع محاسباتی

🔹 پشتیبانی از Multi-Token Prediction برای افزایش سرعت دیکودینگ

🔹 در بنچمارک‌ها، نسخه‌ی Thinking توانسته Gemini 2.5 Thinking را پشت سر بگذارد 🚀

📌 تیم Qwen به‌طور فشرده مدل‌های جدید منتشر می‌کند:

هفته‌ی گذشته Qwen 3 Max (Instruct) و Qwen 3 ASR معرفی شدند.

به‌زودی Qwen 3 VL و Qwen 3 Omni هم منتشر می‌شوند.

و به نظر می‌رسد Qwen 4 هم در راه است 👀

https://qwen.ai/blog?id=4074cca80393150c248e508aa62983f9cb7d27cd&from=research.latest-advancements-list


https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d


@rss_ai_ir

#Qwen #هوش_مصنوعی #مدل_زبان #LLM #AI #Reasoning #Benchmark
🔥25👏18👍16🥰1513😁12🎉8🙏1
🌸 رونمایی از GAIA2 — عامل‌ها در محیط واقع‌گرایانه 😘

🚀 نسخه دوم بِنچمارک چندمرحله‌ای GAIA2 و محیط شبیه‌سازی واقع‌گرایانه‌ی Agentic Research Environment (ARE) منتشر شد — هر دو کاملاً متن‌باز!

در GAIA2 عامل‌ها باید در محیطی کار کنند که پر از API، اپلیکیشن‌ها، بازخورد کاربر و حتی سایر عامل‌هاست. وظایف چندمرحله‌ای هستند و مسیرهای حل مختلفی دارند.

🟣 توانایی‌هایی که سنجیده می‌شوند:

♻️اجرای درست دستورها و استفاده از ابزارها (Execution)
♻️جستجو و استخراج اطلاعات (Search)
♻️برخورد با اطلاعات مبهم (Ambiguity)
♻️سازگاری با شرایط متغیر (Adaptability)
♻️مدیریت زمان و وظایف تکرارشونده (Time)
♻️رسیدن به نتیجه با وجود اطلاعات اضافی یا غلط (Noise)
♻️همکاری با سایر عامل‌ها (Agent2Agent)


💡 Agentic Research Environment:

✳️محیط شبیه‌سازی با گذر زمان و تغییر شرایط
✳️پشتیبانی از اجرای async
✳️اپلیکیشن‌های آماده مثل تقویم، ایمیل، تاکسی و ... (سازگار با MCP)
✳️کاربرد برای تست امنیت (red teaming)، آموزش و ساخت دیتاست


📊 این بِنچمارک در حال حاضر بزرگ‌ترین معیار عمومی برای ارزیابی عامل‌هاست و هیچ مدل SOTA نتوانسته در همه بخش‌ها برتری کامل بگیرد.
@rss_ai_ir
🔗 منابع:
👉 Leaderboard
👉 Github
👉 HF Demo
👉 HF Blog
👉 Dataset

#AI #Agents #GAIA2 #Benchmark #DeepResearch
🥰18😁14👍1312🎉12👏11🔥10👎1
🌐 بنچمارک جدید هوش مصنوعی روی ۹ حوزه‌ی اصلی و ۴۴ شغل تمرکز دارد.
اینجا خبری از کارهای فیزیکی نیست، بلکه همه‌چیز درباره‌ی وظایف تحلیلی و ذهنی است.

🔹 حوزه‌های پوشش داده شده:
1️⃣ املاک، اجاره و لیزینگ
2️⃣ خدمات دولتی
3️⃣ تولید (غیر فیزیکی؛ مثل نقشه‌کشی و بررسی اسناد)
4️⃣ خدمات حرفه‌ای، علمی و فنی
5️⃣ بهداشت و درمان و خدمات اجتماعی
6️⃣ مالی و بیمه
7️⃣ خرده‌فروشی
8️⃣ عمده‌فروشی
9️⃣ کار با اطلاعات

📌 حتی در بخش «تولید» هم تمرکز روی مدیریت، تحلیل و بررسی داده‌هاست، نه کار فیزیکی.

@rss_ai_ir 🤖
#AI #Industry #Benchmark #هوش_مصنوعی #صنعت
This media is not supported in your browser
VIEW IN TELEGRAM
🌱 PlanarTrack:
مرجع بزرگ برای رهگیری صفحات (Planar Tracking) 🌱

👉 بنچمارک PlanarTrack یک دیتاست و بنچمارک بزرگ و باکیفیت برای رهگیری صفحات در ویدیوها است — شامل ۱,۱۵۰ توالی با بیش از ۷۳۳ هزار فریم، که دربرگیرنده‌ی ۱۰۰۰ ویدیو کوتاه‌مدت و ۱۵۰ ویدیو بلندمدت است.

این مجموعه برای آموزش و ارزیابی الگوریتم‌های رهگیری دقیق در سطوح مختلف طراحی شده و چالشی جدید برای مدل‌های بینایی ماشین محسوب می‌شود. 💙

🔗 مرجع‌ها:
📘 Review
📄 Paper (arXiv)
💻 Repo
🌐 Project
🧩 Dataset

#AI #ComputerVision #Tracking #PlanarTrack #Dataset #Benchmark #DeepLearning #ML #هوش_مصنوعی #بینایی_ماشین
This media is not supported in your browser
VIEW IN TELEGRAM
🖥️ من اسمش را «بنچمارک پرولتری» می‌گذارم 😄

کاربری یک تست جذاب انجام داده:
او فقط یک پرامپت برای ساخت بازی قدیمی Pinball داد و از چهار مدل برترِ فعلی خواست همین بازی را در قالب یک فایل HTML تولید کنند.

نتیجه؟
به نظر من، Opus-4.5 از بقیه عملکرد بهتری داشت — هم از نظر ساختار کد، هم اجرای روان، هم میزان خطاهای کمتر در منطق بازی.

این سبک تست‌ها خیلی خوب نشان می‌دهد که قدرت واقعی مدل‌ها در «vibecoding» چقدر با هم متفاوت است.

#vibecoding #AI #Opus45 #ChatGPT #Coding #Benchmark
3👍3🔥2👏1
بنچمارک IF-Bench: بنچمارک جدید برای ارزیابی مدل‌های چندوجهی روی تصاویر مادون‌قرمز

📝 خلاصه:
مقاله IF-Bench اولین بنچمارک جامع برای ارزیابی مدل‌های بزرگ چندوجهی (MLLMs) روی تصاویر مادون‌قرمز (Infrared) است.
این مجموعه شامل انواع تصاویر IR و مجموعه‌ای گسترده از پرسش‌–پاسخ‌هاست که عملکرد بیش از ۴۰ مدل را درک عمیق، استدلال، و تولید بهبود‌یافته می‌سنجد.

این کار علاوه‌بر بنچمارک، روشی جدید به نام GenViP معرفی می‌کند که یک Visual Prompting مولد است و به مدل‌ها کمک می‌کند بدون فاین‌تون سنگین، درک بهتری از تصاویر IR کسب کنند.

🔹 تاریخ انتشار: ۱۰ دسامبر ۲۰۲۵

🔗 لینک‌های مقاله:

• arXiv Page: https://arxiv.org/abs/2512.09663
• PDF:
https://arxiv.org/pdf/2512.09663

📌 مدل‌های مرتبط:

https://huggingface.co/casiatao/Qwen-Edit-2509-FT

📌 دیتاست مرتبط:

https://huggingface.co/datasets/casiatao/IF-Bench

==================================

#AI #InfraredImaging #MLLM #Benchmark #DeepLearning #Research

@rss_ai_ir 🔍🤖
👍1🔥1👏1
🚀 بزرگ‌ترین جهش GPT-5.2 احتمالاً روی بنچمارک ARC-AGI اتفاق افتاده است

🧠 در ARC-AGI 1، این مدل به امتیاز 86.2٪ رسیده؛
در حالی که GPT-5.1 روی 72.8٪ و Gemini 3 Pro روی 75٪ متوقف شده بودند. این یک جهش بسیار جدی محسوب می‌شود.

⚡️ نسخه GPT-5.2 Pro با سطح استدلال X-High حتی به 90.5٪ رسیده، آن هم با هزینه‌ی 11.64 دلار برای هر مسئله.
برای مقایسه: فقط یک سال پیش، مدل منتشرنشده‌ی o3-High با 88٪، حدود 4500 دلار برای هر مسئله هزینه داشت.

📈 نتیجه؟
کارایی در عرض یک سال حدود 390 برابر افزایش یافته است.

🔥 اما در ARC-AGI 2 اوضاع حتی جالب‌تر می‌شود:
امتیاز از 17.6٪ به 52.9٪ جهش کرده!
نزدیک‌ترین رقیب یعنی Claude Opus 4.5 تنها 37.6٪ گرفته است.
و فقط یادآوری: بین انتشار GPT-5.1 و GPT-5.2 فقط یک ماه فاصله بوده 😐

نسخه GPT-5.2 Pro X-High احتمالاً امتیاز بالاتری هم دارد، اما برگزارکنندگان بنچمارک گفته‌اند به‌دلیل API timeout هنوز نتوانسته‌اند نتیجه را به‌طور قطعی تأیید کنند.
سطح متوسط انسان در ARC-AGI 2 حدود 60٪ است… باید دید آیا مدل از انسان عبور می‌کند یا نه 👀

📡 @rss_ai_ir

#AI #GPT52 #ARCAGI #هوش_مصنوعی #LLM #Benchmark #AGI