VIRSUN
7.88K subscribers
1.37K photos
788 videos
5 files
872 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
مدل Step-Audio-R1؛ اولین مدل صوتی که ریزونینگِ مقیاس‌پذیر را به دنیای صدا آورد 🎧🤖

مدل Step-Audio-R1 نقطه‌عطفی در هوش مصنوعی صوتی است. برای اولین بار یک Audio-LLM توانسته همان الگوی «عمقِ ریزونینگ با افزایش کامپیوتر» (مثل R1 در متن) را در صوتِ زنده پیاده‌سازی کند.


---

🔥 ویژگی‌های کلیدی

✳️درک عمیق سیگنال صوتی

✳️واکنش در زمان واقعی

✳️زنجیره‌ استدلال مقیاس‌پذیر روی داده‌ صوتی

✳️کاهش شدید خطا و حذف «حدس‌زدن‌های بدون پشتوانه»

---
عملکرد

بهتر از Gemini 2.5 Pro و قابل‌مقایسه با Gemini 3 در بنچمارک‌های پیچیده صوتی

دقت ۹۶٪ در دیالوگ بلادرنگ — بالاتر از GPT Realtime و Gemini 2.5 Flash

Time To First Token = فقط 0.92 ثانیه ⏱️

---
🎯 چرا متفاوت است؟

مدل از روش MGRD — Modality-Grounded Reasoning Distillation استفاده می‌کند.
یعنی ریزونینگ به نشانه‌های واقعی صوتی متصل می‌شود، نه به تخیلات مدل.
به‌صورت ساده:
👉 مدل براساس «آنچه واقعاً شنیده می‌شود» فکر می‌کند، نه براساس متن.

این یعنی:

♻️خطای کمتر
♻️ریزونینگ قابل‌گسترش
♻️کاربردهای جدید برای صدا


---

🔗 لینک‌ها

🎧 دمو:
https://stepaudiollm.github.io/step-audio-r1/

📄 مقاله:
https://arxiv.org/abs/2511.15848

🐙 گیت‌هاب:
https://github.com/stepfun-ai/Step-Audio-R1


---

#هوش_مصنوعی #AudioLLM #مدل_صوتی #ریزانینگ #AI #MachineLearning #DeepLearning
👍21🔥1