VIRSUN
7.19K subscribers
1.45K photos
819 videos
5 files
908 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
🌏 چین از آمریکا در بازار جهانی مدل‌های متن‌باز هوش مصنوعی پیشی گرفت

بررسی مشترک MIT و Hugging Face نشان می‌دهد که برای اولین بار، مدل‌های متن‌باز ساخت چین توانسته‌اند در تعداد دانلودهای جهانی از مدل‌های آمریکایی جلو بزنند.

🔹 سهم چین: ۱۷٪
🔹 سهم ایالات متحده: ۱۵.۸٪

این تغییر، نتیجه‌ی رشد انفجاری مدل‌هایی مثل DeepSeek و Qwen است؛ دو مدلی که اکنون بخش بزرگی از جامعه‌ی متن‌باز جهانی را تحت تأثیر قرار داده‌اند.

در مقابل، شرکت‌های آمریکایی مثل Google، Anthropic و OpenAI بیشتر بر مدل‌های بسته و اختصاصی تمرکز کرده‌اند، و همین باعث شده در رقابت متن‌باز عقب بمانند.

منبع: ArticlePaper


#هوش_مصنوعی #مدل_متن_باز #چین #DeepSeek #Qwen #AI #MachineLearning
مدل Step-Audio-R1؛ اولین مدل صوتی که ریزونینگِ مقیاس‌پذیر را به دنیای صدا آورد 🎧🤖

مدل Step-Audio-R1 نقطه‌عطفی در هوش مصنوعی صوتی است. برای اولین بار یک Audio-LLM توانسته همان الگوی «عمقِ ریزونینگ با افزایش کامپیوتر» (مثل R1 در متن) را در صوتِ زنده پیاده‌سازی کند.


---

🔥 ویژگی‌های کلیدی

✳️درک عمیق سیگنال صوتی

✳️واکنش در زمان واقعی

✳️زنجیره‌ استدلال مقیاس‌پذیر روی داده‌ صوتی

✳️کاهش شدید خطا و حذف «حدس‌زدن‌های بدون پشتوانه»

---
عملکرد

بهتر از Gemini 2.5 Pro و قابل‌مقایسه با Gemini 3 در بنچمارک‌های پیچیده صوتی

دقت ۹۶٪ در دیالوگ بلادرنگ — بالاتر از GPT Realtime و Gemini 2.5 Flash

Time To First Token = فقط 0.92 ثانیه ⏱️

---
🎯 چرا متفاوت است؟

مدل از روش MGRD — Modality-Grounded Reasoning Distillation استفاده می‌کند.
یعنی ریزونینگ به نشانه‌های واقعی صوتی متصل می‌شود، نه به تخیلات مدل.
به‌صورت ساده:
👉 مدل براساس «آنچه واقعاً شنیده می‌شود» فکر می‌کند، نه براساس متن.

این یعنی:

♻️خطای کمتر
♻️ریزونینگ قابل‌گسترش
♻️کاربردهای جدید برای صدا


---

🔗 لینک‌ها

🎧 دمو:
https://stepaudiollm.github.io/step-audio-r1/

📄 مقاله:
https://arxiv.org/abs/2511.15848

🐙 گیت‌هاب:
https://github.com/stepfun-ai/Step-Audio-R1


---

#هوش_مصنوعی #AudioLLM #مدل_صوتی #ریزانینگ #AI #MachineLearning #DeepLearning
2👍2🔥1
🤖 استک GELab-Zero؛ نخستین استک کاملاً متن‌باز برای GUI-Agent ها

یک خبر مهم برای دنیای ایجنت‌ها: استک GELab-Zero منتشر شد؛ ترکیبی کامل از مدل + زیرساخت که جایگزین متن‌باز برای سیستم‌های سطح بالایی مثل GUI-Agent MCP محسوب می‌شود. نسخه‌ای سبک، سریع و قابل اجرا به‌صورت کامل روی سیستم شخصی شما 🚀

🔧 چه چیزهایی داخلش هست؟

مدل ۴B در سطح SOTA؛ سریع، کم‌هزینه و قابل اجرا روی GPUهای سبک

زیرساخت راه‌اندازی «تک‌کلیک» بدون دردسرهای ADB

بنچمارک AndroidDaily بر اساس سناریوهای واقعی کاربران


📊 نتایج و عملکرد

دقت ۷۳.۴٪ روی AndroidDaily

عملکرد بهتر از مدل‌های بزرگ‌تری مثل GUI-Owl-32B

بالاتر از Gemini-2.5-pro-thinking و GPT-4o در تست‌های GUI

برتری قابل توجه روی ScreenSpot، AndroidWorld و OSWorld


🎯 هدف استک مشخص است:
نصب کن، اجرا کن، شخصی‌سازی کن، و توسعه بده — بالاخره یک گزینهٔ متن‌باز واقعی برای GUI-Agent ها در دسترس است.

🔗 لینک‌ها:
HuggingFace:
https://huggingface.co/stepfun-ai/GELab-Zero-4B-preview
GitHub:
https://github.com/stepfun-ai/gelab-zero
Blog:
https://opengelab.github.io/index.html

#GELabZero #AI #Agents #GUIAgents #MachineLearning #OpenSource #DeepLearning @rss_ai_ir
2
🚀 مدل‌های تازه DeepSeek-V3.2 و DeepSeek-V3.2-Speciale منتشر شدند
این نسل جدید، دقیقاً برای حل مسائل پیچیده، ریـزنینگ چندمرحله‌ای و سناریوهای عامل‌محور طراحی شده است.

🧠 ویژگی‌های کلیدی

اینکه DeepSeek-V3.2 نسخه اصلی و جایگزین رسمی سری Exp است؛ روی وب، اپ و API فعال شده.

اینکه DeepSeek-V3.2-Speciale نسخه ویژه با تمرکز بر استدلال عمیق و طراحی‌شده برای سیستم‌های عامل‌محور؛ فقط از طریق API در دسترس است.


📊 سطح عملکرد

اینکه V3.2 سرعت و کیفیت متعادل دارد و تقریباً هم‌رده‌ی GPT-5 ارزیابی می‌شود.

نسخه Speciale در ریـزنینگ پیشرفته با Gemini-3.0-Pro رقابت می‌کند.

و Speciale در IMO و CMO و ICPC امتیازهای پیشرو دارد.


🛠️ نوآوری در آموزش عامل‌ها

تولید داده‌ی مصنوعی برای بیش از ۱۸۰۰ محیط و ۸۵ هزار دستور پیچیده.

فکر کردن و reasoning این بار داخل سازوکار tool-use مدل تعبیه شده است.


🔌 دسترسی و API

و V3.2 با همان API نسل قبلی کار می‌کند.

نسخه Speciale تا تاریخ ۱۵ دسامبر ۲۰۲۵ از طریق endpoint موقت فعال است.


📦 مدل‌ها
https://huggingface.co/deepseek-ai/DeepSeek-V3.2
https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale

📄 گزارش فنی
https://huggingface.co/deepseek-ai/DeepSeek-V3.2/resolve/main/assets/paper.pdf

@rss_ai_ir
#DeepSeek #LLM #AI #Reasoning #Agent #MachineLearning 🤖🔥
👍21🔥1👏1
🔥 مدل Ministral 3 منتشر شد؛ نسل جدید مدل‌های ریزونی و اینستراکت از Mistral

مینسترال ۳ در سه نسخه‌ی ۳B ،۸B و ۱۴B عرضه شده و روی ریـزنینگ، دقت دستورات و حتی پردازش تصویری عملکردی فراتر از مدل‌های هم‌رده دارد.

ویژگی‌ها:

⚙️ نسخه‌ی ۱۴B روی لپ‌تاپ با ۲۴ گیگابایت RAM هم اجرا می‌شود

🧠 پشتیبانی از بینایی (Vision)

🚀 عملکرد قوی در تسک‌های استدلال و دنبال‌کردن دستورها

💻 امکان اجرا و فاین‌تیون لوکال


لینک‌ها:
راهنما + لپ‌تاپ:
https://docs.unsloth.ai/new/ministral-3

نسخه‌های GGUF:
https://huggingface.co/collections/unsloth/ministral-3

@rss_ai_ir

#AI #Mistral #Ministral3 #LLM #MachineLearning #Reasoning #GenAI
🔥1👏1
📘 ۱۰ موضوع ضروری برای تسلط بر یادگیری ماشین

💡 اگر قصد داری مسیر یادگیری ماشین را جدی دنبال کنی، دانستن این ده محور اصلی مثل داشتن نقشهٔ راه است. این موارد همان پایه‌هایی هستند که همهٔ متخصصان ML روی آن‌ها ایستاده‌اند:

1️⃣ مبانی یادگیری ماشین
درک تفاوت میان ML، هوش مصنوعی و یادگیری عمیق و جایگاه هرکدام در اکوسیستم تکنولوژی.

2️⃣ انواع یادگیری ماشین
نظارت‌شده، بدون‌نظارت و تقویتی — سه ستون اصلی که تمام الگوریتم‌ها روی آن‌ها بنا می‌شوند.

3️⃣ کاربردهای واقعی ML
از تشخیص بیماری و کشف تقلب تا خودروهای خودران و سیستم‌های پیشنهاددهنده.

4️⃣ جمع‌آوری و پاک‌سازی داده
حذف داده‌های ناقص، رفع تناقضات، حذف داده‌های تکراری — همان بخشی که ۷۰٪ زمان پروژه صرف آن می‌شود.

5️⃣ مهندسی ویژگی (Feature Engineering)
تبدیل دادهٔ خام به ویژگی‌های قابل فهم برای مدل — یکی از مهم‌ترین عوامل موفقیت.

6️⃣ پیش‌پردازش داده
نرمال‌سازی، استانداردسازی، کدگذاری دادهٔ دسته‌ای و تقسیم داده‌ها به train/test.

7️⃣ الگوریتم‌های یادگیری نظارت‌شده
رگرسیون خطی، KNN، SVM، Random Forest، XGBoost — ابزارهای اصلی برای طبقه‌بندی و رگرسیون.

8️⃣ شاخص‌های ارزیابی مدل
ملاک های Accuracy، Precision، Recall، F1، ROC-AUC — معیارهایی که کیفیت مدل را می‌سنجند.

9️⃣ بیش‌برازش و کم‌برازش
شناخت این‌که مدل بیش از حد یاد گرفته یا کم — و کنترل آن با تکنیک‌های منظم‌سازی.

🔟 اعتبارسنجی و استقرار مدل
سرویس K-Fold، Flask، Docker و سرویس‌های ابری مثل AWS و GCP — مسیر گذار از تحقیق به محصول واقعی.


---

@rss_ai_ir
#یادگیری_ماشین #هوش_مصنوعی #یادگیری_عمیق #علم_داده #ML #AI #MachineLearning
3🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
World Models That Know When They Don't Know

@rss_ai_ir

در دنیای مدل‌سازی ویدیو، یکی از بزرگ‌ترین مشکلات توهم‌زایی (Hallucination) و ناتوانی مدل در تشخیص نقاطی است که مطمئن نیست. پژوهش جدیدی با نام C3 راهکاری ارائه می‌دهد که مدل بتواند عدم قطعیت خود را تشخیص دهد و وقتی نمی‌داند، بداند که نمی‌داند! 🤯🎥
---
🔍 حال C3 چیست؟

اینکه C3 یک روش کمی‌سازی عدم‌قطعیت (Uncertainty Quantification) برای مدل‌های تولید ویدیو است. این روش کمک می‌کند مدل:

🎯 اعتمادپذیری پیکسل‌به‌پیکسل ارائه دهد (Dense Confidence Estimation)

🚨 ورودی‌های خارج از توزیع (OOD) را تشخیص دهد

🛑 توهمات ویدئویی را کاهش دهد

🎮 تولید ویدیو را تحت کنترل دقیق‌تری قرار دهد


به بیان ساده:
مدل فقط تولید نمی‌کند؛ به شما می‌گوید کجا احتمال اشتباه دارد! 🤝

---
💡 چرا مهم است؟

در کاربردهایی مثل خودران‌ها، پزشکی، و رباتیک، مدل باید علاوه بر خروجی، درجه اطمینان را هم اعلام کند.
همچنین C3 کمک می‌کند که مدل‌های ویدیویی به جای تولید بی‌محابا، رفتار مسئولانه‌تری داشته باشند.
---

🔗 لینک‌ها

📄 Arxiv:
https://arxiv.org/abs/2512.05927
📘 PDF:
https://arxiv.org/pdf/2512.05927
🌐 Project Page:
https://c-cubed-uq.github.io/
---
🧠 هشتگ‌ها

#AI #DeepLearning #VideoGeneration #Uncertainty #MachineLearning #MultimodalAI
🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Relational Visual Similarity

📝 Summary:
اینکه Vision-Language مدل‌های آموزش‌دیده روی کپشن‌های ناشناس‌شده می‌توانند شباهت رابطه‌ای بین تصاویر را تشخیص دهند؛ قابلیتی که در معیارهای فعلی شباهت بصری وجود ندارد.

🔹 Publication Date: Dec 8

🔹 Paper Links:
• arXiv Page: https://arxiv.org/abs/2512.07833
• PDF: https://arxiv.org/pdf/2512.07833
• Project Page: https://thaoshibe.github.io/relsim/
• Github: https://github.com/thaoshibe/relsim

==================================


#AI #DataScience #MachineLearning #HuggingFace #Research
👍1
Media is too big
VIEW IN TELEGRAM
🌐 گراند اسلو، موو فست — مدل پایه‌ای دوگانه برای ناوبری ویژنی-زبانی

📝 خلاصه:
مدل DualVLN یک سیستم دوگانه برای Vision-Language Navigation است که دو جزء اصلی دارد:

1. یک برنامه‌ریز جهانی مبتنی بر VLM برای فهم سطح بالا،


2. یک سیاست محلی سریع برای اجرای روانِ اکشن‌ها.



این ترکیب باعث می‌شود ربات‌ها بتوانند در محیط‌های پویا، در زمان واقعی و در مأموریت‌های طولانی‌مدت با پایداری بالا حرکت کنند.

🔹 تاریخ انتشار: 9 دسامبر

🔗 لینک‌ها:
• arXiv: https://arxiv.org/abs/2512.08186
• PDF: https://arxiv.org/pdf/2512.08186
• پروژه:
https://internrobotics.github.io/internvla-n1-dualvln.github.io/

• Github:
https://github.com/InternRobotics/InternNav

🔗 مدل‌های مرتبط:
https://huggingface.co/InternRobotics/InternVLA-N1-System2
https://huggingface.co/InternRobotics/InternVLA-N1-w-NavDP
https://huggingface.co/InternRobotics/InternVLA-N1-DualVLN

==================================


#AI #DataScience #MachineLearning #HuggingFace #Research
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Unified Video Editing with Temporal Reasoner

📝 خلاصه:
رویکردVideoCoF ، یک رویکرد Chain-of-Frames است که دقت و تطابق ویرایش ویدیو با دستور کاربر را افزایش می‌دهد. این روش با استفاده از reasoning tokens و بدون نیاز به ماسک‌دهی توسط کاربر، نواحی مربوطه را تشخیص می‌دهد و ویرایش دقیق‌تری ارائه می‌کند.
AI-generated summary

🔹 تاریخ انتشار: ۸ دسامبر
🔹 لینک‌های مقاله:
• arXiv Page: https://arxiv.org/abs/2512.07469
• PDF: https://arxiv.org/pdf/2512.07469
• Project Page: https://videocof.github.io/
• Github: https://github.com/knightyxp/VideoCoF

🔹 مدل‌هایی که به این مقاله ارجاع داده‌اند:
https://huggingface.co/XiangpengYang/VideoCoF

==================================

#AI #VideoEditing #MachineLearning #DeepLearning #HuggingFace 🎥🤖
👍2