VIRSUN
7.19K subscribers
1.45K photos
819 videos
5 files
908 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
🤖🔥 باحال‌ترین پروژه هوش مصنوعی این روزها: OpenHands

📌 اگر دنبال یه پروژه واقعاً خفن توی حوزه عامل‌های هوشمند (AI Agents) هستی، باید OpenHands رو بشناسی!

🌐 گیت‌هاب: github.com/All-Hands-AI/OpenHands
⭐️ بیش از ۶۰ هزار ستاره – با رشد انفجاری!


---

🔍 چرا OpenHands اینقدر خاصه؟

این پروژه یه فریم‌ورک متنه‌بازه که بهت اجازه می‌ده یه عامل هوشمند تمام‌عیار بسازی — چیزی خیلی فراتر از Copilot!

🧠 چه کارایی می‌تونه بکنه؟

مثلاً بهش بگی: «این باگ رو تو پروژه پایتون پیدا و درست کن»

یا: «این قابلیت جدید رو به اپ وبم اضافه کن»


و بعد خودش:

1. تحلیل می‌کنه که چی می‌خوای 😎


2. برنامه‌ریزی می‌کنه که چیکار باید بکنه


3. کد رو می‌خونه، تغییر می‌ده، تست می‌گیره


4. حتی توی ترمینال دستور اجرا می‌کنه و توی فایل‌ها دستکاری می‌کنه!




---

🎯 برای کی مناسبه؟

برنامه‌نویسایی که دنبال یه دستیار واقعی هوش مصنوعی هستن

پژوهشگرایی که روی عامل‌های هوشمند یا مدل‌های چندوجهی کار می‌کنن

یا هرکسی که می‌خواد یه مهندس نرم‌افزار مجازی بسازه!


🚀 آینده از اینجاست شروع میشه...

#هوش_مصنوعی #AI #OpenHands #عامل_هوشمند #گیتهاب #پروژه_متن_باز #برنامه_نویسی #DevinAI #MultimodalAI #AI_Agent

@rss_ai_ir
🔥2👏1🙏1
🌟 NVIDIA OmniVinci —
مدل چندوجهی که رکوردها را شکست!

مدل OmniVinci مدلی است که می‌تواند به‌صورت هم‌زمان متن، تصویر، ویدیو و صدا را درک و پردازش کند — یک گام بزرگ در مسیر هوش مصنوعی چندوجهی (Multimodal AI).

با وجود اینکه فقط بر روی ۲۰۰ میلیارد توکن آموزش دیده (در حالی‌که مدل Qwen2.5-Omni روی ۱.۲ تریلیون توکن آموزش دیده بود!)، عملکردی به‌مراتب بهتر و کارآمدتر از رقبا دارد. این موفقیت به لطف نوآوری‌های معماری و آماده‌سازی دقیق داده‌ها به دست آمده است.


---

🔧 سه مؤلفه کلیدی OmniVinci:

🟢 Temporal Embedding Grouping (TEG)
نقشه‌برداری توکن‌های ویدیو و صدا بر اساس زمان وقوع رویدادها.

🟢 Constrained Rotary Time Embedding (CRTE)
رمزگذاری دقیق زمان مطلق برای داده‌های ترتیبی.

🟢 OmniAlignNet
هم‌ترازسازی بردارهای صوت و تصویر در یک فضای مشترک با استفاده از یادگیری تقابلی (contrastive learning).

📊 آزمایش‌های حذف مؤلفه‌ها نشان دادند که هر بخش تأثیر قابل‌توجهی دارد:

مدل پایه: 45.51 امتیاز

با TEG → 47.72 (+2.21)

با CRTE → 50.25 (+4.74)

با OmniAlignNet → 52.59 (+7.08 نسبت به پایه)

---

🧠 داده‌های آموزشی:
۲۴ میلیون دیالوگ که با کمک یک مدل LLM تحلیل و ادغام شده‌اند تا توضیحات چندوجهی منسجم تولید شود.

ترکیب داده‌ها:
📸 تصاویر — ۳۶٪
🎧 صدا — ۲۱٪
🗣 گفتار — ۱۷٪
⚙️ داده‌های ترکیبی — ۱۵٪
🎬 ویدیو — ۱۱٪
---
🏆 نتایج در بنچمارک‌ها:

Worldsense: 48.23 در مقابل 45.40 (Qwen2.5-Omni)

DailyOmni: 66.50 در مقابل 47.45

MMAR: 58.40

MMAU: 71.60

WER (LibriSpeech-clean): فقط 1.7٪


در کاربرد صنعتی (تشخیص عیوب در ویفرهای نیمه‌رسانا):

همچنین OmniVinci به دقت 98.1٪ رسید
— بهتر از NVILA (97.6%) و بسیار بالاتر از مدل بزرگ‌تر VILA (90.8%).


---

📜 مجوزها:

کد منبع: Apache 2.0 License

مدل: NVIDIA One Way Noncommercial License


🔗 منابع:
🟡 صفحه پروژه
🟡 مدل
🟡 مقاله در Arxiv
🖥 GitHub


@rss_ai_ir

#هوش_مصنوعی #NVIDIA #OmniVinci #مولتی_مودال #DeepLearning #AI #MachineLearning #Vision #Speech #MultimodalAI
🔥1👏1
🧠 مدل ThinkMorph — جهش جدید در تفکر چندوجهی (Multimodal Reasoning) 🚀🖼️

پژوهشگران مدلی به نام ThinkMorph معرفی کرده‌اند که گامی فراتر از مدل‌های چندوجهی (VLM) سنتی است —
مدلی که با تصویر و متن هم‌زمان فکر می‌کند و در طول فرایند استدلال، خود را تصحیح و تکامل می‌دهد 🤯


---

⚙️ آموزش و نوآوری

مدل ThinkMorph بر اساس ۲۴٬۰۰۰ مسیر استدلال درهم‌تنیده (interleaved reasoning traces) آموزش دیده است — داده‌هایی که در آن متن و تصویر به‌صورت مرحله‌به‌مرحله همدیگر را توضیح و تکمیل می‌کنند.

💡 نتیجه؟
♻️مدل در حین پاسخ دادن نه فقط توصیف می‌کند، بلکه به‌صورت چندمرحله‌ای می‌اندیشد:

♻️ابتدا تصویر را تحلیل می‌کند 🧩

♻️سپس توضیح متنی می‌نویسد ✍️

♻️بعد بر اساس آن توضیح، برداشت تصویری جدید می‌سازد 🎨

♻️و این چرخه را تکرار می‌کند تا استدلالش دقیق‌تر شود.


---

🚀 توانایی‌های کلیدی

🔹 رشد چشمگیر در مسائل دارای زمینه‌ی بصری پیچیده
🔹 استدلال مرحله‌به‌مرحله‌ی متن–تصویر به‌صورت پیشرونده
🔹 توانایی‌های تازه: منطق تطبیقی، دست‌کاری تصویری خلاقانه، و بازبینی خودکار نتایج


---

این یعنی ThinkMorph دیگر صرفاً Visual Language Model نیست، بلکه مکانیسمی برای تفکر ترکیبی بینایی–زبانی است — مدلی که با دیدن یاد می‌گیرد و با نوشتن، دید خود را اصلاح می‌کند.

📄 پژوهش کامل در:
🔗 huggingface.co/papers/2510.27492

📡 @rss_ai_ir
#هوش_مصنوعی #ThinkMorph #VLM #MultimodalAI #AI #DeepLearning #VisionLanguage #Reasoning
1
🎬🤖 UniVA:
ایجنت هوشمند و متن‌باز برای پردازش و تولید ویدئو

ایجنت UniVA یک ایجنت ویدئویی چندعاملی (Multi-Agent) متن‌باز است که نسل جدیدی از هوش مصنوعی ویدئویی را هدف گرفته.
این سیستم می‌تواند کارهای پیچیده ویدئویی را در یک جریان واحد انجام دهد:

🟣 فهم و تحلیل ویدئو
🟣 ویرایش و Segmentation
🟣 ساخت و تولید ویدئو از متن/عکس/ویدئو
🟣 پردازش چندمرحله‌ای با برنامه‌ریزی و اجرای خودکار (Plan-and-Act)

ایجنت UniVA با حافظه چندلایه و ارتباط بین ایجنت‌ها می‌تواند فرآیندهای طولانی و پروژه‌های پیچیده ویدئویی را مدیریت کند.

📌 لینک‌ها: 🔗 HuggingFace (پروژه):
https://huggingface.co/papers/2511.08521

📄 Paper:
https://arxiv.org/pdf/2511.08521

💻 GitHub:
https://github.com/univa-agent/univa

@rss_ai_ir
#هوش_مصنوعی #VideoAI #AgenticAI #UniVA #OpenSource #MultimodalAI
👍8😁7🎉6🔥54🥰4👏2
Media is too big
VIEW IN TELEGRAM
Paper2Video:
تبدیل خودکار مقاله‌ علمی به ویدئو

📝 خلاصه:
اینکه PaperTalker یک فریمورک چندعاملی است که می‌تواند از یک مقاله‌ علمی، به‌صورت خودکار ویدئوی کامل بسازد — شامل اسلایدها، زیرنویس، گفتار و چهره‌ سخنگو.
نتیجه‌ نهایی نسبت به روش‌های موجود دقیق‌تر، اطلاعاتی‌تر و بدون نیاز به تولید دستی محتوا است.

🔹 تاریخ انتشار: 6 اکتبر
🔹 لینک‌ها:

• arXiv:
https://arxiv.org/abs/2510.05096
• PDF:
https://arxiv.org/pdf/2510.05096
• پروژه:
https://showlab.github.io/Paper2Video/
• گیت‌هاب:
https://showlab.github.io/Paper2Video/

دیتاست‌های مرتبط:
https://huggingface.co/datasets/ZaynZhu/Paper2Video

#VideoGeneration #AI #AcademicCommunication #MachineLearning #MultimodalAI
2🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
World Models That Know When They Don't Know

@rss_ai_ir

در دنیای مدل‌سازی ویدیو، یکی از بزرگ‌ترین مشکلات توهم‌زایی (Hallucination) و ناتوانی مدل در تشخیص نقاطی است که مطمئن نیست. پژوهش جدیدی با نام C3 راهکاری ارائه می‌دهد که مدل بتواند عدم قطعیت خود را تشخیص دهد و وقتی نمی‌داند، بداند که نمی‌داند! 🤯🎥
---
🔍 حال C3 چیست؟

اینکه C3 یک روش کمی‌سازی عدم‌قطعیت (Uncertainty Quantification) برای مدل‌های تولید ویدیو است. این روش کمک می‌کند مدل:

🎯 اعتمادپذیری پیکسل‌به‌پیکسل ارائه دهد (Dense Confidence Estimation)

🚨 ورودی‌های خارج از توزیع (OOD) را تشخیص دهد

🛑 توهمات ویدئویی را کاهش دهد

🎮 تولید ویدیو را تحت کنترل دقیق‌تری قرار دهد


به بیان ساده:
مدل فقط تولید نمی‌کند؛ به شما می‌گوید کجا احتمال اشتباه دارد! 🤝

---
💡 چرا مهم است؟

در کاربردهایی مثل خودران‌ها، پزشکی، و رباتیک، مدل باید علاوه بر خروجی، درجه اطمینان را هم اعلام کند.
همچنین C3 کمک می‌کند که مدل‌های ویدیویی به جای تولید بی‌محابا، رفتار مسئولانه‌تری داشته باشند.
---

🔗 لینک‌ها

📄 Arxiv:
https://arxiv.org/abs/2512.05927
📘 PDF:
https://arxiv.org/pdf/2512.05927
🌐 Project Page:
https://c-cubed-uq.github.io/
---
🧠 هشتگ‌ها

#AI #DeepLearning #VideoGeneration #Uncertainty #MachineLearning #MultimodalAI
🔥1
دیدن، شنیدن و فهمیدن همزمان انسان‌ها با هوش مصنوعی 🎧👀🧠

یک بنچمارک جدید به نام AV-SpeakerBench معرفی شده که توانایی مدل‌های چندوجهی زبانی (MLLM) را در درک گفتار انسان به‌صورت صوتی-تصویری ارزیابی می‌کند.

🧪 این بنچمارک شامل ۳٬۲۱۲ سؤال تخصصی است که با دقت بالا طراحی شده‌اند و تمرکز آن‌ها روی:

♻️تشخیص دقیق گوینده

♻️تطبیق صدا با چهره

♻️استدلال همزمان بر اساس تصویر و صوت
می‌باشد.


🏆 نتایج نشان می‌دهد مدل‌های Gemini در این حوزه عملکرد بهتری نسبت به مدل‌های متن‌باز دارند، به‌ویژه در فیوژن واقعی صدا و تصویر؛ جایی که بسیاری از مدل‌ها هنوز دچار ضعف هستند.

📄 لینک‌ها:
🔹 arXiv: https://arxiv.org/abs/2512.02231
🔹 PDF:
https://arxiv.org/pdf/2512.02231
🔹 Project Page:
https://plnguyen2908.github.io/AV-SpeakerBench-project-page/
🔹 GitHub:
https://github.com/plnguyen2908/AV-SpeakerBench
🔹 Dataset:
https://huggingface.co/datasets/plnguyen2908/AV-SpeakerBench

📌 این بنچمارک یک قدم مهم به‌سمت ساخت مدل‌هایی است که واقعاً مثل انسان ببینند، بشنوند و بفهمند.

@rss_ai_ir

#AI #MultimodalAI #MLLM #AudioVisual #SpeechUnderstanding #Research
👍87😁7🎉6👏4🔥3🥰2