VIRSUN

🤖🔥 باحال‌ترین پروژه هوش مصنوعی این روزها: OpenHands

📌 اگر دنبال یه پروژه واقعاً خفن توی حوزه عامل‌های هوشمند (AI Agents) هستی، باید OpenHands رو بشناسی!

🌐 گیت‌هاب: github.com/All-Hands-AI/OpenHands
⭐️ بیش از ۶۰ هزار ستاره – با رشد انفجاری!

---

🔍 چرا OpenHands اینقدر خاصه؟

این پروژه یه فریم‌ورک متنه‌بازه که بهت اجازه می‌ده یه عامل هوشمند تمام‌عیار بسازی — چیزی خیلی فراتر از Copilot!

🧠 چه کارایی می‌تونه بکنه؟

مثلاً بهش بگی: «این باگ رو تو پروژه پایتون پیدا و درست کن»

یا: «این قابلیت جدید رو به اپ وبم اضافه کن»

و بعد خودش:

1. تحلیل می‌کنه که چی می‌خوای 😎

2. برنامه‌ریزی می‌کنه که چیکار باید بکنه

3. کد رو می‌خونه، تغییر می‌ده، تست می‌گیره

4. حتی توی ترمینال دستور اجرا می‌کنه و توی فایل‌ها دستکاری می‌کنه!

---

🎯 برای کی مناسبه؟

برنامه‌نویسایی که دنبال یه دستیار واقعی هوش مصنوعی هستن

پژوهشگرایی که روی عامل‌های هوشمند یا مدل‌های چندوجهی کار می‌کنن

یا هرکسی که می‌خواد یه مهندس نرم‌افزار مجازی بسازه!

🚀 آینده از اینجاست شروع میشه...

#هوش_مصنوعی #AI #OpenHands #عامل_هوشمند #گیتهاب #پروژه_متن_باز #برنامه_نویسی #DevinAI #MultimodalAI #AI_Agent

@rss_ai_ir

GitHub

GitHub - OpenHands/OpenHands: 🙌 OpenHands: Code Less, Make More

🙌 OpenHands: Code Less, Make More. Contribute to OpenHands/OpenHands development by creating an account on GitHub.

🔥2👏1🙏1

50 views19:22

VIRSUN

🌟 NVIDIA OmniVinci —
مدل چندوجهی که رکوردها را شکست!

مدل OmniVinci مدلی است که می‌تواند به‌صورت هم‌زمان متن، تصویر، ویدیو و صدا را درک و پردازش کند — یک گام بزرگ در مسیر هوش مصنوعی چندوجهی (Multimodal AI).

با وجود اینکه فقط بر روی ۲۰۰ میلیارد توکن آموزش دیده (در حالی‌که مدل Qwen2.5-Omni روی ۱.۲ تریلیون توکن آموزش دیده بود!)، عملکردی به‌مراتب بهتر و کارآمدتر از رقبا دارد. این موفقیت به لطف نوآوری‌های معماری و آماده‌سازی دقیق داده‌ها به دست آمده است.

---

🔧 سه مؤلفه کلیدی OmniVinci:

🟢 Temporal Embedding Grouping (TEG)
نقشه‌برداری توکن‌های ویدیو و صدا بر اساس زمان وقوع رویدادها.

🟢 Constrained Rotary Time Embedding (CRTE)
رمزگذاری دقیق زمان مطلق برای داده‌های ترتیبی.

🟢 OmniAlignNet
هم‌ترازسازی بردارهای صوت و تصویر در یک فضای مشترک با استفاده از یادگیری تقابلی (contrastive learning).

📊 آزمایش‌های حذف مؤلفه‌ها نشان دادند که هر بخش تأثیر قابل‌توجهی دارد:

مدل پایه: 45.51 امتیاز

با TEG → 47.72 (+2.21)

با CRTE → 50.25 (+4.74)

با OmniAlignNet → 52.59 (+7.08 نسبت به پایه)

---

🧠 داده‌های آموزشی:
۲۴ میلیون دیالوگ که با کمک یک مدل LLM تحلیل و ادغام شده‌اند تا توضیحات چندوجهی منسجم تولید شود.

ترکیب داده‌ها:
📸 تصاویر — ۳۶٪
🎧 صدا — ۲۱٪
🗣 گفتار — ۱۷٪
⚙️ داده‌های ترکیبی — ۱۵٪
🎬 ویدیو — ۱۱٪
---
🏆 نتایج در بنچمارک‌ها:

Worldsense: 48.23 در مقابل 45.40 (Qwen2.5-Omni)

DailyOmni: 66.50 در مقابل 47.45

MMAR: 58.40

MMAU: 71.60

WER (LibriSpeech-clean): فقط 1.7٪

در کاربرد صنعتی (تشخیص عیوب در ویفرهای نیمه‌رسانا):

همچنین OmniVinci به دقت 98.1٪ رسید
— بهتر از NVILA (97.6%) و بسیار بالاتر از مدل بزرگ‌تر VILA (90.8%).

---

📜 مجوزها:

کد منبع: Apache 2.0 License

مدل: NVIDIA One Way Noncommercial License

🔗 منابع:
🟡 صفحه پروژه
🟡 مدل
🟡 مقاله در Arxiv
🖥 GitHub

@rss_ai_ir

#هوش_مصنوعی #NVIDIA #OmniVinci #مولتی_مودال #DeepLearning #AI #MachineLearning #Vision #Speech #MultimodalAI

🔥1👏1

1.47K views15:17

VIRSUN

🧠 مدل ThinkMorph — جهش جدید در تفکر چندوجهی (Multimodal Reasoning) 🚀🖼️

پژوهشگران مدلی به نام ThinkMorph معرفی کرده‌اند که گامی فراتر از مدل‌های چندوجهی (VLM) سنتی است —
مدلی که با تصویر و متن هم‌زمان فکر می‌کند و در طول فرایند استدلال، خود را تصحیح و تکامل می‌دهد 🤯

---

⚙️ آموزش و نوآوری

✅مدل ThinkMorph بر اساس ۲۴٬۰۰۰ مسیر استدلال درهم‌تنیده (interleaved reasoning traces) آموزش دیده است — داده‌هایی که در آن متن و تصویر به‌صورت مرحله‌به‌مرحله همدیگر را توضیح و تکمیل می‌کنند.

💡 نتیجه؟
♻️مدل در حین پاسخ دادن نه فقط توصیف می‌کند، بلکه به‌صورت چندمرحله‌ای می‌اندیشد:

♻️ابتدا تصویر را تحلیل می‌کند 🧩

♻️سپس توضیح متنی می‌نویسد ✍️

♻️بعد بر اساس آن توضیح، برداشت تصویری جدید می‌سازد 🎨

♻️و این چرخه را تکرار می‌کند تا استدلالش دقیق‌تر شود.

---

🚀 توانایی‌های کلیدی

🔹 رشد چشمگیر در مسائل دارای زمینه‌ی بصری پیچیده
🔹 استدلال مرحله‌به‌مرحله‌ی متن–تصویر به‌صورت پیشرونده
🔹 توانایی‌های تازه: منطق تطبیقی، دست‌کاری تصویری خلاقانه، و بازبینی خودکار نتایج

---

این یعنی ThinkMorph دیگر صرفاً Visual Language Model نیست، بلکه مکانیسمی برای تفکر ترکیبی بینایی–زبانی است — مدلی که با دیدن یاد می‌گیرد و با نوشتن، دید خود را اصلاح می‌کند.

📄 پژوهش کامل در:
🔗 huggingface.co/papers/2510.27492

📡 @rss_ai_ir
#هوش_مصنوعی #ThinkMorph #VLM #MultimodalAI #AI #DeepLearning #VisionLanguage #Reasoning

❤1

2.34K views12:39

About

Blog

Apps

Platform