🤖🔥 باحالترین پروژه هوش مصنوعی این روزها: OpenHands
📌 اگر دنبال یه پروژه واقعاً خفن توی حوزه عاملهای هوشمند (AI Agents) هستی، باید OpenHands رو بشناسی!
🌐 گیتهاب: github.com/All-Hands-AI/OpenHands
⭐️ بیش از ۶۰ هزار ستاره – با رشد انفجاری!
---
🔍 چرا OpenHands اینقدر خاصه؟
این پروژه یه فریمورک متنهبازه که بهت اجازه میده یه عامل هوشمند تمامعیار بسازی — چیزی خیلی فراتر از Copilot!
🧠 چه کارایی میتونه بکنه؟
مثلاً بهش بگی: «این باگ رو تو پروژه پایتون پیدا و درست کن»
یا: «این قابلیت جدید رو به اپ وبم اضافه کن»
و بعد خودش:
1. تحلیل میکنه که چی میخوای 😎
2. برنامهریزی میکنه که چیکار باید بکنه
3. کد رو میخونه، تغییر میده، تست میگیره
4. حتی توی ترمینال دستور اجرا میکنه و توی فایلها دستکاری میکنه!
---
🎯 برای کی مناسبه؟
برنامهنویسایی که دنبال یه دستیار واقعی هوش مصنوعی هستن
پژوهشگرایی که روی عاملهای هوشمند یا مدلهای چندوجهی کار میکنن
یا هرکسی که میخواد یه مهندس نرمافزار مجازی بسازه!
🚀 آینده از اینجاست شروع میشه...
#هوش_مصنوعی #AI #OpenHands #عامل_هوشمند #گیتهاب #پروژه_متن_باز #برنامه_نویسی #DevinAI #MultimodalAI #AI_Agent
@rss_ai_ir
📌 اگر دنبال یه پروژه واقعاً خفن توی حوزه عاملهای هوشمند (AI Agents) هستی، باید OpenHands رو بشناسی!
🌐 گیتهاب: github.com/All-Hands-AI/OpenHands
⭐️ بیش از ۶۰ هزار ستاره – با رشد انفجاری!
---
🔍 چرا OpenHands اینقدر خاصه؟
این پروژه یه فریمورک متنهبازه که بهت اجازه میده یه عامل هوشمند تمامعیار بسازی — چیزی خیلی فراتر از Copilot!
🧠 چه کارایی میتونه بکنه؟
مثلاً بهش بگی: «این باگ رو تو پروژه پایتون پیدا و درست کن»
یا: «این قابلیت جدید رو به اپ وبم اضافه کن»
و بعد خودش:
1. تحلیل میکنه که چی میخوای 😎
2. برنامهریزی میکنه که چیکار باید بکنه
3. کد رو میخونه، تغییر میده، تست میگیره
4. حتی توی ترمینال دستور اجرا میکنه و توی فایلها دستکاری میکنه!
---
🎯 برای کی مناسبه؟
برنامهنویسایی که دنبال یه دستیار واقعی هوش مصنوعی هستن
پژوهشگرایی که روی عاملهای هوشمند یا مدلهای چندوجهی کار میکنن
یا هرکسی که میخواد یه مهندس نرمافزار مجازی بسازه!
🚀 آینده از اینجاست شروع میشه...
#هوش_مصنوعی #AI #OpenHands #عامل_هوشمند #گیتهاب #پروژه_متن_باز #برنامه_نویسی #DevinAI #MultimodalAI #AI_Agent
@rss_ai_ir
GitHub
GitHub - OpenHands/OpenHands: 🙌 OpenHands: Code Less, Make More
🙌 OpenHands: Code Less, Make More. Contribute to OpenHands/OpenHands development by creating an account on GitHub.
🔥2👏1🙏1
🌟 NVIDIA OmniVinci —
مدل چندوجهی که رکوردها را شکست!
مدل OmniVinci مدلی است که میتواند بهصورت همزمان متن، تصویر، ویدیو و صدا را درک و پردازش کند — یک گام بزرگ در مسیر هوش مصنوعی چندوجهی (Multimodal AI).
با وجود اینکه فقط بر روی ۲۰۰ میلیارد توکن آموزش دیده (در حالیکه مدل Qwen2.5-Omni روی ۱.۲ تریلیون توکن آموزش دیده بود!)، عملکردی بهمراتب بهتر و کارآمدتر از رقبا دارد. این موفقیت به لطف نوآوریهای معماری و آمادهسازی دقیق دادهها به دست آمده است.
---
🔧 سه مؤلفه کلیدی OmniVinci:
🟢 Temporal Embedding Grouping (TEG)
نقشهبرداری توکنهای ویدیو و صدا بر اساس زمان وقوع رویدادها.
🟢 Constrained Rotary Time Embedding (CRTE)
رمزگذاری دقیق زمان مطلق برای دادههای ترتیبی.
🟢 OmniAlignNet
همترازسازی بردارهای صوت و تصویر در یک فضای مشترک با استفاده از یادگیری تقابلی (contrastive learning).
📊 آزمایشهای حذف مؤلفهها نشان دادند که هر بخش تأثیر قابلتوجهی دارد:
مدل پایه: 45.51 امتیاز
با TEG → 47.72 (+2.21)
با CRTE → 50.25 (+4.74)
با OmniAlignNet → 52.59 (+7.08 نسبت به پایه)
---
🧠 دادههای آموزشی:
۲۴ میلیون دیالوگ که با کمک یک مدل LLM تحلیل و ادغام شدهاند تا توضیحات چندوجهی منسجم تولید شود.
ترکیب دادهها:
📸 تصاویر — ۳۶٪
🎧 صدا — ۲۱٪
🗣 گفتار — ۱۷٪
⚙️ دادههای ترکیبی — ۱۵٪
🎬 ویدیو — ۱۱٪
---
🏆 نتایج در بنچمارکها:
Worldsense: 48.23 در مقابل 45.40 (Qwen2.5-Omni)
DailyOmni: 66.50 در مقابل 47.45
MMAR: 58.40
MMAU: 71.60
WER (LibriSpeech-clean): فقط 1.7٪
در کاربرد صنعتی (تشخیص عیوب در ویفرهای نیمهرسانا):
همچنین OmniVinci به دقت 98.1٪ رسید
— بهتر از NVILA (97.6%) و بسیار بالاتر از مدل بزرگتر VILA (90.8%).
---
📜 مجوزها:
کد منبع: Apache 2.0 License
مدل: NVIDIA One Way Noncommercial License
🔗 منابع:
🟡 صفحه پروژه
🟡 مدل
🟡 مقاله در Arxiv
🖥 GitHub
@rss_ai_ir
#هوش_مصنوعی #NVIDIA #OmniVinci #مولتی_مودال #DeepLearning #AI #MachineLearning #Vision #Speech #MultimodalAI
مدل چندوجهی که رکوردها را شکست!
مدل OmniVinci مدلی است که میتواند بهصورت همزمان متن، تصویر، ویدیو و صدا را درک و پردازش کند — یک گام بزرگ در مسیر هوش مصنوعی چندوجهی (Multimodal AI).
با وجود اینکه فقط بر روی ۲۰۰ میلیارد توکن آموزش دیده (در حالیکه مدل Qwen2.5-Omni روی ۱.۲ تریلیون توکن آموزش دیده بود!)، عملکردی بهمراتب بهتر و کارآمدتر از رقبا دارد. این موفقیت به لطف نوآوریهای معماری و آمادهسازی دقیق دادهها به دست آمده است.
---
🔧 سه مؤلفه کلیدی OmniVinci:
🟢 Temporal Embedding Grouping (TEG)
نقشهبرداری توکنهای ویدیو و صدا بر اساس زمان وقوع رویدادها.
🟢 Constrained Rotary Time Embedding (CRTE)
رمزگذاری دقیق زمان مطلق برای دادههای ترتیبی.
🟢 OmniAlignNet
همترازسازی بردارهای صوت و تصویر در یک فضای مشترک با استفاده از یادگیری تقابلی (contrastive learning).
📊 آزمایشهای حذف مؤلفهها نشان دادند که هر بخش تأثیر قابلتوجهی دارد:
مدل پایه: 45.51 امتیاز
با TEG → 47.72 (+2.21)
با CRTE → 50.25 (+4.74)
با OmniAlignNet → 52.59 (+7.08 نسبت به پایه)
---
🧠 دادههای آموزشی:
۲۴ میلیون دیالوگ که با کمک یک مدل LLM تحلیل و ادغام شدهاند تا توضیحات چندوجهی منسجم تولید شود.
ترکیب دادهها:
📸 تصاویر — ۳۶٪
🎧 صدا — ۲۱٪
🗣 گفتار — ۱۷٪
⚙️ دادههای ترکیبی — ۱۵٪
🎬 ویدیو — ۱۱٪
---
🏆 نتایج در بنچمارکها:
Worldsense: 48.23 در مقابل 45.40 (Qwen2.5-Omni)
DailyOmni: 66.50 در مقابل 47.45
MMAR: 58.40
MMAU: 71.60
WER (LibriSpeech-clean): فقط 1.7٪
در کاربرد صنعتی (تشخیص عیوب در ویفرهای نیمهرسانا):
همچنین OmniVinci به دقت 98.1٪ رسید
— بهتر از NVILA (97.6%) و بسیار بالاتر از مدل بزرگتر VILA (90.8%).
---
📜 مجوزها:
کد منبع: Apache 2.0 License
مدل: NVIDIA One Way Noncommercial License
🔗 منابع:
🟡 صفحه پروژه
🟡 مدل
🟡 مقاله در Arxiv
🖥 GitHub
@rss_ai_ir
#هوش_مصنوعی #NVIDIA #OmniVinci #مولتی_مودال #DeepLearning #AI #MachineLearning #Vision #Speech #MultimodalAI
🔥1👏1
🧠 مدل ThinkMorph — جهش جدید در تفکر چندوجهی (Multimodal Reasoning) 🚀🖼️
پژوهشگران مدلی به نام ThinkMorph معرفی کردهاند که گامی فراتر از مدلهای چندوجهی (VLM) سنتی است —
مدلی که با تصویر و متن همزمان فکر میکند و در طول فرایند استدلال، خود را تصحیح و تکامل میدهد 🤯
---
⚙️ آموزش و نوآوری
✅مدل ThinkMorph بر اساس ۲۴٬۰۰۰ مسیر استدلال درهمتنیده (interleaved reasoning traces) آموزش دیده است — دادههایی که در آن متن و تصویر بهصورت مرحلهبهمرحله همدیگر را توضیح و تکمیل میکنند.
💡 نتیجه؟
♻️مدل در حین پاسخ دادن نه فقط توصیف میکند، بلکه بهصورت چندمرحلهای میاندیشد:
♻️ابتدا تصویر را تحلیل میکند 🧩
♻️سپس توضیح متنی مینویسد ✍️
♻️بعد بر اساس آن توضیح، برداشت تصویری جدید میسازد 🎨
♻️و این چرخه را تکرار میکند تا استدلالش دقیقتر شود.
---
🚀 تواناییهای کلیدی
🔹 رشد چشمگیر در مسائل دارای زمینهی بصری پیچیده
🔹 استدلال مرحلهبهمرحلهی متن–تصویر بهصورت پیشرونده
🔹 تواناییهای تازه: منطق تطبیقی، دستکاری تصویری خلاقانه، و بازبینی خودکار نتایج
---
این یعنی ThinkMorph دیگر صرفاً Visual Language Model نیست، بلکه مکانیسمی برای تفکر ترکیبی بینایی–زبانی است — مدلی که با دیدن یاد میگیرد و با نوشتن، دید خود را اصلاح میکند.
📄 پژوهش کامل در:
🔗 huggingface.co/papers/2510.27492
📡 @rss_ai_ir
#هوش_مصنوعی #ThinkMorph #VLM #MultimodalAI #AI #DeepLearning #VisionLanguage #Reasoning
پژوهشگران مدلی به نام ThinkMorph معرفی کردهاند که گامی فراتر از مدلهای چندوجهی (VLM) سنتی است —
مدلی که با تصویر و متن همزمان فکر میکند و در طول فرایند استدلال، خود را تصحیح و تکامل میدهد 🤯
---
⚙️ آموزش و نوآوری
✅مدل ThinkMorph بر اساس ۲۴٬۰۰۰ مسیر استدلال درهمتنیده (interleaved reasoning traces) آموزش دیده است — دادههایی که در آن متن و تصویر بهصورت مرحلهبهمرحله همدیگر را توضیح و تکمیل میکنند.
💡 نتیجه؟
♻️مدل در حین پاسخ دادن نه فقط توصیف میکند، بلکه بهصورت چندمرحلهای میاندیشد:
♻️ابتدا تصویر را تحلیل میکند 🧩
♻️سپس توضیح متنی مینویسد ✍️
♻️بعد بر اساس آن توضیح، برداشت تصویری جدید میسازد 🎨
♻️و این چرخه را تکرار میکند تا استدلالش دقیقتر شود.
---
🚀 تواناییهای کلیدی
🔹 رشد چشمگیر در مسائل دارای زمینهی بصری پیچیده
🔹 استدلال مرحلهبهمرحلهی متن–تصویر بهصورت پیشرونده
🔹 تواناییهای تازه: منطق تطبیقی، دستکاری تصویری خلاقانه، و بازبینی خودکار نتایج
---
این یعنی ThinkMorph دیگر صرفاً Visual Language Model نیست، بلکه مکانیسمی برای تفکر ترکیبی بینایی–زبانی است — مدلی که با دیدن یاد میگیرد و با نوشتن، دید خود را اصلاح میکند.
📄 پژوهش کامل در:
🔗 huggingface.co/papers/2510.27492
📡 @rss_ai_ir
#هوش_مصنوعی #ThinkMorph #VLM #MultimodalAI #AI #DeepLearning #VisionLanguage #Reasoning
❤1