This media is not supported in your browser
VIEW IN TELEGRAM
📌 تسلا استراتژی آموزش ربات Optimus را تغییر داد
♻️طبق گزارش Business Insider، تسلا تصمیم گرفته آموزش ربات Optimus را بر پایهی رویکرد فقط-بینایی (vision-only) جلو ببرد؛ یعنی یادگیری صرفاً از طریق تصاویر و ویدئو.
🔑 نکات کلیدی:
✳️در اواخر جولای به کارکنان اعلام شد که از این پس تمرکز بر آموزش با تصویر و ویدئو خواهد بود. این دقیقاً همان فلسفهای است که تسلا در توسعهی سیستم رانندگی خودکارش دنبال میکند و برخلاف رقبا از LiDAR استفاده نمیکند.
✳️پیشتر از هدستهای VR و لباسهای موشنکپچر برای ضبط حرکات انسانها استفاده میکردند. اکنون تمرکز روی ضبط ویدئو از کارگران در حال انجام وظایف است.
✳️حذف موشنکپچر باعث میشود مقیاسپذیری افزایش یابد، زیرا دیگر مشکلات فنی و تعمیر تجهیزات مزاحم نیست.
✳️ویدئوها ساده و معمولی نیستند: تسلا در حال آزمایش سیستمی با ۵ دوربین است — یک دوربین روی کلاه و چهار دوربین روی «کولهپشتی» سنگین برای پوشش دید چند جهته.
✳️در حالیکه رقبایی مانند Figure.AI ،Physical Intelligence و Boston Dynamics همچنان بر موشنکپچر تکیه دارند، تسلا مسیر متفاوتی را انتخاب کرده است.
🤔 پرسش مهم این است: آیا رویکرد vision-only میتواند سریعتر از روشهای سنتی مبتنی بر موشنکپچر پیش برود؟
@rss_ai_ir
#تسلا #Optimus #رباتیک #هوش_مصنوعی #vision_only #BostonDynamics #FigureAI
♻️طبق گزارش Business Insider، تسلا تصمیم گرفته آموزش ربات Optimus را بر پایهی رویکرد فقط-بینایی (vision-only) جلو ببرد؛ یعنی یادگیری صرفاً از طریق تصاویر و ویدئو.
🔑 نکات کلیدی:
✳️در اواخر جولای به کارکنان اعلام شد که از این پس تمرکز بر آموزش با تصویر و ویدئو خواهد بود. این دقیقاً همان فلسفهای است که تسلا در توسعهی سیستم رانندگی خودکارش دنبال میکند و برخلاف رقبا از LiDAR استفاده نمیکند.
✳️پیشتر از هدستهای VR و لباسهای موشنکپچر برای ضبط حرکات انسانها استفاده میکردند. اکنون تمرکز روی ضبط ویدئو از کارگران در حال انجام وظایف است.
✳️حذف موشنکپچر باعث میشود مقیاسپذیری افزایش یابد، زیرا دیگر مشکلات فنی و تعمیر تجهیزات مزاحم نیست.
✳️ویدئوها ساده و معمولی نیستند: تسلا در حال آزمایش سیستمی با ۵ دوربین است — یک دوربین روی کلاه و چهار دوربین روی «کولهپشتی» سنگین برای پوشش دید چند جهته.
✳️در حالیکه رقبایی مانند Figure.AI ،Physical Intelligence و Boston Dynamics همچنان بر موشنکپچر تکیه دارند، تسلا مسیر متفاوتی را انتخاب کرده است.
🤔 پرسش مهم این است: آیا رویکرد vision-only میتواند سریعتر از روشهای سنتی مبتنی بر موشنکپچر پیش برود؟
@rss_ai_ir
#تسلا #Optimus #رباتیک #هوش_مصنوعی #vision_only #BostonDynamics #FigureAI
👍11🎉6❤5🥰4👏4😁4🔥3
🧩 Segment Anything 3 –
نسل سوم سام از Meta بهصورت بیسر و صدا در ICLR منتشر شد!
📍 اگر SAM 1 فقط اجازه میداد با یک کلیک روی تصویر، شیء مورد نظر را بخشبندی کنید،
و SAM 2 قابلیت ویدیو و حافظه موقت (Memory) را اضافه کرده بود،
حالا SAM 3 پا را فراتر گذاشته:
کافی است فقط توصیف کنید چه چیزی میخواهید — مثلاً:
> «اتوبوس زرد مدرسه»، «گربه راهراه»، «سیب قرمز» 🍎
مدل خودش همه نمونههای آن شیء را در تصویر یا ویدیو پیدا کرده و ماسک دقیق رسم میکند.
به زبان ساده: بخشبندی تصویری بالاخره یاد گرفت حرف زدن! 🎯
---
💡 در SAM 3 دیگر از دستورهای طولانی خبری نیست — کافی است از اسمهای کوتاه، نمونههای تصویری یا ترکیبی از هر دو استفاده کنید.
❌شما فقط مفهوم را بیان میکنید، مدل خودش تشخیص میدهد و مرزها را ترسیم میکند.
---
🧠 زیرساخت دادهای عظیم پشت این مدل:
♻️۴ میلیون مفهوم منحصربهفرد (unique concepts)
♻️۵۲ میلیون ماسک تأییدشده توسط انسانها و LLMها (که کار یکدیگر را ارزیابی کردهاند)
---
⚙️ نتیجه:
✳️دقت حدوداً ۲ برابر بهتر از SAM 2
✳️عملکرد تقریباً همسطح با انسان در آزمونهای Open-Vocabulary
✳️سرعت در حد Real-Time (بلادرنگ)
---
📘 مقاله در ICLR:
🔗 openreview.net/forum?id=r35clVtGzw
@rss_ai_ir
#هوش_مصنوعی #SAM3 #SegmentAnything #Vision #ComputerVision #MetaAI #ICLR #Segmentation #AI
نسل سوم سام از Meta بهصورت بیسر و صدا در ICLR منتشر شد!
📍 اگر SAM 1 فقط اجازه میداد با یک کلیک روی تصویر، شیء مورد نظر را بخشبندی کنید،
و SAM 2 قابلیت ویدیو و حافظه موقت (Memory) را اضافه کرده بود،
حالا SAM 3 پا را فراتر گذاشته:
کافی است فقط توصیف کنید چه چیزی میخواهید — مثلاً:
> «اتوبوس زرد مدرسه»، «گربه راهراه»، «سیب قرمز» 🍎
مدل خودش همه نمونههای آن شیء را در تصویر یا ویدیو پیدا کرده و ماسک دقیق رسم میکند.
به زبان ساده: بخشبندی تصویری بالاخره یاد گرفت حرف زدن! 🎯
---
💡 در SAM 3 دیگر از دستورهای طولانی خبری نیست — کافی است از اسمهای کوتاه، نمونههای تصویری یا ترکیبی از هر دو استفاده کنید.
❌شما فقط مفهوم را بیان میکنید، مدل خودش تشخیص میدهد و مرزها را ترسیم میکند.
---
🧠 زیرساخت دادهای عظیم پشت این مدل:
♻️۴ میلیون مفهوم منحصربهفرد (unique concepts)
♻️۵۲ میلیون ماسک تأییدشده توسط انسانها و LLMها (که کار یکدیگر را ارزیابی کردهاند)
---
⚙️ نتیجه:
✳️دقت حدوداً ۲ برابر بهتر از SAM 2
✳️عملکرد تقریباً همسطح با انسان در آزمونهای Open-Vocabulary
✳️سرعت در حد Real-Time (بلادرنگ)
---
📘 مقاله در ICLR:
🔗 openreview.net/forum?id=r35clVtGzw
@rss_ai_ir
#هوش_مصنوعی #SAM3 #SegmentAnything #Vision #ComputerVision #MetaAI #ICLR #Segmentation #AI
🔥1
🌟 NVIDIA OmniVinci —
مدل چندوجهی که رکوردها را شکست!
مدل OmniVinci مدلی است که میتواند بهصورت همزمان متن، تصویر، ویدیو و صدا را درک و پردازش کند — یک گام بزرگ در مسیر هوش مصنوعی چندوجهی (Multimodal AI).
با وجود اینکه فقط بر روی ۲۰۰ میلیارد توکن آموزش دیده (در حالیکه مدل Qwen2.5-Omni روی ۱.۲ تریلیون توکن آموزش دیده بود!)، عملکردی بهمراتب بهتر و کارآمدتر از رقبا دارد. این موفقیت به لطف نوآوریهای معماری و آمادهسازی دقیق دادهها به دست آمده است.
---
🔧 سه مؤلفه کلیدی OmniVinci:
🟢 Temporal Embedding Grouping (TEG)
نقشهبرداری توکنهای ویدیو و صدا بر اساس زمان وقوع رویدادها.
🟢 Constrained Rotary Time Embedding (CRTE)
رمزگذاری دقیق زمان مطلق برای دادههای ترتیبی.
🟢 OmniAlignNet
همترازسازی بردارهای صوت و تصویر در یک فضای مشترک با استفاده از یادگیری تقابلی (contrastive learning).
📊 آزمایشهای حذف مؤلفهها نشان دادند که هر بخش تأثیر قابلتوجهی دارد:
مدل پایه: 45.51 امتیاز
با TEG → 47.72 (+2.21)
با CRTE → 50.25 (+4.74)
با OmniAlignNet → 52.59 (+7.08 نسبت به پایه)
---
🧠 دادههای آموزشی:
۲۴ میلیون دیالوگ که با کمک یک مدل LLM تحلیل و ادغام شدهاند تا توضیحات چندوجهی منسجم تولید شود.
ترکیب دادهها:
📸 تصاویر — ۳۶٪
🎧 صدا — ۲۱٪
🗣 گفتار — ۱۷٪
⚙️ دادههای ترکیبی — ۱۵٪
🎬 ویدیو — ۱۱٪
---
🏆 نتایج در بنچمارکها:
Worldsense: 48.23 در مقابل 45.40 (Qwen2.5-Omni)
DailyOmni: 66.50 در مقابل 47.45
MMAR: 58.40
MMAU: 71.60
WER (LibriSpeech-clean): فقط 1.7٪
در کاربرد صنعتی (تشخیص عیوب در ویفرهای نیمهرسانا):
همچنین OmniVinci به دقت 98.1٪ رسید
— بهتر از NVILA (97.6%) و بسیار بالاتر از مدل بزرگتر VILA (90.8%).
---
📜 مجوزها:
کد منبع: Apache 2.0 License
مدل: NVIDIA One Way Noncommercial License
🔗 منابع:
🟡 صفحه پروژه
🟡 مدل
🟡 مقاله در Arxiv
🖥 GitHub
@rss_ai_ir
#هوش_مصنوعی #NVIDIA #OmniVinci #مولتی_مودال #DeepLearning #AI #MachineLearning #Vision #Speech #MultimodalAI
مدل چندوجهی که رکوردها را شکست!
مدل OmniVinci مدلی است که میتواند بهصورت همزمان متن، تصویر، ویدیو و صدا را درک و پردازش کند — یک گام بزرگ در مسیر هوش مصنوعی چندوجهی (Multimodal AI).
با وجود اینکه فقط بر روی ۲۰۰ میلیارد توکن آموزش دیده (در حالیکه مدل Qwen2.5-Omni روی ۱.۲ تریلیون توکن آموزش دیده بود!)، عملکردی بهمراتب بهتر و کارآمدتر از رقبا دارد. این موفقیت به لطف نوآوریهای معماری و آمادهسازی دقیق دادهها به دست آمده است.
---
🔧 سه مؤلفه کلیدی OmniVinci:
🟢 Temporal Embedding Grouping (TEG)
نقشهبرداری توکنهای ویدیو و صدا بر اساس زمان وقوع رویدادها.
🟢 Constrained Rotary Time Embedding (CRTE)
رمزگذاری دقیق زمان مطلق برای دادههای ترتیبی.
🟢 OmniAlignNet
همترازسازی بردارهای صوت و تصویر در یک فضای مشترک با استفاده از یادگیری تقابلی (contrastive learning).
📊 آزمایشهای حذف مؤلفهها نشان دادند که هر بخش تأثیر قابلتوجهی دارد:
مدل پایه: 45.51 امتیاز
با TEG → 47.72 (+2.21)
با CRTE → 50.25 (+4.74)
با OmniAlignNet → 52.59 (+7.08 نسبت به پایه)
---
🧠 دادههای آموزشی:
۲۴ میلیون دیالوگ که با کمک یک مدل LLM تحلیل و ادغام شدهاند تا توضیحات چندوجهی منسجم تولید شود.
ترکیب دادهها:
📸 تصاویر — ۳۶٪
🎧 صدا — ۲۱٪
🗣 گفتار — ۱۷٪
⚙️ دادههای ترکیبی — ۱۵٪
🎬 ویدیو — ۱۱٪
---
🏆 نتایج در بنچمارکها:
Worldsense: 48.23 در مقابل 45.40 (Qwen2.5-Omni)
DailyOmni: 66.50 در مقابل 47.45
MMAR: 58.40
MMAU: 71.60
WER (LibriSpeech-clean): فقط 1.7٪
در کاربرد صنعتی (تشخیص عیوب در ویفرهای نیمهرسانا):
همچنین OmniVinci به دقت 98.1٪ رسید
— بهتر از NVILA (97.6%) و بسیار بالاتر از مدل بزرگتر VILA (90.8%).
---
📜 مجوزها:
کد منبع: Apache 2.0 License
مدل: NVIDIA One Way Noncommercial License
🔗 منابع:
🟡 صفحه پروژه
🟡 مدل
🟡 مقاله در Arxiv
🖥 GitHub
@rss_ai_ir
#هوش_مصنوعی #NVIDIA #OmniVinci #مولتی_مودال #DeepLearning #AI #MachineLearning #Vision #Speech #MultimodalAI
🔥1👏1