VIRSUN
6.14K subscribers
1.02K photos
585 videos
5 files
654 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
📌 تسلا استراتژی آموزش ربات Optimus را تغییر داد

♻️طبق گزارش Business Insider، تسلا تصمیم گرفته آموزش ربات Optimus را بر پایه‌ی رویکرد فقط-بینایی (vision-only) جلو ببرد؛ یعنی یادگیری صرفاً از طریق تصاویر و ویدئو.

🔑 نکات کلیدی:

✳️در اواخر جولای به کارکنان اعلام شد که از این پس تمرکز بر آموزش با تصویر و ویدئو خواهد بود. این دقیقاً همان فلسفه‌ای است که تسلا در توسعه‌ی سیستم رانندگی خودکارش دنبال می‌کند و برخلاف رقبا از LiDAR استفاده نمی‌کند.

✳️پیش‌تر از هدست‌های VR و لباس‌های موشن‌کپچر برای ضبط حرکات انسان‌ها استفاده می‌کردند. اکنون تمرکز روی ضبط ویدئو از کارگران در حال انجام وظایف است.

✳️حذف موشن‌کپچر باعث می‌شود مقیاس‌پذیری افزایش یابد، زیرا دیگر مشکلات فنی و تعمیر تجهیزات مزاحم نیست.

✳️ویدئوها ساده و معمولی نیستند: تسلا در حال آزمایش سیستمی با ۵ دوربین است — یک دوربین روی کلاه و چهار دوربین روی «کوله‌پشتی» سنگین برای پوشش دید چند جهته.

✳️در حالی‌که رقبایی مانند Figure.AI ،Physical Intelligence و Boston Dynamics همچنان بر موشن‌کپچر تکیه دارند، تسلا مسیر متفاوتی را انتخاب کرده است.


🤔 پرسش مهم این است: آیا رویکرد vision-only می‌تواند سریع‌تر از روش‌های سنتی مبتنی بر موشن‌کپچر پیش برود؟

@rss_ai_ir

#تسلا #Optimus #رباتیک #هوش_مصنوعی #vision_only #BostonDynamics #FigureAI
👍11🎉65🥰4👏4😁4🔥3
🧩 Segment Anything 3 –
نسل سوم سام از Meta به‌صورت بی‌سر و صدا در ICLR منتشر شد!

📍 اگر SAM 1 فقط اجازه می‌داد با یک کلیک روی تصویر، شیء مورد نظر را بخش‌بندی کنید،
و SAM 2 قابلیت ویدیو و حافظه موقت (Memory) را اضافه کرده بود،

حالا SAM 3 پا را فراتر گذاشته:
کافی است فقط توصیف کنید چه چیزی می‌خواهید — مثلاً:

> «اتوبوس زرد مدرسه»، «گربه راه‌راه»، «سیب قرمز» 🍎



مدل خودش همه نمونه‌های آن شیء را در تصویر یا ویدیو پیدا کرده و ماسک دقیق رسم می‌کند.
به زبان ساده: بخش‌بندی تصویری بالاخره یاد گرفت حرف زدن! 🎯
---

💡 در SAM 3 دیگر از دستورهای طولانی خبری نیست — کافی است از اسم‌های کوتاه، نمونه‌های تصویری یا ترکیبی از هر دو استفاده کنید.
شما فقط مفهوم را بیان می‌کنید، مدل خودش تشخیص می‌دهد و مرزها را ترسیم می‌کند.
---

🧠 زیرساخت داده‌ای عظیم پشت این مدل:

♻️۴ میلیون مفهوم منحصربه‌فرد (unique concepts)
♻️۵۲ میلیون ماسک تأییدشده توسط انسان‌ها و LLMها (که کار یکدیگر را ارزیابی کرده‌اند)
---

⚙️ نتیجه:

✳️دقت حدوداً ۲ برابر بهتر از SAM 2
✳️عملکرد تقریباً هم‌سطح با انسان در آزمون‌های Open-Vocabulary
✳️سرعت در حد Real-Time (بلادرنگ)

---

📘 مقاله در ICLR:
🔗 openreview.net/forum?id=r35clVtGzw

@rss_ai_ir
#هوش_مصنوعی #SAM3 #SegmentAnything #Vision #ComputerVision #MetaAI #ICLR #Segmentation #AI
🔥1
🌟 NVIDIA OmniVinci —
مدل چندوجهی که رکوردها را شکست!

مدل OmniVinci مدلی است که می‌تواند به‌صورت هم‌زمان متن، تصویر، ویدیو و صدا را درک و پردازش کند — یک گام بزرگ در مسیر هوش مصنوعی چندوجهی (Multimodal AI).

با وجود اینکه فقط بر روی ۲۰۰ میلیارد توکن آموزش دیده (در حالی‌که مدل Qwen2.5-Omni روی ۱.۲ تریلیون توکن آموزش دیده بود!)، عملکردی به‌مراتب بهتر و کارآمدتر از رقبا دارد. این موفقیت به لطف نوآوری‌های معماری و آماده‌سازی دقیق داده‌ها به دست آمده است.


---

🔧 سه مؤلفه کلیدی OmniVinci:

🟢 Temporal Embedding Grouping (TEG)
نقشه‌برداری توکن‌های ویدیو و صدا بر اساس زمان وقوع رویدادها.

🟢 Constrained Rotary Time Embedding (CRTE)
رمزگذاری دقیق زمان مطلق برای داده‌های ترتیبی.

🟢 OmniAlignNet
هم‌ترازسازی بردارهای صوت و تصویر در یک فضای مشترک با استفاده از یادگیری تقابلی (contrastive learning).

📊 آزمایش‌های حذف مؤلفه‌ها نشان دادند که هر بخش تأثیر قابل‌توجهی دارد:

مدل پایه: 45.51 امتیاز

با TEG → 47.72 (+2.21)

با CRTE → 50.25 (+4.74)

با OmniAlignNet → 52.59 (+7.08 نسبت به پایه)

---

🧠 داده‌های آموزشی:
۲۴ میلیون دیالوگ که با کمک یک مدل LLM تحلیل و ادغام شده‌اند تا توضیحات چندوجهی منسجم تولید شود.

ترکیب داده‌ها:
📸 تصاویر — ۳۶٪
🎧 صدا — ۲۱٪
🗣 گفتار — ۱۷٪
⚙️ داده‌های ترکیبی — ۱۵٪
🎬 ویدیو — ۱۱٪
---
🏆 نتایج در بنچمارک‌ها:

Worldsense: 48.23 در مقابل 45.40 (Qwen2.5-Omni)

DailyOmni: 66.50 در مقابل 47.45

MMAR: 58.40

MMAU: 71.60

WER (LibriSpeech-clean): فقط 1.7٪


در کاربرد صنعتی (تشخیص عیوب در ویفرهای نیمه‌رسانا):

همچنین OmniVinci به دقت 98.1٪ رسید
— بهتر از NVILA (97.6%) و بسیار بالاتر از مدل بزرگ‌تر VILA (90.8%).


---

📜 مجوزها:

کد منبع: Apache 2.0 License

مدل: NVIDIA One Way Noncommercial License


🔗 منابع:
🟡 صفحه پروژه
🟡 مدل
🟡 مقاله در Arxiv
🖥 GitHub


@rss_ai_ir

#هوش_مصنوعی #NVIDIA #OmniVinci #مولتی_مودال #DeepLearning #AI #MachineLearning #Vision #Speech #MultimodalAI
🔥1👏1