VIRSUN

⛔️ تازه یک مدل جدید برای ساخت دنیا معرفی شده!

🔗 همچنین WorldLabs ابزاری ساخته که فقط با یک تصویر، یک دنیا کامل سه‌بعدی می‌سازد.

✨ ویژگی‌ها:

♻️جهان‌ها برای همیشه در حافظه ذخیره می‌شوند و جزئیات از بین نمی‌رود.
♻️مبتنی بر 3D Gaussian Splatting (3DGS) است، پس می‌توان صحنه‌ها را با هم ترکیب یا تغییر داد.
♻️برخلاف روش‌های قدیمی، دنیاها مقیاس‌پذیر و قابل ویرایش در زمان واقعی هستند.

📌 فعلاً در حالت بتای خصوصی قرار دارد.

به‌نظرتان آینده‌ی بازی‌سازی و متاورس دقیقاً همین مسیر نیست؟ 🎮🌍

#AI #3D #WorldModel #GenerativeAI #Metaverse #GameTech
@rss_ai_ir

🔥7👏7😁7👍6❤5🎉2

855 views04:53

VIRSUN

🌍 Google DeepMind:
آیا Veo 3 واقعاً «دنیا را می‌فهمد»؟

❌گوگل مقاله‌ای منتشر کرده که در آن بررسی کرده آیا مدل Veo 3 فقط یک ابزار ساخت ویدیوست یا واقعاً درک فیزیکی و منطقی از جهان دارد. 🎥🤖

❌مدت‌هاست گوگل می‌گوید Veo چیزی فراتر از یک مدل ویدیوساز است — آن را به‌عنوان پایه‌ای برای آموزش نسل بعدی مدل‌ها، ایجنت‌ها و ربات‌ها می‌بیند.

---
🧠 چرا مهم است؟

✅دانشمندانی مانند Yann LeCun بارها گفته‌اند مشکل اصلی مدل‌های زبانی فعلی (LLMها) نداشتن درک از جهان مادی است.
به‌عبارتی، بدون فهم فیزیک و تعامل با واقعیت، رسیدن به AGI ممکن نیست.
---

🔬 در این پژوهش چه کردند؟

محققان Veo را در مجموعه‌ای بزرگ از وظایف آزمایش کردند:

♻️عبور از هزارتو (maze solving)
♻️مدل‌سازی فیزیکی (شناوری، اصطکاک، بازتاب، شکست نور و...)
♻️استدلال دیداری و تشخیص ویژگی‌های اشیا

📊 نتایج نشان می‌دهد:

✳️همچنین Veo 3 توانایی حل مسائل جدیدی را دارد که در آموزش خود ندیده است (مثلاً تشخیص اشیا بدون آموزش مستقیم).
✳️از نوعی «زنجیره تفکر دیداری» استفاده می‌کند که محققان آن را Chain-of-Frames (CoF) نامیده‌اند — مشابه Chain-of-Thought در LLMها.
✳️در حل هزارتوهای ۵×۵ به دقت ۷۸٪ در معیار pass@10 رسیده، که برای مدل ویدیویی بسیار قابل‌توجه است.

✳️درک قابل‌توجهی از قوانین فیزیکی جهان واقعی دارد.

---
⚡️ جمع‌بندی

⛔️همچنین Veo 3 تنها یک مدل تولید ویدیو نیست — بلکه نشانه‌ای از مدل‌های درک‌کننده جهان (World Models) است.
⛔️ممکن است همین مسیر، آینده یادگیری هوش مصنوعی را از متن به سمت درک و تعامل با واقعیت بصری و فیزیکی سوق دهد.

📄 مطالعه مقاله:
DeepMind Veo 3 Paper (2025)

#AI #DeepMind #Veo3 #WorldModel #AGI #Google #ChainOfFrames @rss_ai_ir

👍2❤1

1.47K views03:17

VIRSUN

🤖 WorldVLA —
ترکیب VLA و World Model در یک هسته‌ی خودمولد (Autoregressive Core)

شرکت Alibaba از مدل جدیدی به نام WorldVLA رونمایی کرده است — گامی بزرگ به‌سوی ساخت مدل خودبازگشتی جهانِ کنش‌ها، جایی که یک معماری واحد همزمان می‌تواند فریم‌های بعدی و اقدامات عامل (agent) را پیش‌بینی کند.

🧠 ایده‌ی اصلی:
مدل WorldVLA مدل‌های Vision-Language-Action (VLA) و World Model را درون یک ترنسفورمر یکپارچه می‌کند:

ورودی: (image + language + action)

خروجی: (image + language + action)

یعنی مدل نه‌تنها دنیای فیزیکی را «درک» می‌کند، بلکه یاد می‌گیرد چگونه در آن «عمل» کند.

⚙️ نحوه‌ی عملکرد:

معماری: یک ترنسفورمر واحد که به‌طور هم‌زمان روی داده‌های مربوط به مدل‌های کنش و مدل‌های جهان آموزش می‌بیند.

تابع هزینه (Loss): ترکیبی از پیش‌بینی وضعیت محیط و پیش‌بینی کنش‌ها.

ترفند کلیدی در Attention Mask: پنهان‌سازی کنش‌های قبلی در هنگام تولید کنش فعلی — که باعث بهبود چشمگیر در کیفیت بخش «action-chunk» می‌شود.

📊 نتایج:
در آزمون LIBERO benchmark، مدل WorldVLA از مدل‌هایی که به‌طور جداگانه برای کنش یا شبیه‌سازی جهان آموزش دیده بودند، بهتر عمل کرده است.

💬 به‌طور خلاصه، Alibaba گام بعدی را به‌سوی عامل‌های AGI با درک واقعی از فیزیک جهان برداشته است —
جایی که یک هسته‌ی واحد می‌تواند ادراک، پیش‌بینی و عمل را هم‌زمان انجام دهد.

📄 مقاله:
arxiv.org/abs/2506.21539
💻 کد:
github.com/alibaba-damo-academy/WorldVLA

@rss_ai_ir
#هوش_مصنوعی #WorldModel #VLA #Alibaba #DeepLearning #Transformers #AGI

👏2❤1👍1🔥1

297 views04:46

VIRSUN

0:13

This media is not supported in your browser

VIEW IN TELEGRAM

😮 نشت جدید از Google –
نسخه‌ای از GENIE 3!

در ویدئوی تازه‌ای که منتشر شده، نسخه‌ای از GENIE 3 (مدل تولید جهان‌های سه‌بعدی گوگل) دیده می‌شود که به کاربران اجازه می‌دهد نه‌تنها محیط، بلکه کاراکترها را نیز بسازند! 🎮
به‌نظر می‌رسد این نسخه تعاملی‌تر از نمونه‌های قبلی است — چیزی بین بازی، شبیه‌سازی و مدل‌سازی زنده‌ی جهان‌های مولد.

📺 در پایین ویدیو چند نکته جالب نوشته شده بود:

♻️پس از ساخت جهان، کاربر ۶۰ ثانیه فرصت دارد تا در محیط قدم بزند.

♻️در بالا پیام خطایی دیده می‌شود: «نیاز به بازخورد از کاربر».

♻️هر سشن می‌تواند به‌صورت ویدیو ذخیره و به‌اشتراک گذاشته شود.

👀 هنوز مشخص نیست ویدیو واقعی است یا نه، اما شباهت زیادی به محیط آزمایشی Google DeepMind GENIE-3 دارد.
احتمالاً تا پایان سال باید منتظر خبر رسمی از گوگل باشیم…

@rss_ai_ir
#Google #Genie3 #AI #3D #WorldModel #هوش_مصنوعی #مدل_جهان #ژنراتیو

❤2🔥1👏1

1.58K views15:53

About

Blog

Apps

Platform