This media is not supported in your browser
VIEW IN TELEGRAM
⛔️ تازه یک مدل جدید برای ساخت دنیا معرفی شده!
🔗 همچنین WorldLabs ابزاری ساخته که فقط با یک تصویر، یک دنیا کامل سهبعدی میسازد.
✨ ویژگیها:
♻️جهانها برای همیشه در حافظه ذخیره میشوند و جزئیات از بین نمیرود.
♻️مبتنی بر 3D Gaussian Splatting (3DGS) است، پس میتوان صحنهها را با هم ترکیب یا تغییر داد.
♻️برخلاف روشهای قدیمی، دنیاها مقیاسپذیر و قابل ویرایش در زمان واقعی هستند.
📌 فعلاً در حالت بتای خصوصی قرار دارد.
بهنظرتان آیندهی بازیسازی و متاورس دقیقاً همین مسیر نیست؟ 🎮🌍
#AI #3D #WorldModel #GenerativeAI #Metaverse #GameTech
@rss_ai_ir
🔗 همچنین WorldLabs ابزاری ساخته که فقط با یک تصویر، یک دنیا کامل سهبعدی میسازد.
✨ ویژگیها:
♻️جهانها برای همیشه در حافظه ذخیره میشوند و جزئیات از بین نمیرود.
♻️مبتنی بر 3D Gaussian Splatting (3DGS) است، پس میتوان صحنهها را با هم ترکیب یا تغییر داد.
♻️برخلاف روشهای قدیمی، دنیاها مقیاسپذیر و قابل ویرایش در زمان واقعی هستند.
📌 فعلاً در حالت بتای خصوصی قرار دارد.
بهنظرتان آیندهی بازیسازی و متاورس دقیقاً همین مسیر نیست؟ 🎮🌍
#AI #3D #WorldModel #GenerativeAI #Metaverse #GameTech
@rss_ai_ir
🔥7👏7😁7👍6❤5🎉2
🌍 Google DeepMind:
آیا Veo 3 واقعاً «دنیا را میفهمد»؟
❌گوگل مقالهای منتشر کرده که در آن بررسی کرده آیا مدل Veo 3 فقط یک ابزار ساخت ویدیوست یا واقعاً درک فیزیکی و منطقی از جهان دارد. 🎥🤖
❌مدتهاست گوگل میگوید Veo چیزی فراتر از یک مدل ویدیوساز است — آن را بهعنوان پایهای برای آموزش نسل بعدی مدلها، ایجنتها و رباتها میبیند.
---
🧠 چرا مهم است؟
✅دانشمندانی مانند Yann LeCun بارها گفتهاند مشکل اصلی مدلهای زبانی فعلی (LLMها) نداشتن درک از جهان مادی است.
بهعبارتی، بدون فهم فیزیک و تعامل با واقعیت، رسیدن به AGI ممکن نیست.
---
🔬 در این پژوهش چه کردند؟
محققان Veo را در مجموعهای بزرگ از وظایف آزمایش کردند:
♻️عبور از هزارتو (maze solving)
♻️مدلسازی فیزیکی (شناوری، اصطکاک، بازتاب، شکست نور و...)
♻️استدلال دیداری و تشخیص ویژگیهای اشیا
📊 نتایج نشان میدهد:
✳️همچنین Veo 3 توانایی حل مسائل جدیدی را دارد که در آموزش خود ندیده است (مثلاً تشخیص اشیا بدون آموزش مستقیم).
✳️از نوعی «زنجیره تفکر دیداری» استفاده میکند که محققان آن را Chain-of-Frames (CoF) نامیدهاند — مشابه Chain-of-Thought در LLMها.
✳️در حل هزارتوهای ۵×۵ به دقت ۷۸٪ در معیار pass@10 رسیده، که برای مدل ویدیویی بسیار قابلتوجه است.
✳️درک قابلتوجهی از قوانین فیزیکی جهان واقعی دارد.
---
⚡️ جمعبندی
⛔️همچنین Veo 3 تنها یک مدل تولید ویدیو نیست — بلکه نشانهای از مدلهای درککننده جهان (World Models) است.
⛔️ممکن است همین مسیر، آینده یادگیری هوش مصنوعی را از متن به سمت درک و تعامل با واقعیت بصری و فیزیکی سوق دهد.
📄 مطالعه مقاله:
DeepMind Veo 3 Paper (2025)
#AI #DeepMind #Veo3 #WorldModel #AGI #Google #ChainOfFrames @rss_ai_ir
آیا Veo 3 واقعاً «دنیا را میفهمد»؟
❌گوگل مقالهای منتشر کرده که در آن بررسی کرده آیا مدل Veo 3 فقط یک ابزار ساخت ویدیوست یا واقعاً درک فیزیکی و منطقی از جهان دارد. 🎥🤖
❌مدتهاست گوگل میگوید Veo چیزی فراتر از یک مدل ویدیوساز است — آن را بهعنوان پایهای برای آموزش نسل بعدی مدلها، ایجنتها و رباتها میبیند.
---
🧠 چرا مهم است؟
✅دانشمندانی مانند Yann LeCun بارها گفتهاند مشکل اصلی مدلهای زبانی فعلی (LLMها) نداشتن درک از جهان مادی است.
بهعبارتی، بدون فهم فیزیک و تعامل با واقعیت، رسیدن به AGI ممکن نیست.
---
🔬 در این پژوهش چه کردند؟
محققان Veo را در مجموعهای بزرگ از وظایف آزمایش کردند:
♻️عبور از هزارتو (maze solving)
♻️مدلسازی فیزیکی (شناوری، اصطکاک، بازتاب، شکست نور و...)
♻️استدلال دیداری و تشخیص ویژگیهای اشیا
📊 نتایج نشان میدهد:
✳️همچنین Veo 3 توانایی حل مسائل جدیدی را دارد که در آموزش خود ندیده است (مثلاً تشخیص اشیا بدون آموزش مستقیم).
✳️از نوعی «زنجیره تفکر دیداری» استفاده میکند که محققان آن را Chain-of-Frames (CoF) نامیدهاند — مشابه Chain-of-Thought در LLMها.
✳️در حل هزارتوهای ۵×۵ به دقت ۷۸٪ در معیار pass@10 رسیده، که برای مدل ویدیویی بسیار قابلتوجه است.
✳️درک قابلتوجهی از قوانین فیزیکی جهان واقعی دارد.
---
⚡️ جمعبندی
⛔️همچنین Veo 3 تنها یک مدل تولید ویدیو نیست — بلکه نشانهای از مدلهای درککننده جهان (World Models) است.
⛔️ممکن است همین مسیر، آینده یادگیری هوش مصنوعی را از متن به سمت درک و تعامل با واقعیت بصری و فیزیکی سوق دهد.
📄 مطالعه مقاله:
DeepMind Veo 3 Paper (2025)
#AI #DeepMind #Veo3 #WorldModel #AGI #Google #ChainOfFrames @rss_ai_ir
👍2❤1
🤖 WorldVLA —
ترکیب VLA و World Model در یک هستهی خودمولد (Autoregressive Core)
شرکت Alibaba از مدل جدیدی به نام WorldVLA رونمایی کرده است — گامی بزرگ بهسوی ساخت مدل خودبازگشتی جهانِ کنشها، جایی که یک معماری واحد همزمان میتواند فریمهای بعدی و اقدامات عامل (agent) را پیشبینی کند.
🧠 ایدهی اصلی:
مدل WorldVLA مدلهای Vision-Language-Action (VLA) و World Model را درون یک ترنسفورمر یکپارچه میکند:
ورودی: (image + language + action)
خروجی: (image + language + action)
یعنی مدل نهتنها دنیای فیزیکی را «درک» میکند، بلکه یاد میگیرد چگونه در آن «عمل» کند.
⚙️ نحوهی عملکرد:
معماری: یک ترنسفورمر واحد که بهطور همزمان روی دادههای مربوط به مدلهای کنش و مدلهای جهان آموزش میبیند.
تابع هزینه (Loss): ترکیبی از پیشبینی وضعیت محیط و پیشبینی کنشها.
ترفند کلیدی در Attention Mask: پنهانسازی کنشهای قبلی در هنگام تولید کنش فعلی — که باعث بهبود چشمگیر در کیفیت بخش «action-chunk» میشود.
📊 نتایج:
در آزمون LIBERO benchmark، مدل WorldVLA از مدلهایی که بهطور جداگانه برای کنش یا شبیهسازی جهان آموزش دیده بودند، بهتر عمل کرده است.
💬 بهطور خلاصه، Alibaba گام بعدی را بهسوی عاملهای AGI با درک واقعی از فیزیک جهان برداشته است —
جایی که یک هستهی واحد میتواند ادراک، پیشبینی و عمل را همزمان انجام دهد.
📄 مقاله:
arxiv.org/abs/2506.21539
💻 کد:
github.com/alibaba-damo-academy/WorldVLA
@rss_ai_ir
#هوش_مصنوعی #WorldModel #VLA #Alibaba #DeepLearning #Transformers #AGI
ترکیب VLA و World Model در یک هستهی خودمولد (Autoregressive Core)
شرکت Alibaba از مدل جدیدی به نام WorldVLA رونمایی کرده است — گامی بزرگ بهسوی ساخت مدل خودبازگشتی جهانِ کنشها، جایی که یک معماری واحد همزمان میتواند فریمهای بعدی و اقدامات عامل (agent) را پیشبینی کند.
🧠 ایدهی اصلی:
مدل WorldVLA مدلهای Vision-Language-Action (VLA) و World Model را درون یک ترنسفورمر یکپارچه میکند:
ورودی: (image + language + action)
خروجی: (image + language + action)
یعنی مدل نهتنها دنیای فیزیکی را «درک» میکند، بلکه یاد میگیرد چگونه در آن «عمل» کند.
⚙️ نحوهی عملکرد:
معماری: یک ترنسفورمر واحد که بهطور همزمان روی دادههای مربوط به مدلهای کنش و مدلهای جهان آموزش میبیند.
تابع هزینه (Loss): ترکیبی از پیشبینی وضعیت محیط و پیشبینی کنشها.
ترفند کلیدی در Attention Mask: پنهانسازی کنشهای قبلی در هنگام تولید کنش فعلی — که باعث بهبود چشمگیر در کیفیت بخش «action-chunk» میشود.
📊 نتایج:
در آزمون LIBERO benchmark، مدل WorldVLA از مدلهایی که بهطور جداگانه برای کنش یا شبیهسازی جهان آموزش دیده بودند، بهتر عمل کرده است.
💬 بهطور خلاصه، Alibaba گام بعدی را بهسوی عاملهای AGI با درک واقعی از فیزیک جهان برداشته است —
جایی که یک هستهی واحد میتواند ادراک، پیشبینی و عمل را همزمان انجام دهد.
📄 مقاله:
arxiv.org/abs/2506.21539
💻 کد:
github.com/alibaba-damo-academy/WorldVLA
@rss_ai_ir
#هوش_مصنوعی #WorldModel #VLA #Alibaba #DeepLearning #Transformers #AGI
👏2❤1👍1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
😮 نشت جدید از Google –
نسخهای از GENIE 3!
در ویدئوی تازهای که منتشر شده، نسخهای از GENIE 3 (مدل تولید جهانهای سهبعدی گوگل) دیده میشود که به کاربران اجازه میدهد نهتنها محیط، بلکه کاراکترها را نیز بسازند! 🎮
بهنظر میرسد این نسخه تعاملیتر از نمونههای قبلی است — چیزی بین بازی، شبیهسازی و مدلسازی زندهی جهانهای مولد.
📺 در پایین ویدیو چند نکته جالب نوشته شده بود:
♻️پس از ساخت جهان، کاربر ۶۰ ثانیه فرصت دارد تا در محیط قدم بزند.
♻️در بالا پیام خطایی دیده میشود: «نیاز به بازخورد از کاربر».
♻️هر سشن میتواند بهصورت ویدیو ذخیره و بهاشتراک گذاشته شود.
👀 هنوز مشخص نیست ویدیو واقعی است یا نه، اما شباهت زیادی به محیط آزمایشی Google DeepMind GENIE-3 دارد.
احتمالاً تا پایان سال باید منتظر خبر رسمی از گوگل باشیم…
@rss_ai_ir
#Google #Genie3 #AI #3D #WorldModel #هوش_مصنوعی #مدل_جهان #ژنراتیو
نسخهای از GENIE 3!
در ویدئوی تازهای که منتشر شده، نسخهای از GENIE 3 (مدل تولید جهانهای سهبعدی گوگل) دیده میشود که به کاربران اجازه میدهد نهتنها محیط، بلکه کاراکترها را نیز بسازند! 🎮
بهنظر میرسد این نسخه تعاملیتر از نمونههای قبلی است — چیزی بین بازی، شبیهسازی و مدلسازی زندهی جهانهای مولد.
📺 در پایین ویدیو چند نکته جالب نوشته شده بود:
♻️پس از ساخت جهان، کاربر ۶۰ ثانیه فرصت دارد تا در محیط قدم بزند.
♻️در بالا پیام خطایی دیده میشود: «نیاز به بازخورد از کاربر».
♻️هر سشن میتواند بهصورت ویدیو ذخیره و بهاشتراک گذاشته شود.
👀 هنوز مشخص نیست ویدیو واقعی است یا نه، اما شباهت زیادی به محیط آزمایشی Google DeepMind GENIE-3 دارد.
احتمالاً تا پایان سال باید منتظر خبر رسمی از گوگل باشیم…
@rss_ai_ir
#Google #Genie3 #AI #3D #WorldModel #هوش_مصنوعی #مدل_جهان #ژنراتیو
❤2🔥1👏1