🎥🧠 ویدئو-مدلها وارد دنیای Chain-of-Frames شدند!
مدلهای مولد ویدئو (مثل Veo 3) حالا فقط تصویر نمیسازند – آنها میتوانند مستقیماً روی فریمها فکر کنند و پاسخ را رسم کنند.
🔹 پژوهش جدید نشان داد که حتی بدون فاینتیونینگ، یک مدل ویدئویی بزرگ میتواند:
✳️مسائل کلاسیک بینایی ماشین (مرزبندی، سگمنتیشن، بهبود تصویر)
✳️و حتی پازلهای بصری ساده (مثل ماز و تقارن)
را فقط با یک پرامپت درست حل کند.
📌 نکته طلایی: به مدل نقش بدهید و فرمت خروجی را مشخص کنید.
مثالها:
🌀 Maze:
مسیر کوتاه از START به GOAL را قرمز با ضخامت ۳ پیکسل بکش.
👤 Segmentation:
فقط فرد را با لایه نیمهشفاف پر کن.
🎬 Background removal:
پسزمینه خاکستری یکنواخت، بدون هاله دور مو.
🌍🌙 Physics:
دو نسخه زمین (9.81 m/s²) و ماه (1.62 m/s²) کنار هم نشان بده.
🔧 Deblur/Denoise:
وضوح را زیاد کن، بدون صافکردن بیشازحد.
✨ نتیجه: ویدئو-مدلها مثل LLMها میتوانند zero-shot کار کنند، کافی است بگویید: «حل کن و روی فریم رسم کن».
📎 سایت مقاله با مثالهای تصویری پر از دموهای خفن است.
https://video-zero-shot.github.io/
@rss_ai_ir
#AI #VideoAI #GenerativeAI #ChainOfFrames #ComputerVision
مدلهای مولد ویدئو (مثل Veo 3) حالا فقط تصویر نمیسازند – آنها میتوانند مستقیماً روی فریمها فکر کنند و پاسخ را رسم کنند.
🔹 پژوهش جدید نشان داد که حتی بدون فاینتیونینگ، یک مدل ویدئویی بزرگ میتواند:
✳️مسائل کلاسیک بینایی ماشین (مرزبندی، سگمنتیشن، بهبود تصویر)
✳️و حتی پازلهای بصری ساده (مثل ماز و تقارن)
را فقط با یک پرامپت درست حل کند.
📌 نکته طلایی: به مدل نقش بدهید و فرمت خروجی را مشخص کنید.
مثالها:
🌀 Maze:
مسیر کوتاه از START به GOAL را قرمز با ضخامت ۳ پیکسل بکش.
👤 Segmentation:
فقط فرد را با لایه نیمهشفاف پر کن.
🎬 Background removal:
پسزمینه خاکستری یکنواخت، بدون هاله دور مو.
🌍🌙 Physics:
دو نسخه زمین (9.81 m/s²) و ماه (1.62 m/s²) کنار هم نشان بده.
🔧 Deblur/Denoise:
وضوح را زیاد کن، بدون صافکردن بیشازحد.
You are a video analyst. Solve the task and DRAW the answer ON TOP of frames.
Maze: draw the shortest valid path in RED, thickness 3 px, unbroken line from START to GOAL.
Segmentation: fill ONLY the person with a semi-transparent overlay; keep everything else unchanged.
Background removal: keep the subject; replace background with uniform gray; avoid halos around hair.
Physics: render two variants side-by-side labeled “Earth (9.81 m/s^2)” and “Moon (1.62 m/s^2)”; show motion difference.
Deblur/denoise: increase sharpness while preserving faces; avoid over-smoothing and ringing artifacts.
✨ نتیجه: ویدئو-مدلها مثل LLMها میتوانند zero-shot کار کنند، کافی است بگویید: «حل کن و روی فریم رسم کن».
📎 سایت مقاله با مثالهای تصویری پر از دموهای خفن است.
https://video-zero-shot.github.io/
@rss_ai_ir
#AI #VideoAI #GenerativeAI #ChainOfFrames #ComputerVision
❤1👍1🙏1
🌍 Google DeepMind:
آیا Veo 3 واقعاً «دنیا را میفهمد»؟
❌گوگل مقالهای منتشر کرده که در آن بررسی کرده آیا مدل Veo 3 فقط یک ابزار ساخت ویدیوست یا واقعاً درک فیزیکی و منطقی از جهان دارد. 🎥🤖
❌مدتهاست گوگل میگوید Veo چیزی فراتر از یک مدل ویدیوساز است — آن را بهعنوان پایهای برای آموزش نسل بعدی مدلها، ایجنتها و رباتها میبیند.
---
🧠 چرا مهم است؟
✅دانشمندانی مانند Yann LeCun بارها گفتهاند مشکل اصلی مدلهای زبانی فعلی (LLMها) نداشتن درک از جهان مادی است.
بهعبارتی، بدون فهم فیزیک و تعامل با واقعیت، رسیدن به AGI ممکن نیست.
---
🔬 در این پژوهش چه کردند؟
محققان Veo را در مجموعهای بزرگ از وظایف آزمایش کردند:
♻️عبور از هزارتو (maze solving)
♻️مدلسازی فیزیکی (شناوری، اصطکاک، بازتاب، شکست نور و...)
♻️استدلال دیداری و تشخیص ویژگیهای اشیا
📊 نتایج نشان میدهد:
✳️همچنین Veo 3 توانایی حل مسائل جدیدی را دارد که در آموزش خود ندیده است (مثلاً تشخیص اشیا بدون آموزش مستقیم).
✳️از نوعی «زنجیره تفکر دیداری» استفاده میکند که محققان آن را Chain-of-Frames (CoF) نامیدهاند — مشابه Chain-of-Thought در LLMها.
✳️در حل هزارتوهای ۵×۵ به دقت ۷۸٪ در معیار pass@10 رسیده، که برای مدل ویدیویی بسیار قابلتوجه است.
✳️درک قابلتوجهی از قوانین فیزیکی جهان واقعی دارد.
---
⚡️ جمعبندی
⛔️همچنین Veo 3 تنها یک مدل تولید ویدیو نیست — بلکه نشانهای از مدلهای درککننده جهان (World Models) است.
⛔️ممکن است همین مسیر، آینده یادگیری هوش مصنوعی را از متن به سمت درک و تعامل با واقعیت بصری و فیزیکی سوق دهد.
📄 مطالعه مقاله:
DeepMind Veo 3 Paper (2025)
#AI #DeepMind #Veo3 #WorldModel #AGI #Google #ChainOfFrames @rss_ai_ir
آیا Veo 3 واقعاً «دنیا را میفهمد»؟
❌گوگل مقالهای منتشر کرده که در آن بررسی کرده آیا مدل Veo 3 فقط یک ابزار ساخت ویدیوست یا واقعاً درک فیزیکی و منطقی از جهان دارد. 🎥🤖
❌مدتهاست گوگل میگوید Veo چیزی فراتر از یک مدل ویدیوساز است — آن را بهعنوان پایهای برای آموزش نسل بعدی مدلها، ایجنتها و رباتها میبیند.
---
🧠 چرا مهم است؟
✅دانشمندانی مانند Yann LeCun بارها گفتهاند مشکل اصلی مدلهای زبانی فعلی (LLMها) نداشتن درک از جهان مادی است.
بهعبارتی، بدون فهم فیزیک و تعامل با واقعیت، رسیدن به AGI ممکن نیست.
---
🔬 در این پژوهش چه کردند؟
محققان Veo را در مجموعهای بزرگ از وظایف آزمایش کردند:
♻️عبور از هزارتو (maze solving)
♻️مدلسازی فیزیکی (شناوری، اصطکاک، بازتاب، شکست نور و...)
♻️استدلال دیداری و تشخیص ویژگیهای اشیا
📊 نتایج نشان میدهد:
✳️همچنین Veo 3 توانایی حل مسائل جدیدی را دارد که در آموزش خود ندیده است (مثلاً تشخیص اشیا بدون آموزش مستقیم).
✳️از نوعی «زنجیره تفکر دیداری» استفاده میکند که محققان آن را Chain-of-Frames (CoF) نامیدهاند — مشابه Chain-of-Thought در LLMها.
✳️در حل هزارتوهای ۵×۵ به دقت ۷۸٪ در معیار pass@10 رسیده، که برای مدل ویدیویی بسیار قابلتوجه است.
✳️درک قابلتوجهی از قوانین فیزیکی جهان واقعی دارد.
---
⚡️ جمعبندی
⛔️همچنین Veo 3 تنها یک مدل تولید ویدیو نیست — بلکه نشانهای از مدلهای درککننده جهان (World Models) است.
⛔️ممکن است همین مسیر، آینده یادگیری هوش مصنوعی را از متن به سمت درک و تعامل با واقعیت بصری و فیزیکی سوق دهد.
📄 مطالعه مقاله:
DeepMind Veo 3 Paper (2025)
#AI #DeepMind #Veo3 #WorldModel #AGI #Google #ChainOfFrames @rss_ai_ir
👍2❤1