VIRSUN
6.14K subscribers
1.02K photos
585 videos
5 files
654 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
🎥🧠 ویدئو-مدل‌ها وارد دنیای Chain-of-Frames شدند!

مدل‌های مولد ویدئو (مثل Veo 3) حالا فقط تصویر نمی‌سازند – آن‌ها می‌توانند مستقیماً روی فریم‌ها فکر کنند و پاسخ را رسم کنند.

🔹 پژوهش جدید نشان داد که حتی بدون فاین‌تیونینگ، یک مدل ویدئویی بزرگ می‌تواند:

✳️مسائل کلاسیک بینایی ماشین (مرزبندی، سگمنتیشن، بهبود تصویر)
✳️و حتی پازل‌های بصری ساده (مثل ماز و تقارن)
را فقط با یک پرامپت درست حل کند.


📌 نکته طلایی: به مدل نقش بدهید و فرمت خروجی را مشخص کنید.
مثال‌ها:

🌀 Maze:
مسیر کوتاه از START به GOAL را قرمز با ضخامت ۳ پیکسل بکش.

👤 Segmentation:
فقط فرد را با لایه نیمه‌شفاف پر کن.

🎬 Background removal:
پس‌زمینه خاکستری یکنواخت، بدون هاله دور مو.

🌍🌙 Physics:
دو نسخه زمین (9.81 m/s²) و ماه (1.62 m/s²) کنار هم نشان بده.

🔧 Deblur/Denoise:
وضوح را زیاد کن، بدون صاف‌کردن بیش‌ازحد.
You are a video analyst. Solve the task and DRAW the answer ON TOP of frames.

Maze: draw the shortest valid path in RED, thickness 3 px, unbroken line from START to GOAL.

Segmentation: fill ONLY the person with a semi-transparent overlay; keep everything else unchanged.

Background removal: keep the subject; replace background with uniform gray; avoid halos around hair.

Physics: render two variants side-by-side labeled “Earth (9.81 m/s^2)” and “Moon (1.62 m/s^2)”; show motion difference.

Deblur/denoise: increase sharpness while preserving faces; avoid over-smoothing and ringing artifacts.

نتیجه: ویدئو-مدل‌ها مثل LLMها می‌توانند zero-shot کار کنند، کافی است بگویید: «حل کن و روی فریم رسم کن».

📎 سایت مقاله با مثال‌های تصویری پر از دموهای خفن است.
https://video-zero-shot.github.io/

@rss_ai_ir

#AI #VideoAI #GenerativeAI #ChainOfFrames #ComputerVision
1👍1🙏1
🌍 Google DeepMind:
آیا Veo 3 واقعاً «دنیا را می‌فهمد»؟

گوگل مقاله‌ای منتشر کرده که در آن بررسی کرده آیا مدل Veo 3 فقط یک ابزار ساخت ویدیوست یا واقعاً درک فیزیکی و منطقی از جهان دارد. 🎥🤖

مدت‌هاست گوگل می‌گوید Veo چیزی فراتر از یک مدل ویدیوساز است — آن را به‌عنوان پایه‌ای برای آموزش نسل بعدی مدل‌ها، ایجنت‌ها و ربات‌ها می‌بیند.

---
🧠 چرا مهم است؟

دانشمندانی مانند Yann LeCun بارها گفته‌اند مشکل اصلی مدل‌های زبانی فعلی (LLMها) نداشتن درک از جهان مادی است.
به‌عبارتی، بدون فهم فیزیک و تعامل با واقعیت، رسیدن به AGI ممکن نیست.
---

🔬 در این پژوهش چه کردند؟

محققان Veo را در مجموعه‌ای بزرگ از وظایف آزمایش کردند:

♻️عبور از هزارتو (maze solving)
♻️مدل‌سازی فیزیکی (شناوری، اصطکاک، بازتاب، شکست نور و...)
♻️استدلال دیداری و تشخیص ویژگی‌های اشیا

📊 نتایج نشان می‌دهد:

✳️همچنین Veo 3 توانایی حل مسائل جدیدی را دارد که در آموزش خود ندیده است (مثلاً تشخیص اشیا بدون آموزش مستقیم).
✳️از نوعی «زنجیره تفکر دیداری» استفاده می‌کند که محققان آن را Chain-of-Frames (CoF) نامیده‌اند — مشابه Chain-of-Thought در LLMها.
✳️در حل هزارتوهای ۵×۵ به دقت ۷۸٪ در معیار pass@10 رسیده، که برای مدل ویدیویی بسیار قابل‌توجه است.

✳️درک قابل‌توجهی از قوانین فیزیکی جهان واقعی دارد.

---
⚡️ جمع‌بندی

⛔️همچنین Veo 3 تنها یک مدل تولید ویدیو نیست — بلکه نشانه‌ای از مدل‌های درک‌کننده جهان (World Models) است.
⛔️ممکن است همین مسیر، آینده یادگیری هوش مصنوعی را از متن به سمت درک و تعامل با واقعیت بصری و فیزیکی سوق دهد.

📄 مطالعه مقاله:
DeepMind Veo 3 Paper (2025)

#AI #DeepMind #Veo3 #WorldModel #AGI #Google #ChainOfFrames @rss_ai_ir
👍21