This media is not supported in your browser
VIEW IN TELEGRAM
🔥
مجموعهداده ۲۱,۰۰۰+ ساعت
SpatialVID 🔥
📌دیتابیس SpatialVID یک دیتاست ویدیویی بزرگمقیاس با حاشیهنویسیهای مکانی صریح است که شامل:
🔹 موقعیتهای دوربین (Camera Poses)
🔹 نقشههای عمق (Depth Maps)
🔹 کپشنهای ساختاریافته
🔹 دستورالعملهای حرکتی سریالی
🎥 این مجموعه شامل ۷,۰۸۹ ساعت صحنههای پویا در دنیای واقعی است و برای وظایف درک صحنه، بازسازی سهبعدی، ویدیو-به-متن و مدلسازی حرکت بسیار ارزشمند محسوب میشود.
📂 مجوز: Apache-2.0 (کاملاً متنباز)
🔗 مقاله: arxiv.org/pdf/2509.09676
🔗 پروژه: nju-3dv.github.io/projects/SpatialVID
🔗 کد: github.com/NJU-3DV/spatialVID
@rss_ai_ir
#Dataset #ComputerVision #VideoAI #SpatialVID #3D #AI #OpenSource
مجموعهداده ۲۱,۰۰۰+ ساعت
SpatialVID 🔥
📌دیتابیس SpatialVID یک دیتاست ویدیویی بزرگمقیاس با حاشیهنویسیهای مکانی صریح است که شامل:
🔹 موقعیتهای دوربین (Camera Poses)
🔹 نقشههای عمق (Depth Maps)
🔹 کپشنهای ساختاریافته
🔹 دستورالعملهای حرکتی سریالی
🎥 این مجموعه شامل ۷,۰۸۹ ساعت صحنههای پویا در دنیای واقعی است و برای وظایف درک صحنه، بازسازی سهبعدی، ویدیو-به-متن و مدلسازی حرکت بسیار ارزشمند محسوب میشود.
📂 مجوز: Apache-2.0 (کاملاً متنباز)
🔗 مقاله: arxiv.org/pdf/2509.09676
🔗 پروژه: nju-3dv.github.io/projects/SpatialVID
🔗 کد: github.com/NJU-3DV/spatialVID
@rss_ai_ir
#Dataset #ComputerVision #VideoAI #SpatialVID #3D #AI #OpenSource
❤9🎉7🔥4😁3
🎥🧠 ویدئو-مدلها وارد دنیای Chain-of-Frames شدند!
مدلهای مولد ویدئو (مثل Veo 3) حالا فقط تصویر نمیسازند – آنها میتوانند مستقیماً روی فریمها فکر کنند و پاسخ را رسم کنند.
🔹 پژوهش جدید نشان داد که حتی بدون فاینتیونینگ، یک مدل ویدئویی بزرگ میتواند:
✳️مسائل کلاسیک بینایی ماشین (مرزبندی، سگمنتیشن، بهبود تصویر)
✳️و حتی پازلهای بصری ساده (مثل ماز و تقارن)
را فقط با یک پرامپت درست حل کند.
📌 نکته طلایی: به مدل نقش بدهید و فرمت خروجی را مشخص کنید.
مثالها:
🌀 Maze:
مسیر کوتاه از START به GOAL را قرمز با ضخامت ۳ پیکسل بکش.
👤 Segmentation:
فقط فرد را با لایه نیمهشفاف پر کن.
🎬 Background removal:
پسزمینه خاکستری یکنواخت، بدون هاله دور مو.
🌍🌙 Physics:
دو نسخه زمین (9.81 m/s²) و ماه (1.62 m/s²) کنار هم نشان بده.
🔧 Deblur/Denoise:
وضوح را زیاد کن، بدون صافکردن بیشازحد.
✨ نتیجه: ویدئو-مدلها مثل LLMها میتوانند zero-shot کار کنند، کافی است بگویید: «حل کن و روی فریم رسم کن».
📎 سایت مقاله با مثالهای تصویری پر از دموهای خفن است.
https://video-zero-shot.github.io/
@rss_ai_ir
#AI #VideoAI #GenerativeAI #ChainOfFrames #ComputerVision
مدلهای مولد ویدئو (مثل Veo 3) حالا فقط تصویر نمیسازند – آنها میتوانند مستقیماً روی فریمها فکر کنند و پاسخ را رسم کنند.
🔹 پژوهش جدید نشان داد که حتی بدون فاینتیونینگ، یک مدل ویدئویی بزرگ میتواند:
✳️مسائل کلاسیک بینایی ماشین (مرزبندی، سگمنتیشن، بهبود تصویر)
✳️و حتی پازلهای بصری ساده (مثل ماز و تقارن)
را فقط با یک پرامپت درست حل کند.
📌 نکته طلایی: به مدل نقش بدهید و فرمت خروجی را مشخص کنید.
مثالها:
🌀 Maze:
مسیر کوتاه از START به GOAL را قرمز با ضخامت ۳ پیکسل بکش.
👤 Segmentation:
فقط فرد را با لایه نیمهشفاف پر کن.
🎬 Background removal:
پسزمینه خاکستری یکنواخت، بدون هاله دور مو.
🌍🌙 Physics:
دو نسخه زمین (9.81 m/s²) و ماه (1.62 m/s²) کنار هم نشان بده.
🔧 Deblur/Denoise:
وضوح را زیاد کن، بدون صافکردن بیشازحد.
You are a video analyst. Solve the task and DRAW the answer ON TOP of frames.
Maze: draw the shortest valid path in RED, thickness 3 px, unbroken line from START to GOAL.
Segmentation: fill ONLY the person with a semi-transparent overlay; keep everything else unchanged.
Background removal: keep the subject; replace background with uniform gray; avoid halos around hair.
Physics: render two variants side-by-side labeled “Earth (9.81 m/s^2)” and “Moon (1.62 m/s^2)”; show motion difference.
Deblur/denoise: increase sharpness while preserving faces; avoid over-smoothing and ringing artifacts.
✨ نتیجه: ویدئو-مدلها مثل LLMها میتوانند zero-shot کار کنند، کافی است بگویید: «حل کن و روی فریم رسم کن».
📎 سایت مقاله با مثالهای تصویری پر از دموهای خفن است.
https://video-zero-shot.github.io/
@rss_ai_ir
#AI #VideoAI #GenerativeAI #ChainOfFrames #ComputerVision
❤1👍1🙏1
🎬 راهنمای رسمی پرامپتنویسی برای Sora 2 از OpenAI
اگر میخواهید از مدل Sora 2 بهترین خروجی ویدیویی بگیرید، ساختار پرامپت باید دقیق و مرحلهبهمرحله باشد 🎥👇
---
🧩 ۱. توضیح کلی صحنه
🔹 صحنه را با زبان ساده توصیف کنید.
🔹 شخصیتها، لباسها، دکور، آبوهوا و جزئیات دیگر را بنویسید.
🔹 هرچه توصیف جزئیتر باشد، ویدیو دقیقتر مطابق تخیل شما ساخته میشود.
---
🎥 ۲. سینماتوگرافی (فیلمبرداری)
زاویه و نوع نما: مثل «نمای کلی در سطح چشم» یا «کلوزآپ با زاویه از پشت».
حال و هوا: «سینمایی و پرتنش»، «شاد و پرتحرک»، «احساس انتظار لوکس».
لنز و فیلتر: «لنز ۳۵ میلیمتری با فیلتر نرم CPL».
نور و پالت رنگ: «نور گرم از چراغ و بازتاب سرد از پنجره».
---
🕺 ۳. حرکات و اکشنها
حرکات را به صورت فهرست بنویسید.
هر حرکت را به یک لحظه زمانی مرتبط کنید (مثل فریم یا ثانیه خاص).
📋 مثال:
شخصیت اصلی وارد اتاق میشود.
مکث کوتاه، سپس لبخند میزند.
دوربین آرام به سمت چپ پن میکند.
---
💬 ۴. دیالوگها
اگر گفتوگو در صحنه هست:
دیالوگها را کوتاه و طبیعی بنویسید.
با زمان ویدیو (مثلاً ۱۰ ثانیه) هماهنگ باشند.
---
🎧 ۵. صداهای پسزمینه
صداهای محیطی را اضافه کنید تا فضا واقعیتر شود.
🎵 مثال:
«صدای گامها روی چوب، زمزمه مردم و صدای بخار قهوهساز».
---
📄 نمونه ساختار پرامپت
📘 با این ساختار، خروجی ویدیوهای شما در Sora 2 دقیقتر، سینماییتر و واقعگرایانهتر خواهد بود.
@rss_ai_ir
#Sora2 #OpenAI #Prompting #VideoAI #هوش_مصنوعی #ویدیو
اگر میخواهید از مدل Sora 2 بهترین خروجی ویدیویی بگیرید، ساختار پرامپت باید دقیق و مرحلهبهمرحله باشد 🎥👇
---
🧩 ۱. توضیح کلی صحنه
🔹 صحنه را با زبان ساده توصیف کنید.
🔹 شخصیتها، لباسها، دکور، آبوهوا و جزئیات دیگر را بنویسید.
🔹 هرچه توصیف جزئیتر باشد، ویدیو دقیقتر مطابق تخیل شما ساخته میشود.
---
🎥 ۲. سینماتوگرافی (فیلمبرداری)
زاویه و نوع نما: مثل «نمای کلی در سطح چشم» یا «کلوزآپ با زاویه از پشت».
حال و هوا: «سینمایی و پرتنش»، «شاد و پرتحرک»، «احساس انتظار لوکس».
لنز و فیلتر: «لنز ۳۵ میلیمتری با فیلتر نرم CPL».
نور و پالت رنگ: «نور گرم از چراغ و بازتاب سرد از پنجره».
---
🕺 ۳. حرکات و اکشنها
حرکات را به صورت فهرست بنویسید.
هر حرکت را به یک لحظه زمانی مرتبط کنید (مثل فریم یا ثانیه خاص).
📋 مثال:
شخصیت اصلی وارد اتاق میشود.
مکث کوتاه، سپس لبخند میزند.
دوربین آرام به سمت چپ پن میکند.
---
💬 ۴. دیالوگها
اگر گفتوگو در صحنه هست:
دیالوگها را کوتاه و طبیعی بنویسید.
با زمان ویدیو (مثلاً ۱۰ ثانیه) هماهنگ باشند.
---
🎧 ۵. صداهای پسزمینه
صداهای محیطی را اضافه کنید تا فضا واقعیتر شود.
🎵 مثال:
«صدای گامها روی چوب، زمزمه مردم و صدای بخار قهوهساز».
---
📄 نمونه ساختار پرامپت
Scene Description:
یک کافه مدرن در شب؛ دختری با کت چرمی سیاه در حال نوشیدن قهوه کنار پنجرهای بارانی است.
Cinematography:
Camera shot: کلوزآپ از زاویه پایین
Mood: آرام و عاشقانه
Lens: لنز ۵۰ میلیمتری با عمق میدان کم
Lighting: نور گرم از داخل کافه و انعکاس نور خیابان
Actions:
- دختر فنجان قهوه را بالا میبرد
- لبخند میزند و به بیرون نگاه میکند
- باران روی شیشه میلغزد
Dialogue:
"شاید فردا روز بهتری باشه..."
Background Sound:
صدای باران، موسیقی ملایم جاز، و گفتوگوی آرام مشتریان
📘 با این ساختار، خروجی ویدیوهای شما در Sora 2 دقیقتر، سینماییتر و واقعگرایانهتر خواهد بود.
@rss_ai_ir
#Sora2 #OpenAI #Prompting #VideoAI #هوش_مصنوعی #ویدیو
❤1
⚡ FlashVSR —
ارتقای ویدیو در زمان واقعی بر پایهی دیفیوشن
پروژهی FlashVSR به هدف رسیدن به Super-Resolution ویدیوهای استریم در زمان واقعی طراحی شده است — نه بهترین، اما کاملاً متنباز و قابل استفاده برای همه 🔓
📦 کد منبع:
🔗 github.com/OpenImagingLab/FlashVSR
🧩 نودها برای ComfyUI:
🔗 github.com/smthemex/ComfyUI_FlashVSR
💡 ویژگیها و نکات فنی:
✳️مصرف حافظه بالا (مثل اکثر آپاسکیلرهای دیفیوشنی)
✳️مبتنی بر Block-Sparse Attention — ممکن است روی کارتهای گرافیکی ضعیف ناپایدار عمل کند
✳️کیفیت خروجی مناسب با تأکید بر سرعت پردازش
در مجموع، گزینهای عالی برای کسانی که دنبال راهحل متنباز ارتقای ویدیو با انعطاف بالا هستند.
#FlashVSR #AI #Upscaling #VideoAI #SuperResolution #OpenSource #MachineLearning #DiffusionModels #ComfyUI #DeepLearning #BlockSparseAttention
ارتقای ویدیو در زمان واقعی بر پایهی دیفیوشن
پروژهی FlashVSR به هدف رسیدن به Super-Resolution ویدیوهای استریم در زمان واقعی طراحی شده است — نه بهترین، اما کاملاً متنباز و قابل استفاده برای همه 🔓
📦 کد منبع:
🔗 github.com/OpenImagingLab/FlashVSR
🧩 نودها برای ComfyUI:
🔗 github.com/smthemex/ComfyUI_FlashVSR
💡 ویژگیها و نکات فنی:
✳️مصرف حافظه بالا (مثل اکثر آپاسکیلرهای دیفیوشنی)
✳️مبتنی بر Block-Sparse Attention — ممکن است روی کارتهای گرافیکی ضعیف ناپایدار عمل کند
✳️کیفیت خروجی مناسب با تأکید بر سرعت پردازش
در مجموع، گزینهای عالی برای کسانی که دنبال راهحل متنباز ارتقای ویدیو با انعطاف بالا هستند.
#FlashVSR #AI #Upscaling #VideoAI #SuperResolution #OpenSource #MachineLearning #DiffusionModels #ComfyUI #DeepLearning #BlockSparseAttention
👍1🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 Krea Realtime 14B —
مدل جدید متنبهویدیو با کدباز از Krea AI
مدل جدید Krea Realtime 14B با ۱۴ میلیارد پارامتر عرضه شد — بیش از ۱۰ برابر بزرگتر از اکثر مدلهای بلادرنگ (Realtime) فعلی.
⚙️ ویژگیها و نوآوریها:
🚀 سرعت بالا: تولید ویدیو با نرخ حدود ۱۱ فریم بر ثانیه با تنها ۴ مرحله استنتاج روی یک GPU از نوع NVIDIA B200.
🧩 فناوری Self-Forcing: این روش مدل دیفیوژنی ویدیو را به معماری خودبازگشتی (autoregressive) تبدیل میکند و باعث افزایش پایداری و کنترل میشود.
🎬 حالتها:
Text-to-Video (تبدیل متن به ویدیو)
Video-to-Video (تبدیل سبک ویدیو به ویدیو – هنوز در حال توسعه)
🎨 تعامل زنده: کاربر میتواند در حین تولید، پرامپت را تغییر دهد، سبک تصویر را عوض کند و اولین فریمها را در حدود ۱ ثانیه ببیند.
🔓 مجوز: Apache 2.0
📦 کد باز در HuggingFace:
👉 huggingface.co/krea/krea-realtime-video
#AI #TextToVideo #KreaAI #OpenSource #GenerativeAI #Realtime #VideoAI
مدل جدید متنبهویدیو با کدباز از Krea AI
مدل جدید Krea Realtime 14B با ۱۴ میلیارد پارامتر عرضه شد — بیش از ۱۰ برابر بزرگتر از اکثر مدلهای بلادرنگ (Realtime) فعلی.
⚙️ ویژگیها و نوآوریها:
🚀 سرعت بالا: تولید ویدیو با نرخ حدود ۱۱ فریم بر ثانیه با تنها ۴ مرحله استنتاج روی یک GPU از نوع NVIDIA B200.
🧩 فناوری Self-Forcing: این روش مدل دیفیوژنی ویدیو را به معماری خودبازگشتی (autoregressive) تبدیل میکند و باعث افزایش پایداری و کنترل میشود.
🎬 حالتها:
Text-to-Video (تبدیل متن به ویدیو)
Video-to-Video (تبدیل سبک ویدیو به ویدیو – هنوز در حال توسعه)
🎨 تعامل زنده: کاربر میتواند در حین تولید، پرامپت را تغییر دهد، سبک تصویر را عوض کند و اولین فریمها را در حدود ۱ ثانیه ببیند.
🔓 مجوز: Apache 2.0
📦 کد باز در HuggingFace:
👉 huggingface.co/krea/krea-realtime-video
#AI #TextToVideo #KreaAI #OpenSource #GenerativeAI #Realtime #VideoAI
🎬🤖 UniVA:
ایجنت هوشمند و متنباز برای پردازش و تولید ویدئو
ایجنت UniVA یک ایجنت ویدئویی چندعاملی (Multi-Agent) متنباز است که نسل جدیدی از هوش مصنوعی ویدئویی را هدف گرفته.
این سیستم میتواند کارهای پیچیده ویدئویی را در یک جریان واحد انجام دهد:
🟣 فهم و تحلیل ویدئو
🟣 ویرایش و Segmentation
🟣 ساخت و تولید ویدئو از متن/عکس/ویدئو
🟣 پردازش چندمرحلهای با برنامهریزی و اجرای خودکار (Plan-and-Act)
ایجنت UniVA با حافظه چندلایه و ارتباط بین ایجنتها میتواند فرآیندهای طولانی و پروژههای پیچیده ویدئویی را مدیریت کند.
📌 لینکها: 🔗 HuggingFace (پروژه):
https://huggingface.co/papers/2511.08521
📄 Paper:
https://arxiv.org/pdf/2511.08521
💻 GitHub:
https://github.com/univa-agent/univa
@rss_ai_ir
#هوش_مصنوعی #VideoAI #AgenticAI #UniVA #OpenSource #MultimodalAI
ایجنت هوشمند و متنباز برای پردازش و تولید ویدئو
ایجنت UniVA یک ایجنت ویدئویی چندعاملی (Multi-Agent) متنباز است که نسل جدیدی از هوش مصنوعی ویدئویی را هدف گرفته.
این سیستم میتواند کارهای پیچیده ویدئویی را در یک جریان واحد انجام دهد:
🟣 فهم و تحلیل ویدئو
🟣 ویرایش و Segmentation
🟣 ساخت و تولید ویدئو از متن/عکس/ویدئو
🟣 پردازش چندمرحلهای با برنامهریزی و اجرای خودکار (Plan-and-Act)
ایجنت UniVA با حافظه چندلایه و ارتباط بین ایجنتها میتواند فرآیندهای طولانی و پروژههای پیچیده ویدئویی را مدیریت کند.
📌 لینکها: 🔗 HuggingFace (پروژه):
https://huggingface.co/papers/2511.08521
📄 Paper:
https://arxiv.org/pdf/2511.08521
💻 GitHub:
https://github.com/univa-agent/univa
@rss_ai_ir
#هوش_مصنوعی #VideoAI #AgenticAI #UniVA #OpenSource #MultimodalAI
👍8😁7🎉6🔥5❤4🥰4👏2
This media is not supported in your browser
VIEW IN TELEGRAM
🎨 پلتفرم جدید Eleven Labs برای تصویر و ویدئو (Image & Video Beta)
شرکت ElevenLabs که بیشتر با نسل بعدی فناوری صدا و تبدیل گفتار شناخته میشود، حالا یک قدم بزرگ به سمت پلتفرمهای خلاقانه برداشته و تبدیل شده به یک Image & Video Creative Platform.
یعنی چه؟ یعنی از این پس در همان جایی که صدای طبیعی، دوبله، موسیقی و لیپسینک میساختید، حالا میتوانید تصویر و ویدئو هم بسازید.
🔥 مدلهای متصل به پلتفرم:
Veo 3 — Sora 2 — Kling — Wan — Seedance و چند موتور دیگر.
این یعنی رقابت مستقیم با Krea و Freepik؛ فقط فعلاً خبری از رابط نودگراف (Node Editor) نیست.
---
💡 چرا این حرکت ElevenLabs مهم است؟
دو نکته کلیدی که میتواند بازی را عوض کند:
1️⃣ اکوسیستم صوتی قدرتمند
سونو (Suno) و Udio فعلاً API عمومی ندارند.
اما ElevenLabs از قبل یک اکوسیستم صوتی کامل داشته:
🎧 مولد صدا
🎵 موسیقیساز
👄 لیپسینک پیشرفته
و حالا میتواند صدا + تصویر + ویدئو را یکپارچه کند؛ چیزی که Freepik و Krea فعلاً ندارند.
2️⃣ مونتاژ ویدئو (Video Studio 3.0)
پلتفرم ElevenLabs یک تدوینگر ویدئو و صدا داخل پلتفرمش دارد:
✂️ کوتاهسازی، ترکیب، تغییر صدا
🎬 احتمال آینده: بازتولید (regenerate) بخشی از ویدئو داخل تایملاین
این یعنی ورود به قلمرو Adobe، هرچند هنوز فاصله دارد.
---
🧪 لینک تست
https://elevenlabs.io/image-video
باید منتظر بمانیم تا قیمتها و توان واقعی این سرویس مشخص شود، اما اگر یک پلتفرم بتواند صدا + تصویر + ویدئو را یکجا با کیفیت بالا ارائه دهد، بازی تولید محتوای هوش مصنوعی وارد مرحلهی جدیدی میشود.
---
@rss_ai_ir
#هوش_مصنوعی #تولید_محتوا #ویدئو_ای_آی #تصویرسازی_هوش_مصنوعی #ElevenLabs #AI #VideoAI #ImageAI
شرکت ElevenLabs که بیشتر با نسل بعدی فناوری صدا و تبدیل گفتار شناخته میشود، حالا یک قدم بزرگ به سمت پلتفرمهای خلاقانه برداشته و تبدیل شده به یک Image & Video Creative Platform.
یعنی چه؟ یعنی از این پس در همان جایی که صدای طبیعی، دوبله، موسیقی و لیپسینک میساختید، حالا میتوانید تصویر و ویدئو هم بسازید.
🔥 مدلهای متصل به پلتفرم:
Veo 3 — Sora 2 — Kling — Wan — Seedance و چند موتور دیگر.
این یعنی رقابت مستقیم با Krea و Freepik؛ فقط فعلاً خبری از رابط نودگراف (Node Editor) نیست.
---
💡 چرا این حرکت ElevenLabs مهم است؟
دو نکته کلیدی که میتواند بازی را عوض کند:
1️⃣ اکوسیستم صوتی قدرتمند
سونو (Suno) و Udio فعلاً API عمومی ندارند.
اما ElevenLabs از قبل یک اکوسیستم صوتی کامل داشته:
🎧 مولد صدا
🎵 موسیقیساز
👄 لیپسینک پیشرفته
و حالا میتواند صدا + تصویر + ویدئو را یکپارچه کند؛ چیزی که Freepik و Krea فعلاً ندارند.
2️⃣ مونتاژ ویدئو (Video Studio 3.0)
پلتفرم ElevenLabs یک تدوینگر ویدئو و صدا داخل پلتفرمش دارد:
✂️ کوتاهسازی، ترکیب، تغییر صدا
🎬 احتمال آینده: بازتولید (regenerate) بخشی از ویدئو داخل تایملاین
این یعنی ورود به قلمرو Adobe، هرچند هنوز فاصله دارد.
---
🧪 لینک تست
https://elevenlabs.io/image-video
باید منتظر بمانیم تا قیمتها و توان واقعی این سرویس مشخص شود، اما اگر یک پلتفرم بتواند صدا + تصویر + ویدئو را یکجا با کیفیت بالا ارائه دهد، بازی تولید محتوای هوش مصنوعی وارد مرحلهی جدیدی میشود.
---
@rss_ai_ir
#هوش_مصنوعی #تولید_محتوا #ویدئو_ای_آی #تصویرسازی_هوش_مصنوعی #ElevenLabs #AI #VideoAI #ImageAI
🔥7👏7❤5👍5😁5🥰4🎉3
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️🌩️ Time-to-Move —
فریمورک جدید برای کنترل حرکت در ویدئوهای مولد 🌩️⚡️
پژوهش مشترک Technion + Nvidia معرفی کرد:
🌀 فریم ورکTime-to-Move (TTM) — یک فریمورک بدون نیاز به آموزش و کاملاً Plug-and-Play برای کنترل حرکت و ظاهر در مدلهای تولید ویدئو I2V مثل:
Wan 2.2
CogVideoX
Stable Video Diffusion
فریم ورکTTM اجازه میدهد حرکت، ریتم، مسیر، و ظاهر سوژه در ویدئو بهطور دقیق کنترل شود — آن هم بدون اینکه مدل دوباره آموزش ببیند. نتایج واقعاً چشمگیرند.
🔗 Paper: https://lnkd.in/dxD3uHYb
🔗 Project: https://lnkd.in/dcE5juyM
🔗 Repo: https://lnkd.in/dMMUjybJ
---
#VideoAI #DiffusionModels #TTM #Nvidia #Technion #AIGeneration
@rss_ai_ir
فریمورک جدید برای کنترل حرکت در ویدئوهای مولد 🌩️⚡️
پژوهش مشترک Technion + Nvidia معرفی کرد:
🌀 فریم ورکTime-to-Move (TTM) — یک فریمورک بدون نیاز به آموزش و کاملاً Plug-and-Play برای کنترل حرکت و ظاهر در مدلهای تولید ویدئو I2V مثل:
Wan 2.2
CogVideoX
Stable Video Diffusion
فریم ورکTTM اجازه میدهد حرکت، ریتم، مسیر، و ظاهر سوژه در ویدئو بهطور دقیق کنترل شود — آن هم بدون اینکه مدل دوباره آموزش ببیند. نتایج واقعاً چشمگیرند.
🔗 Paper: https://lnkd.in/dxD3uHYb
🔗 Project: https://lnkd.in/dcE5juyM
🔗 Repo: https://lnkd.in/dMMUjybJ
---
#VideoAI #DiffusionModels #TTM #Nvidia #Technion #AIGeneration
@rss_ai_ir
🥰1👏1