VIRSUN

🔥
مجموعه‌داده ۲۱,۰۰۰+ ساعت
SpatialVID 🔥

📌دیتابیس SpatialVID یک دیتاست ویدیویی بزرگ‌مقیاس با حاشیه‌نویسی‌های مکانی صریح است که شامل:
🔹 موقعیت‌های دوربین (Camera Poses)
🔹 نقشه‌های عمق (Depth Maps)
🔹 کپشن‌های ساختاریافته
🔹 دستورالعمل‌های حرکتی سریالی

🎥 این مجموعه شامل ۷,۰۸۹ ساعت صحنه‌های پویا در دنیای واقعی است و برای وظایف درک صحنه، بازسازی سه‌بعدی، ویدیو-به-متن و مدل‌سازی حرکت بسیار ارزشمند محسوب می‌شود.

📂 مجوز: Apache-2.0 (کاملاً متن‌باز)

🔗 مقاله: arxiv.org/pdf/2509.09676
🔗 پروژه: nju-3dv.github.io/projects/SpatialVID
🔗 کد: github.com/NJU-3DV/spatialVID

@rss_ai_ir

#Dataset #ComputerVision #VideoAI #SpatialVID #3D #AI #OpenSource

❤9🎉7🔥4😁3

322 views12:30

VIRSUN

🎥🧠 ویدئو-مدل‌ها وارد دنیای Chain-of-Frames شدند!

مدل‌های مولد ویدئو (مثل Veo 3) حالا فقط تصویر نمی‌سازند – آن‌ها می‌توانند مستقیماً روی فریم‌ها فکر کنند و پاسخ را رسم کنند.

🔹 پژوهش جدید نشان داد که حتی بدون فاین‌تیونینگ، یک مدل ویدئویی بزرگ می‌تواند:

✳️مسائل کلاسیک بینایی ماشین (مرزبندی، سگمنتیشن، بهبود تصویر)
✳️و حتی پازل‌های بصری ساده (مثل ماز و تقارن)
را فقط با یک پرامپت درست حل کند.

📌 نکته طلایی: به مدل نقش بدهید و فرمت خروجی را مشخص کنید.
مثال‌ها:

🌀 Maze:
مسیر کوتاه از START به GOAL را قرمز با ضخامت ۳ پیکسل بکش.

👤 Segmentation:
فقط فرد را با لایه نیمه‌شفاف پر کن.

🎬 Background removal:
پس‌زمینه خاکستری یکنواخت، بدون هاله دور مو.

🌍🌙 Physics:
دو نسخه زمین (9.81 m/s²) و ماه (1.62 m/s²) کنار هم نشان بده.

🔧 Deblur/Denoise:
وضوح را زیاد کن، بدون صاف‌کردن بیش‌ازحد.

You are a video analyst. Solve the task and DRAW the answer ON TOP of frames.

Maze: draw the shortest valid path in RED, thickness 3 px, unbroken line from START to GOAL.

Segmentation: fill ONLY the person with a semi-transparent overlay; keep everything else unchanged.

Background removal: keep the subject; replace background with uniform gray; avoid halos around hair.

Physics: render two variants side-by-side labeled “Earth (9.81 m/s^2)” and “Moon (1.62 m/s^2)”; show motion difference.

Deblur/denoise: increase sharpness while preserving faces; avoid over-smoothing and ringing artifacts.

✨ نتیجه: ویدئو-مدل‌ها مثل LLMها می‌توانند zero-shot کار کنند، کافی است بگویید: «حل کن و روی فریم رسم کن».

📎 سایت مقاله با مثال‌های تصویری پر از دموهای خفن است.
https://video-zero-shot.github.io/

@rss_ai_ir

#AI #VideoAI #GenerativeAI #ChainOfFrames #ComputerVision

❤1👍1🙏1

1.2K views16:09

VIRSUN

🎬 راهنمای رسمی پرامپت‌نویسی برای Sora 2 از OpenAI

اگر می‌خواهید از مدل Sora 2 بهترین خروجی ویدیویی بگیرید، ساختار پرامپت باید دقیق و مرحله‌به‌مرحله باشد 🎥👇

---

🧩 ۱. توضیح کلی صحنه

🔹 صحنه را با زبان ساده توصیف کنید.
🔹 شخصیت‌ها، لباس‌ها، دکور، آب‌وهوا و جزئیات دیگر را بنویسید.
🔹 هرچه توصیف جزئی‌تر باشد، ویدیو دقیق‌تر مطابق تخیل شما ساخته می‌شود.

---

🎥 ۲. سینماتوگرافی (فیلم‌برداری)

زاویه و نوع نما: مثل «نمای کلی در سطح چشم» یا «کلوزآپ با زاویه از پشت».

حال و هوا: «سینمایی و پرتنش»، «شاد و پرتحرک»، «احساس انتظار لوکس».

لنز و فیلتر: «لنز ۳۵ میلی‌متری با فیلتر نرم CPL».

نور و پالت رنگ: «نور گرم از چراغ و بازتاب سرد از پنجره».

---

🕺 ۳. حرکات و اکشن‌ها

حرکات را به صورت فهرست بنویسید.

هر حرکت را به یک لحظه زمانی مرتبط کنید (مثل فریم یا ثانیه خاص).

📋 مثال:

شخصیت اصلی وارد اتاق می‌شود.

مکث کوتاه، سپس لبخند می‌زند.

دوربین آرام به سمت چپ پن می‌کند.

---

💬 ۴. دیالوگ‌ها

اگر گفت‌وگو در صحنه هست:

دیالوگ‌ها را کوتاه و طبیعی بنویسید.

با زمان ویدیو (مثلاً ۱۰ ثانیه) هماهنگ باشند.

---

🎧 ۵. صداهای پس‌زمینه

صداهای محیطی را اضافه کنید تا فضا واقعی‌تر شود.
🎵 مثال:
«صدای گام‌ها روی چوب، زمزمه مردم و صدای بخار قهوه‌ساز».

---

📄 نمونه ساختار پرامپت

Scene Description:
یک کافه مدرن در شب؛ دختری با کت چرمی سیاه در حال نوشیدن قهوه کنار پنجره‌ای بارانی است.

Cinematography:
Camera shot: کلوزآپ از زاویه پایین
Mood: آرام و عاشقانه
Lens: لنز ۵۰ میلی‌متری با عمق میدان کم
Lighting: نور گرم از داخل کافه و انعکاس نور خیابان

Actions:
- دختر فنجان قهوه را بالا می‌برد
- لبخند می‌زند و به بیرون نگاه می‌کند
- باران روی شیشه می‌لغزد

Dialogue:
"شاید فردا روز بهتری باشه..."

Background Sound:
صدای باران، موسیقی ملایم جاز، و گفت‌وگوی آرام مشتریان

📘 با این ساختار، خروجی ویدیوهای شما در Sora 2 دقیق‌تر، سینمایی‌تر و واقع‌گرایانه‌تر خواهد بود.

@rss_ai_ir
#Sora2 #OpenAI #Prompting #VideoAI #هوش_مصنوعی #ویدیو

❤1

1.46K views07:36

VIRSUN

⚡ FlashVSR —
ارتقای ویدیو در زمان واقعی بر پایه‌ی دیفیوشن

پروژه‌ی FlashVSR به هدف رسیدن به Super-Resolution ویدیوهای استریم در زمان واقعی طراحی شده است — نه بهترین، اما کاملاً متن‌باز و قابل استفاده برای همه 🔓

📦 کد منبع:

🔗 github.com/OpenImagingLab/FlashVSR

🧩 نودها برای ComfyUI:

🔗 github.com/smthemex/ComfyUI_FlashVSR

💡 ویژگی‌ها و نکات فنی:

✳️مصرف حافظه بالا (مثل اکثر آپ‌اسکیلرهای دیفیوشنی)

✳️مبتنی بر Block-Sparse Attention — ممکن است روی کارت‌های گرافیکی ضعیف ناپایدار عمل کند

✳️کیفیت خروجی مناسب با تأکید بر سرعت پردازش

در مجموع، گزینه‌ای عالی برای کسانی که دنبال راه‌حل متن‌باز ارتقای ویدیو با انعطاف بالا هستند.

#FlashVSR #AI #Upscaling #VideoAI #SuperResolution #OpenSource #MachineLearning #DiffusionModels #ComfyUI #DeepLearning #BlockSparseAttention

👍1🔥1👏1

2.7K viewsedited 14:24

VIRSUN

0:13

This media is not supported in your browser

VIEW IN TELEGRAM

🎥 Krea Realtime 14B —
مدل جدید متن‌به‌ویدیو با کدباز از Krea AI

مدل جدید Krea Realtime 14B با ۱۴ میلیارد پارامتر عرضه شد — بیش از ۱۰ برابر بزرگ‌تر از اکثر مدل‌های بلادرنگ (Realtime) فعلی.

⚙️ ویژگی‌ها و نوآوری‌ها:

🚀 سرعت بالا: تولید ویدیو با نرخ حدود ۱۱ فریم بر ثانیه با تنها ۴ مرحله استنتاج روی یک GPU از نوع NVIDIA B200.

🧩 فناوری Self-Forcing: این روش مدل دیفیوژنی ویدیو را به معماری خودبازگشتی (autoregressive) تبدیل می‌کند و باعث افزایش پایداری و کنترل می‌شود.

🎬 حالت‌ها:

Text-to-Video (تبدیل متن به ویدیو)

Video-to-Video (تبدیل سبک ویدیو به ویدیو – هنوز در حال توسعه)

🎨 تعامل زنده: کاربر می‌تواند در حین تولید، پرامپت را تغییر دهد، سبک تصویر را عوض کند و اولین فریم‌ها را در حدود ۱ ثانیه ببیند.

🔓 مجوز: Apache 2.0
📦 کد باز در HuggingFace:
👉 huggingface.co/krea/krea-realtime-video

#AI #TextToVideo #KreaAI #OpenSource #GenerativeAI #Realtime #VideoAI

324 views03:44

VIRSUN

🎬🤖 UniVA:
ایجنت هوشمند و متن‌باز برای پردازش و تولید ویدئو

ایجنت UniVA یک ایجنت ویدئویی چندعاملی (Multi-Agent) متن‌باز است که نسل جدیدی از هوش مصنوعی ویدئویی را هدف گرفته.
این سیستم می‌تواند کارهای پیچیده ویدئویی را در یک جریان واحد انجام دهد:

🟣 فهم و تحلیل ویدئو
🟣 ویرایش و Segmentation
🟣 ساخت و تولید ویدئو از متن/عکس/ویدئو
🟣 پردازش چندمرحله‌ای با برنامه‌ریزی و اجرای خودکار (Plan-and-Act)

ایجنت UniVA با حافظه چندلایه و ارتباط بین ایجنت‌ها می‌تواند فرآیندهای طولانی و پروژه‌های پیچیده ویدئویی را مدیریت کند.

📌 لینک‌ها: 🔗 HuggingFace (پروژه):
https://huggingface.co/papers/2511.08521

📄 Paper:
https://arxiv.org/pdf/2511.08521

💻 GitHub:
https://github.com/univa-agent/univa

@rss_ai_ir
#هوش_مصنوعی #VideoAI #AgenticAI #UniVA #OpenSource #MultimodalAI

👍8😁7🎉6🔥5❤4🥰4👏2

1.2K viewsedited 16:14

VIRSUN

0:48

This media is not supported in your browser

VIEW IN TELEGRAM

🎨 پلتفرم جدید Eleven Labs برای تصویر و ویدئو (Image & Video Beta)

شرکت ElevenLabs که بیشتر با نسل بعدی فناوری صدا و تبدیل گفتار شناخته می‌شود، حالا یک قدم بزرگ به سمت پلتفرم‌های خلاقانه برداشته و تبدیل شده به یک Image & Video Creative Platform.

یعنی چه؟ یعنی از این‌ پس در همان جایی که صدای طبیعی، دوبله، موسیقی و لیپ‌سینک می‌ساختید، حالا می‌توانید تصویر و ویدئو هم بسازید.

🔥 مدل‌های متصل به پلتفرم:
Veo 3 — Sora 2 — Kling — Wan — Seedance و چند موتور دیگر.

این یعنی رقابت مستقیم با Krea و Freepik؛ فقط فعلاً خبری از رابط نودگراف (Node Editor) نیست.

---

💡 چرا این حرکت ElevenLabs مهم است؟

دو نکته کلیدی که می‌تواند بازی را عوض کند:

1️⃣ اکوسیستم صوتی قدرتمند

سونو (Suno) و Udio فعلاً API عمومی ندارند.
اما ElevenLabs از قبل یک اکوسیستم صوتی کامل داشته:
🎧 مولد صدا
🎵 موسیقی‌ساز
👄 لیپ‌سینک پیشرفته
و حالا می‌تواند صدا + تصویر + ویدئو را یکپارچه کند؛ چیزی که Freepik و Krea فعلاً ندارند.

2️⃣ مونتاژ ویدئو (Video Studio 3.0)

پلتفرم ElevenLabs یک تدوینگر ویدئو و صدا داخل پلتفرمش دارد:
✂️ کوتاه‌سازی، ترکیب، تغییر صدا
🎬 احتمال آینده: بازتولید (regenerate) بخشی از ویدئو داخل تایم‌لاین

این یعنی ورود به قلمرو Adobe، هرچند هنوز فاصله دارد.

---

🧪 لینک تست

https://elevenlabs.io/image-video

باید منتظر بمانیم تا قیمت‌ها و توان واقعی این سرویس مشخص شود، اما اگر یک پلتفرم بتواند صدا + تصویر + ویدئو را یک‌جا با کیفیت بالا ارائه دهد، بازی تولید محتوای هوش مصنوعی وارد مرحله‌ی جدیدی می‌شود.

---

@rss_ai_ir
#هوش_مصنوعی #تولید_محتوا #ویدئو_ای_آی #تصویرسازی_هوش_مصنوعی #ElevenLabs #AI #VideoAI #ImageAI

🔥7👏7❤5👍5😁5🥰4🎉3

287 views14:14

VIRSUN

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️🌩️ Time-to-Move —
فریم‌ورک جدید برای کنترل حرکت در ویدئوهای مولد 🌩️⚡️

پژوهش مشترک Technion + Nvidia معرفی کرد:
🌀 فریم ورکTime-to-Move (TTM) — یک فریم‌ورک بدون نیاز به آموزش و کاملاً Plug-and-Play برای کنترل حرکت و ظاهر در مدل‌های تولید ویدئو I2V مثل:

Wan 2.2
CogVideoX
Stable Video Diffusion

فریم ورکTTM اجازه می‌دهد حرکت، ریتم، مسیر، و ظاهر سوژه در ویدئو به‌طور دقیق کنترل شود — آن هم بدون اینکه مدل دوباره آموزش ببیند. نتایج واقعاً چشمگیرند.
🔗 Paper: https://lnkd.in/dxD3uHYb
🔗 Project: https://lnkd.in/dcE5juyM
🔗 Repo: https://lnkd.in/dMMUjybJ

---

#VideoAI #DiffusionModels #TTM #Nvidia #Technion #AIGeneration
@rss_ai_ir

🥰1👏1

1.12K views09:49

About

Blog

Apps

Platform