🎬 نسل جدید ویدئوهای طولانی با روش Mixture of Contexts
محققان ByteDance و استنفورد روشی نوین برای تولید ویدئوهای طولانی معرفی کردهاند که مشکل اصلی مدلها را حل میکند:
وقتی ویدئو طولانی میشود، توجه مدل بیش از حد «پف میکند»؛ محاسبات سنگینتر میشود، جزئیات از بین میرود، کاراکترها فراموش میشوند و تصویر «سر میخورد».
---
🔑 ایده اصلی: Mixture of Contexts
♻️ویدئو به چند بخش (فریم، شات، کپشن) تقسیم میشود.
♻️هر کوئری فقط بخشهای مرتبط را انتخاب میکند، نه کل تاریخچه را.
♻️انتخاب با یک امتیاز شباهت ساده انجام میشود (مقایسه ویژگی بخشها با کوئری).
♻️دو «لنگر» همیشه حاضرند: پرامپت کامل و شات محلی برای جزئیات تصویری.
♻️یک ماسک علّی دسترسی به فریمهای آینده را میبندد تا حلقه ایجاد نشود.
♻️در نهایت، Flash Attention فقط روی بخشهای انتخابشده اعمال میشود → رشد محاسبات وابسته به طول کل ویدئو نیست، بلکه فقط به محتوای مفید بستگی دارد.
---
📊 نتایج
♻️۷ برابر کاهش FLOPs
♻️۲.۲ برابر سرعت بیشتر
♻️در صحنههای طولانی (۱۸۰هزار توکن)، ۸۵٪ از توجه غیرضروری حذف شد.
---
🎥 جمعبندی
✳️در ویدئوهای کوتاه، کیفیت حفظ میشود.
✳️در ویدئوهای طولانی، صحنهها روانتر و کاراکترها پایدارتر هستند.
✳️زمان تولید بهطور محسوسی کاهش مییابد.
🔑 نکته مهم:
مدل خودش یاد میگیرد روی چه چیزی تمرکز کند، بدون نیاز به تغییر معماری پایه؛ یعنی نوعی «حافظه» برای چند دقیقه ویدئو پیدا میکند.
🔖 لینک مقاله
#AI #ML #VideoGeneration #ByteDance #Stanford #DeepLearning #GenerativeAI #هوش_مصنوعی #یادگیری_عمیق #ویدئو #تولید_ویدئو
محققان ByteDance و استنفورد روشی نوین برای تولید ویدئوهای طولانی معرفی کردهاند که مشکل اصلی مدلها را حل میکند:
وقتی ویدئو طولانی میشود، توجه مدل بیش از حد «پف میکند»؛ محاسبات سنگینتر میشود، جزئیات از بین میرود، کاراکترها فراموش میشوند و تصویر «سر میخورد».
---
🔑 ایده اصلی: Mixture of Contexts
♻️ویدئو به چند بخش (فریم، شات، کپشن) تقسیم میشود.
♻️هر کوئری فقط بخشهای مرتبط را انتخاب میکند، نه کل تاریخچه را.
♻️انتخاب با یک امتیاز شباهت ساده انجام میشود (مقایسه ویژگی بخشها با کوئری).
♻️دو «لنگر» همیشه حاضرند: پرامپت کامل و شات محلی برای جزئیات تصویری.
♻️یک ماسک علّی دسترسی به فریمهای آینده را میبندد تا حلقه ایجاد نشود.
♻️در نهایت، Flash Attention فقط روی بخشهای انتخابشده اعمال میشود → رشد محاسبات وابسته به طول کل ویدئو نیست، بلکه فقط به محتوای مفید بستگی دارد.
---
📊 نتایج
♻️۷ برابر کاهش FLOPs
♻️۲.۲ برابر سرعت بیشتر
♻️در صحنههای طولانی (۱۸۰هزار توکن)، ۸۵٪ از توجه غیرضروری حذف شد.
---
🎥 جمعبندی
✳️در ویدئوهای کوتاه، کیفیت حفظ میشود.
✳️در ویدئوهای طولانی، صحنهها روانتر و کاراکترها پایدارتر هستند.
✳️زمان تولید بهطور محسوسی کاهش مییابد.
🔑 نکته مهم:
مدل خودش یاد میگیرد روی چه چیزی تمرکز کند، بدون نیاز به تغییر معماری پایه؛ یعنی نوعی «حافظه» برای چند دقیقه ویدئو پیدا میکند.
🔖 لینک مقاله
#AI #ML #VideoGeneration #ByteDance #Stanford #DeepLearning #GenerativeAI #هوش_مصنوعی #یادگیری_عمیق #ویدئو #تولید_ویدئو
🎉26👍25❤23🥰23😁22🔥18👏16
🚀 Higgsfield و UGC Factory:
انقلاب در ساخت ویدیوهای کاربرمحور 🎥✨
هایگزفیلد دوباره برگشته با محصولی تازه به نام UGC Factory که بر پایهی Nano Banana و Veo 3 ساخته شده.
🔹 چیزی که این تیم رو خاص میکنه، اینه که همیشه محصولاتشون رو زود روی کاربرها تست میکنن و به جای تمرکز صرف روی مدل، بیشتر روی خروجی واقعی و تجربهی کاربر کار میکنن.
🔹 از اون طرف، منتقدها میگن که از مدلهای اصلی Higgsfield تقریباً چیزی باقی نمونده و بیشتر شبیه به تجمیعکننده API برای ژنراتورها شدن. (البته نباید فراموش کرد که محصول قبلیشون، Speak 2.0، موفقیت خوبی داشت).
🟢 اما برگردیم به UGC Factory:
ایده اینه که ساخت ویدیوهای تبلیغاتی یا تیکتاکمانند رو به سادهترین حالت برسونه:
1️⃣ انتخاب مدل و محصول/شیء
2️⃣ تولید ۴ تصویر با Nano Banana 🍌
3️⃣ اضافه کردن حرکت (Action)
4️⃣ انتخاب یا اضافه کردن صدا 🎶
5️⃣ انتخاب سبکهای صوتی (Audio styles)
6️⃣ افزودن پسزمینه مناسب
🎯 بدون نیاز به پرامپتهای طولانی یا تنظیمات پیچیده. فقط چند کلیک و خروجی آماده!
📌 لینک تست: Higgsfield UGC Factory
@rss_ai_ir
#AI #UGC #NanoBanana #Veo3 #Higgsfield #VideoGeneration
انقلاب در ساخت ویدیوهای کاربرمحور 🎥✨
هایگزفیلد دوباره برگشته با محصولی تازه به نام UGC Factory که بر پایهی Nano Banana و Veo 3 ساخته شده.
🔹 چیزی که این تیم رو خاص میکنه، اینه که همیشه محصولاتشون رو زود روی کاربرها تست میکنن و به جای تمرکز صرف روی مدل، بیشتر روی خروجی واقعی و تجربهی کاربر کار میکنن.
🔹 از اون طرف، منتقدها میگن که از مدلهای اصلی Higgsfield تقریباً چیزی باقی نمونده و بیشتر شبیه به تجمیعکننده API برای ژنراتورها شدن. (البته نباید فراموش کرد که محصول قبلیشون، Speak 2.0، موفقیت خوبی داشت).
🟢 اما برگردیم به UGC Factory:
ایده اینه که ساخت ویدیوهای تبلیغاتی یا تیکتاکمانند رو به سادهترین حالت برسونه:
1️⃣ انتخاب مدل و محصول/شیء
2️⃣ تولید ۴ تصویر با Nano Banana 🍌
3️⃣ اضافه کردن حرکت (Action)
4️⃣ انتخاب یا اضافه کردن صدا 🎶
5️⃣ انتخاب سبکهای صوتی (Audio styles)
6️⃣ افزودن پسزمینه مناسب
🎯 بدون نیاز به پرامپتهای طولانی یا تنظیمات پیچیده. فقط چند کلیک و خروجی آماده!
📌 لینک تست: Higgsfield UGC Factory
@rss_ai_ir
#AI #UGC #NanoBanana #Veo3 #Higgsfield #VideoGeneration
❤13👍11🔥10👏10😁9🎉7🥰6
This media is not supported in your browser
VIEW IN TELEGRAM
🐙 ویدیوهای انسانمحور با دقت بالا 🐙
محققان دانشگاه Tsinghua و شرکت ByteDance فریمورک جدیدی به نام HuMo معرفی کردند؛ سیستمی یکپارچه برای تولید ویدیوهای انسان با کیفیت بالا که ویژگیهای زیر رو داره:
🔹 تولید ویدیو از روی پرامپت متنی
🔹 حفظ یکپارچگی سوژه در فریمهای مختلف
🔹 حرکتهای هماهنگشده با صدا (Audio-Driven Motion)
🔹 کنترلپذیری و جزئیات ظریف در خروجی
📌 فریم ورک HuMo میتونه از ورودیهای چندحالته (متن، تصویر، صدا) ویدیوهای طبیعی و روان تولید کنه.
📌 سورسکد با لایسنس Apache 2.0 منتشر شده و به راحتی قابل استفاده و توسعه است.
🔗 لینکها:
👉 Paper
👉 Project
👉 Repo
#HuMo #VideoGeneration #AI #DeepLearning #Tsinghua #ByteDance
محققان دانشگاه Tsinghua و شرکت ByteDance فریمورک جدیدی به نام HuMo معرفی کردند؛ سیستمی یکپارچه برای تولید ویدیوهای انسان با کیفیت بالا که ویژگیهای زیر رو داره:
🔹 تولید ویدیو از روی پرامپت متنی
🔹 حفظ یکپارچگی سوژه در فریمهای مختلف
🔹 حرکتهای هماهنگشده با صدا (Audio-Driven Motion)
🔹 کنترلپذیری و جزئیات ظریف در خروجی
📌 فریم ورک HuMo میتونه از ورودیهای چندحالته (متن، تصویر، صدا) ویدیوهای طبیعی و روان تولید کنه.
📌 سورسکد با لایسنس Apache 2.0 منتشر شده و به راحتی قابل استفاده و توسعه است.
🔗 لینکها:
👉 Paper
👉 Project
👉 Repo
#HuMo #VideoGeneration #AI #DeepLearning #Tsinghua #ByteDance
❤12🔥11🥰10👏8👍5🎉5😁4
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 Lucy
تازهترین محصول تیم Decart.ai معرفی شد: генератор ویدیویی Lucy که سرعت بالایی دارد و توجه زیادی جلب کرده است.
🔹 نسخه اصلی با ۱۴ میلیارد پارامتر عرضه شده (نسخه سبکتر ۵B هم وجود دارد).
🔹 سرعت: تولید یک ویدئو ۵ ثانیهای در حدود ۱۲ ثانیه — ادعا ۶ ثانیه است، اما همین هم در مقایسه عالی محسوب میشود.
🔹 کیفیت خروجی: ۷۲۰p
🔹 طول ویدئو: فعلاً در Fal.ai فقط ۵ ثانیه (برخی منابع از ۱۰ ثانیه خبر دادهاند).
🔹 هزینه: ۰.۰۸ دلار به ازای هر ثانیه تولید
💡 نکته مهم: این مدل اپنسورس نیست و فعلاً فقط روی Fal.ai در دسترس است.
اگر بخواهیم با Wan مقایسه کنیم، تفاوت سرعت قابل توجه است (۱۲ ثانیه در مقابل ۶۸ ثانیه)، اما در کیفیت هنوز جای بحث وجود دارد.
👾 جالب اینکه Decart.ai اخیراً Mirage (ژنراتور ریلتایم دنیاها) و Oasis 2.0 (ژنراتور دنیای Minecraft) را هم معرفی کرده بود — نشانهای که احتمالاً مسیر آینده ترکیب «ژنراتورهای دنیا» و «ژنراتورهای ویدیو» خواهد بود (مشابه Veo و Genie از گوگل).
🔗 تست در Lucy Playground
🔗 معرفی رسمی: Decart.ai
@rss_ai_ir
---
#Lucy #AI #VideoGeneration #Decart #FalAI #GenerativeAI #cgevent
تازهترین محصول تیم Decart.ai معرفی شد: генератор ویدیویی Lucy که سرعت بالایی دارد و توجه زیادی جلب کرده است.
🔹 نسخه اصلی با ۱۴ میلیارد پارامتر عرضه شده (نسخه سبکتر ۵B هم وجود دارد).
🔹 سرعت: تولید یک ویدئو ۵ ثانیهای در حدود ۱۲ ثانیه — ادعا ۶ ثانیه است، اما همین هم در مقایسه عالی محسوب میشود.
🔹 کیفیت خروجی: ۷۲۰p
🔹 طول ویدئو: فعلاً در Fal.ai فقط ۵ ثانیه (برخی منابع از ۱۰ ثانیه خبر دادهاند).
🔹 هزینه: ۰.۰۸ دلار به ازای هر ثانیه تولید
💡 نکته مهم: این مدل اپنسورس نیست و فعلاً فقط روی Fal.ai در دسترس است.
اگر بخواهیم با Wan مقایسه کنیم، تفاوت سرعت قابل توجه است (۱۲ ثانیه در مقابل ۶۸ ثانیه)، اما در کیفیت هنوز جای بحث وجود دارد.
👾 جالب اینکه Decart.ai اخیراً Mirage (ژنراتور ریلتایم دنیاها) و Oasis 2.0 (ژنراتور دنیای Minecraft) را هم معرفی کرده بود — نشانهای که احتمالاً مسیر آینده ترکیب «ژنراتورهای دنیا» و «ژنراتورهای ویدیو» خواهد بود (مشابه Veo و Genie از گوگل).
🔗 تست در Lucy Playground
🔗 معرفی رسمی: Decart.ai
@rss_ai_ir
---
#Lucy #AI #VideoGeneration #Decart #FalAI #GenerativeAI #cgevent
😁10👍5🔥5❤3🎉3
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 ورزش سنگین در Sora!
مدل ویدیوساز Sora وارد مرحلهی جدیدی شده — صحنههایی که فیزیک را تقریباً درست شبیهسازی میکنند... تا وقتی که یک هالتر وسط هوا میماند 😅
حرکات آهسته، نور واقعگرایانه و جزئیات بدن شگفتانگیز است، اما هنوز مغز حس میکند چیزی طبیعی نیست — مثل وزنهبرداری در دنیای خواب!
🧠 نکته جالب اینکه مدلهایی مثل Sora یا Veo واقعاً دارند فیزیک را یاد میگیرند:
وزن، شتاب، گشتاور و برخورد اجسام — بدون هیچ دادهی واقعی، فقط از روی تصویر.
نتیجه؟
🔹 ویدیوهایی خیرهکننده
🔹 اما هنوز با منطق فیزیکیِ کمی اشتباه!
📌 خلاصه:
همچنین AI هنوز قوانین نیوتن را کامل بلد نیست... ولی بهطرز خطرناکی دارد نزدیک میشود ⚙️
@rss_ai_ir
#Sora #هوش_مصنوعی #ویدیوژنراتور #AI #VideoGeneration #DeepLearning
مدل ویدیوساز Sora وارد مرحلهی جدیدی شده — صحنههایی که فیزیک را تقریباً درست شبیهسازی میکنند... تا وقتی که یک هالتر وسط هوا میماند 😅
حرکات آهسته، نور واقعگرایانه و جزئیات بدن شگفتانگیز است، اما هنوز مغز حس میکند چیزی طبیعی نیست — مثل وزنهبرداری در دنیای خواب!
🧠 نکته جالب اینکه مدلهایی مثل Sora یا Veo واقعاً دارند فیزیک را یاد میگیرند:
وزن، شتاب، گشتاور و برخورد اجسام — بدون هیچ دادهی واقعی، فقط از روی تصویر.
نتیجه؟
🔹 ویدیوهایی خیرهکننده
🔹 اما هنوز با منطق فیزیکیِ کمی اشتباه!
📌 خلاصه:
همچنین AI هنوز قوانین نیوتن را کامل بلد نیست... ولی بهطرز خطرناکی دارد نزدیک میشود ⚙️
@rss_ai_ir
#Sora #هوش_مصنوعی #ویدیوژنراتور #AI #VideoGeneration #DeepLearning
😁4👍2🤣1
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 StreamDiffusionV2 —
نسل جدید ویدیوهای تعاملی در زمان واقعی!
❌پروژهی StreamDiffusion به نسخهی دوم رسیده و حالا یک سیستم متنباز برای تولید ویدیوهای تعاملی بهصورت Real-Time است.
❌هدف تیم توسعهدهنده: رسیدن به تعادلی بین سرعت بالا و کیفیت بصری قابلقبول ✨
🚀 ویژگیهای کلیدی:
♻️کاهش قابلتوجه flickering و boiling artifacts در ویدیوهای دیفیوژنی
♻️پشتیبانی از GPUهای متنوع و ساختار مقیاسپذیر
♻️امکان تنظیم تعداد مراحل denoising برای کنترل بهتر جزئیات
♻️تولید ویدیو با نرخ فریم بالا (High FPS) مناسب برای استریم، ولاگ و پلتفرمهای محتوایی
🎮 در واقع، StreamDiffusionV2 را میتوان نوعی Performance Animation Real-Time مدرن دانست — نسل جدیدی از ویدیو بهکمک AI که مستقیماً از جریان ورودی، خروجی زنده میسازد.
📦 کد منبع:
🔗 github.com/chenfengxu714/StreamDiffusionV2
🌐 صفحهی پروژه:
🔗 streamdiffusionv2.github.io
@rss_ai_ir
#AI #StreamDiffusionV2 #VideoGeneration #RealTimeAI #DiffusionModels
نسل جدید ویدیوهای تعاملی در زمان واقعی!
❌پروژهی StreamDiffusion به نسخهی دوم رسیده و حالا یک سیستم متنباز برای تولید ویدیوهای تعاملی بهصورت Real-Time است.
❌هدف تیم توسعهدهنده: رسیدن به تعادلی بین سرعت بالا و کیفیت بصری قابلقبول ✨
🚀 ویژگیهای کلیدی:
♻️کاهش قابلتوجه flickering و boiling artifacts در ویدیوهای دیفیوژنی
♻️پشتیبانی از GPUهای متنوع و ساختار مقیاسپذیر
♻️امکان تنظیم تعداد مراحل denoising برای کنترل بهتر جزئیات
♻️تولید ویدیو با نرخ فریم بالا (High FPS) مناسب برای استریم، ولاگ و پلتفرمهای محتوایی
🎮 در واقع، StreamDiffusionV2 را میتوان نوعی Performance Animation Real-Time مدرن دانست — نسل جدیدی از ویدیو بهکمک AI که مستقیماً از جریان ورودی، خروجی زنده میسازد.
📦 کد منبع:
🔗 github.com/chenfengxu714/StreamDiffusionV2
🌐 صفحهی پروژه:
🔗 streamdiffusionv2.github.io
@rss_ai_ir
#AI #StreamDiffusionV2 #VideoGeneration #RealTimeAI #DiffusionModels
🎬 بهروزرسانی جدید Veo 3.1 از گوگل در راه است!
طبق اطلاعات فاششده در توییتر (۸ اکتبر ۲۰۲۵)، نسخهی جدید مدل تولید ویدیو Veo 3.1 از Google بهزودی منتشر میشود. این مدل در لیست انتظار Higgsfield AI و در کدهای داخلی Vertex AI مشاهده شده است.
✨ ویژگیهای احتمالی نسخه جدید:
✅بهبود در ثبات و هماهنگی شخصیتها در طول ویدیو
✅افزایش مدت زمان تولید ویدیو تا ۶۰ ثانیه
✅اضافه شدن سازندهی صحنهها (Scene Builder)
✅وجود پریستهای سینمایی (Cinematic Presets) برای خروجیهای حرفهایتر 🎥
✅جامعهی هوش مصنوعی این تغییرات را گامی جدی از سوی گوگل برای رقابت مستقیم با Sora از OpenAI میداند، هرچند گوگل هنوز بهصورت رسمی این خبر را تأیید نکرده است.
@rss_ai_ir
#Veo3 #Google #هوش_مصنوعی #تولید_ویدیو #AI #VideoGeneration
طبق اطلاعات فاششده در توییتر (۸ اکتبر ۲۰۲۵)، نسخهی جدید مدل تولید ویدیو Veo 3.1 از Google بهزودی منتشر میشود. این مدل در لیست انتظار Higgsfield AI و در کدهای داخلی Vertex AI مشاهده شده است.
✨ ویژگیهای احتمالی نسخه جدید:
✅بهبود در ثبات و هماهنگی شخصیتها در طول ویدیو
✅افزایش مدت زمان تولید ویدیو تا ۶۰ ثانیه
✅اضافه شدن سازندهی صحنهها (Scene Builder)
✅وجود پریستهای سینمایی (Cinematic Presets) برای خروجیهای حرفهایتر 🎥
✅جامعهی هوش مصنوعی این تغییرات را گامی جدی از سوی گوگل برای رقابت مستقیم با Sora از OpenAI میداند، هرچند گوگل هنوز بهصورت رسمی این خبر را تأیید نکرده است.
@rss_ai_ir
#Veo3 #Google #هوش_مصنوعی #تولید_ویدیو #AI #VideoGeneration
🎥 مدتی است که کاربران متوجه یک باگ جالب در مدلهای تولید ویدیو شدهاند:
وقتی از مدل بخواهید ویدیویی از یک انسان وارونه (سر به پایین) بسازد و سپس همان ویدیو را ۱۸۰ درجه بچرخانید، نتیجه کاملاً غیرمنطقی و خندهدار میشود! 😂
نسخه جدید Sora از OpenAI هم هنوز از این مشکل رنج میبرد — بهمحض چرخاندن تصویر، فیزیک بدن، لباس و حتی جاذبه کاملاً بههم میریزد.
👀 این مسئله نشان میدهد که حتی مدلهای پیشرفتهی ویدیو هنوز در درک پایداری فیزیکی و جهتگیری فضایی به درستی عمل نمیکنند.
📌 شاید روزی برسد که هوش مصنوعی واقعاً بداند “بالا” کجاست!
@rss_ai_ir
#هوش_مصنوعی #Sora #ویدیو #AI #VideoGeneration #OpenAI
وقتی از مدل بخواهید ویدیویی از یک انسان وارونه (سر به پایین) بسازد و سپس همان ویدیو را ۱۸۰ درجه بچرخانید، نتیجه کاملاً غیرمنطقی و خندهدار میشود! 😂
نسخه جدید Sora از OpenAI هم هنوز از این مشکل رنج میبرد — بهمحض چرخاندن تصویر، فیزیک بدن، لباس و حتی جاذبه کاملاً بههم میریزد.
👀 این مسئله نشان میدهد که حتی مدلهای پیشرفتهی ویدیو هنوز در درک پایداری فیزیکی و جهتگیری فضایی به درستی عمل نمیکنند.
📌 شاید روزی برسد که هوش مصنوعی واقعاً بداند “بالا” کجاست!
@rss_ai_ir
#هوش_مصنوعی #Sora #ویدیو #AI #VideoGeneration #OpenAI
😁2
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 Grok Imagine 0.9 Desktop
بالاخره منتشر شد!
در نسخهی جدید، ویژگی Lip-sync عمومی اضافه شده — اما با نتایج بامزهای 😄
مثلاً در ویدیوهای تست، کوسه و سنجاب هر دو همزمان دهان باز میکنند (هرکدام با استایل خودش!) 🦈🐿
📉 مشکل اینجاست که الگوریتم لبخوانی مدل، روی تمام دهانها و پوزههای موجود در تصویر اعمال میشود، و چون هنوز تفکیک موجودات انجام نمیدهد، حرکات لبها به شکل هماهنگ ولی عجیب اجرا میشود.
با این حال، Grok Imagine 0.9 گام مهمی است به سمت ویدیوهای چندشخصیتی و همزمان با صداهای مختلف 🎧
@rss_ai_ir
#Grok #xAI #LipSync #هوش_مصنوعی #AI #VideoGeneration
بالاخره منتشر شد!
در نسخهی جدید، ویژگی Lip-sync عمومی اضافه شده — اما با نتایج بامزهای 😄
مثلاً در ویدیوهای تست، کوسه و سنجاب هر دو همزمان دهان باز میکنند (هرکدام با استایل خودش!) 🦈🐿
📉 مشکل اینجاست که الگوریتم لبخوانی مدل، روی تمام دهانها و پوزههای موجود در تصویر اعمال میشود، و چون هنوز تفکیک موجودات انجام نمیدهد، حرکات لبها به شکل هماهنگ ولی عجیب اجرا میشود.
با این حال، Grok Imagine 0.9 گام مهمی است به سمت ویدیوهای چندشخصیتی و همزمان با صداهای مختلف 🎧
@rss_ai_ir
#Grok #xAI #LipSync #هوش_مصنوعی #AI #VideoGeneration
👍2
🔥 خبر داغ برای علاقهمندان هوش مصنوعی!
کاربرها گزارش دادهاند که Veo 3.1 روی Google Flow فعال شده — البته فقط با VPN آمریکایی 🇺🇸 قابل دسترسه.
🎬 نسخهی جدید Veo طبق شایعات:
♻️پشتیبانی از ویدیوهای تا ۶۰ ثانیه
♻️سینک بهتر کاراکترها و اشیا
♻️حالتهای سینمایی و پریستهای نور و رنگ
♻️ابزار ساخت صحنه و ویرایش ویدیو داخل Flow
❌بهنظر میرسه گوگل داره جدیتر از همیشه وارد رقابت با Sora از OpenAI میشه.
@rss_ai_ir
#Veo3 #GoogleAI #Flow #VideoGeneration #GenerativeAI #Sora
کاربرها گزارش دادهاند که Veo 3.1 روی Google Flow فعال شده — البته فقط با VPN آمریکایی 🇺🇸 قابل دسترسه.
🎬 نسخهی جدید Veo طبق شایعات:
♻️پشتیبانی از ویدیوهای تا ۶۰ ثانیه
♻️سینک بهتر کاراکترها و اشیا
♻️حالتهای سینمایی و پریستهای نور و رنگ
♻️ابزار ساخت صحنه و ویرایش ویدیو داخل Flow
❌بهنظر میرسه گوگل داره جدیتر از همیشه وارد رقابت با Sora از OpenAI میشه.
@rss_ai_ir
#Veo3 #GoogleAI #Flow #VideoGeneration #GenerativeAI #Sora
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 مدل جدید ByteDance: Video-As-Prompt Wan2.1-14B 🎬
شرکت ByteDance از مدل جدید خود به نام Wan2.1-14B رونمایی کرده که برای وظیفهی نوآورانهی Video-as-Prompt طراحی شده است — یعنی میتوانید با دادن یک ویدیو (یا ترکیبی از تصویر و متن)، ویدیوی جدید و خلاقانهای بسازید.
✨ ویژگیها:
پشتیبانی از حالتهای:
🎞️ Video → Video
🖼️ Text/Image → Video
♻️دارای ۱۴ میلیارد پارامتر برای جزئیات بالا، حرکات روان و واقعگرایی چشمگیر.
♻️از ویدیوی ورودی برای حفظ سبک، ترکیببندی و ریتم حرکتی استفاده میکند.
⚠️ نکات مهم:
✳️برای اجرای آن به GPU قدرتمند و حافظه بالا نیاز است.
✳️کیفیت خروجی به میزان پیچیدگی درخواست و طول ویدیو بستگی دارد.
🟠 GitHub
🟠 Hugging Face
@rss_ai_ir
#AI #VideoGeneration #ByteDance #Wan2 #GenerativeAI #HuggingFace #Innovation
شرکت ByteDance از مدل جدید خود به نام Wan2.1-14B رونمایی کرده که برای وظیفهی نوآورانهی Video-as-Prompt طراحی شده است — یعنی میتوانید با دادن یک ویدیو (یا ترکیبی از تصویر و متن)، ویدیوی جدید و خلاقانهای بسازید.
✨ ویژگیها:
پشتیبانی از حالتهای:
🎞️ Video → Video
🖼️ Text/Image → Video
♻️دارای ۱۴ میلیارد پارامتر برای جزئیات بالا، حرکات روان و واقعگرایی چشمگیر.
♻️از ویدیوی ورودی برای حفظ سبک، ترکیببندی و ریتم حرکتی استفاده میکند.
⚠️ نکات مهم:
✳️برای اجرای آن به GPU قدرتمند و حافظه بالا نیاز است.
✳️کیفیت خروجی به میزان پیچیدگی درخواست و طول ویدیو بستگی دارد.
🟠 GitHub
🟠 Hugging Face
@rss_ai_ir
#AI #VideoGeneration #ByteDance #Wan2 #GenerativeAI #HuggingFace #Innovation
❤1
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 تولید ویدیو با ترکیب کاراکترها (Character Mixing Generation) 🦗
🚀 مؤسسه MBZUAI اولین سیستم تولید ویدیو را معرفی کرده که قادر است هویت، رفتار و سبک اصلی هر کاراکتر را حفظ کند، در حالی که تعاملات طبیعی و منطقی بین شخصیتهایی که هرگز با هم وجود نداشتهاند ایجاد میکند!
از کارتونهای کلاسیک 🎨 مثل We Bare Bears و Tom & Jerry
تا شخصیتهای واقعی 🎭 مثل Mr. Bean و Young Sheldon — همه در یک دنیای مشترک و هماهنگ.
💡 این فناوری گامی بزرگ در جهت تولید ویدیوهای چندکاراکتری واقعی و خلاقانه است، جایی که مرز بین انیمیشن و واقعیت محو میشود.
📚 منابع
👉 مقاله: https://lnkd.in/dhKMwukv
👉 پروژه: https://lnkd.in/dBkJs48h
👉 ریپوزیتوری: https://lnkd.in/dw_uzgAk
@rss_ai_ir
#هوش_مصنوعی #ویدیو #AI #MBZUAI #VideoGeneration #CharacterMixing
🚀 مؤسسه MBZUAI اولین سیستم تولید ویدیو را معرفی کرده که قادر است هویت، رفتار و سبک اصلی هر کاراکتر را حفظ کند، در حالی که تعاملات طبیعی و منطقی بین شخصیتهایی که هرگز با هم وجود نداشتهاند ایجاد میکند!
از کارتونهای کلاسیک 🎨 مثل We Bare Bears و Tom & Jerry
تا شخصیتهای واقعی 🎭 مثل Mr. Bean و Young Sheldon — همه در یک دنیای مشترک و هماهنگ.
💡 این فناوری گامی بزرگ در جهت تولید ویدیوهای چندکاراکتری واقعی و خلاقانه است، جایی که مرز بین انیمیشن و واقعیت محو میشود.
📚 منابع
👉 مقاله: https://lnkd.in/dhKMwukv
👉 پروژه: https://lnkd.in/dBkJs48h
👉 ریپوزیتوری: https://lnkd.in/dw_uzgAk
@rss_ai_ir
#هوش_مصنوعی #ویدیو #AI #MBZUAI #VideoGeneration #CharacterMixing
🔥2❤1👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 Minimax
نسخهی جدید شبکهی عصبی تولید ویدیو خود را معرفی کرد: Hailuo 2.3
شرکت Minimax نسخهی تازهای از مدل تولید ویدیو با هوش مصنوعی به نام Hailuo 2.3 را منتشر کرده است.
این نسخه تمرکز ویژهای بر بهبود فیزیک حرکات و واقعگرایی در ویدیوها دارد — حرکات اکنون طبیعیتر، روانتر و از نظر دینامیکی دقیقتر هستند. ⚙️🎥
📊 مدل جدید Hailuo 2.3 گامی مهم در جهت ایجاد ویدیوهای فوتورئالیستی محسوب میشود و میتواند برای کاربردهایی مانند انیمیشنسازی، تولید محتوای تبلیغاتی، و شبیهسازیهای واقعگرایانه مورد استفاده قرار گیرد.
منبع:
https://hailuoai.video/create/image-to-video
@rss_ai_ir
#AI #VideoGeneration #Hailuo #Minimax #MachineLearning #NeuralNetworks
نسخهی جدید شبکهی عصبی تولید ویدیو خود را معرفی کرد: Hailuo 2.3
شرکت Minimax نسخهی تازهای از مدل تولید ویدیو با هوش مصنوعی به نام Hailuo 2.3 را منتشر کرده است.
این نسخه تمرکز ویژهای بر بهبود فیزیک حرکات و واقعگرایی در ویدیوها دارد — حرکات اکنون طبیعیتر، روانتر و از نظر دینامیکی دقیقتر هستند. ⚙️🎥
📊 مدل جدید Hailuo 2.3 گامی مهم در جهت ایجاد ویدیوهای فوتورئالیستی محسوب میشود و میتواند برای کاربردهایی مانند انیمیشنسازی، تولید محتوای تبلیغاتی، و شبیهسازیهای واقعگرایانه مورد استفاده قرار گیرد.
منبع:
https://hailuoai.video/create/image-to-video
@rss_ai_ir
#AI #VideoGeneration #Hailuo #Minimax #MachineLearning #NeuralNetworks
👍2🔥1😁1👌1
This media is not supported in your browser
VIEW IN TELEGRAM
👢 Generative View Stitching (GVS):
رویکردی نو برای تولید ویدیوهای پیوسته و بدون برخورد با دوربین 🚀
پژوهش جدیدی به نام Generative View Stitching (GVS) معرفی شده که امکان تولید ویدیوهای هدایتشده با دوربین را بهصورت بدون برخورد (collision-free) و غیرخودبازگشتی (non-autoregressive) فراهم میکند — جایگزینی نوآورانه برای روشهای سنتی video length extrapolation. 🎥
✨ ویژگیهای کلیدی GVS:
🔹 تولید ویدیو در مسیرهای از پیش تعیینشده (predefined camera trajectories) بدون خطاهای فضایی یا حرکتی
🔹 استفاده از ساختار غیرخودبازگشتی برای افزایش پایداری فریمها و هماهنگی زمانی
🔹 مناسب برای کاربردهای گیمینگ، واقعیت مجازی (VR) و رندرهای سینمایی هوش مصنوعی
🔹 مجوز MIT — کاملاً متنباز و قابل استفاده در پروژههای تحقیقاتی یا صنعتی
📄 منابع رسمی:
👉 مقاله در
ArXiv: arxiv.org/pdf/2510.24718
👉 صفحه پروژه:
andrewsonga.github.io/gvs
👉 سورسکد:
github.com/andrewsonga/generative_view_stitching
🧠مدل GVS گامی مهم در جهت تولید ویدیوهای فتوواقعگرایانه با کنترل دقیق دوربین است — دنیای فیلمسازی و شبیهسازی ۳D را هوشمندتر از همیشه میسازد.
@rss_ai_ir
#AI #VideoGeneration #GVS #GenerativeAI #ComputerVision #Research
رویکردی نو برای تولید ویدیوهای پیوسته و بدون برخورد با دوربین 🚀
پژوهش جدیدی به نام Generative View Stitching (GVS) معرفی شده که امکان تولید ویدیوهای هدایتشده با دوربین را بهصورت بدون برخورد (collision-free) و غیرخودبازگشتی (non-autoregressive) فراهم میکند — جایگزینی نوآورانه برای روشهای سنتی video length extrapolation. 🎥
✨ ویژگیهای کلیدی GVS:
🔹 تولید ویدیو در مسیرهای از پیش تعیینشده (predefined camera trajectories) بدون خطاهای فضایی یا حرکتی
🔹 استفاده از ساختار غیرخودبازگشتی برای افزایش پایداری فریمها و هماهنگی زمانی
🔹 مناسب برای کاربردهای گیمینگ، واقعیت مجازی (VR) و رندرهای سینمایی هوش مصنوعی
🔹 مجوز MIT — کاملاً متنباز و قابل استفاده در پروژههای تحقیقاتی یا صنعتی
📄 منابع رسمی:
👉 مقاله در
ArXiv: arxiv.org/pdf/2510.24718
👉 صفحه پروژه:
andrewsonga.github.io/gvs
👉 سورسکد:
github.com/andrewsonga/generative_view_stitching
🧠مدل GVS گامی مهم در جهت تولید ویدیوهای فتوواقعگرایانه با کنترل دقیق دوربین است — دنیای فیلمسازی و شبیهسازی ۳D را هوشمندتر از همیشه میسازد.
@rss_ai_ir
#AI #VideoGeneration #GVS #GenerativeAI #ComputerVision #Research
❤2🔥1👏1