This media is not supported in your browser
VIEW IN TELEGRAM
🎥 ورزش سنگین در Sora!
مدل ویدیوساز Sora وارد مرحلهی جدیدی شده — صحنههایی که فیزیک را تقریباً درست شبیهسازی میکنند... تا وقتی که یک هالتر وسط هوا میماند 😅
حرکات آهسته، نور واقعگرایانه و جزئیات بدن شگفتانگیز است، اما هنوز مغز حس میکند چیزی طبیعی نیست — مثل وزنهبرداری در دنیای خواب!
🧠 نکته جالب اینکه مدلهایی مثل Sora یا Veo واقعاً دارند فیزیک را یاد میگیرند:
وزن، شتاب، گشتاور و برخورد اجسام — بدون هیچ دادهی واقعی، فقط از روی تصویر.
نتیجه؟
🔹 ویدیوهایی خیرهکننده
🔹 اما هنوز با منطق فیزیکیِ کمی اشتباه!
📌 خلاصه:
همچنین AI هنوز قوانین نیوتن را کامل بلد نیست... ولی بهطرز خطرناکی دارد نزدیک میشود ⚙️
@rss_ai_ir
#Sora #هوش_مصنوعی #ویدیوژنراتور #AI #VideoGeneration #DeepLearning
مدل ویدیوساز Sora وارد مرحلهی جدیدی شده — صحنههایی که فیزیک را تقریباً درست شبیهسازی میکنند... تا وقتی که یک هالتر وسط هوا میماند 😅
حرکات آهسته، نور واقعگرایانه و جزئیات بدن شگفتانگیز است، اما هنوز مغز حس میکند چیزی طبیعی نیست — مثل وزنهبرداری در دنیای خواب!
🧠 نکته جالب اینکه مدلهایی مثل Sora یا Veo واقعاً دارند فیزیک را یاد میگیرند:
وزن، شتاب، گشتاور و برخورد اجسام — بدون هیچ دادهی واقعی، فقط از روی تصویر.
نتیجه؟
🔹 ویدیوهایی خیرهکننده
🔹 اما هنوز با منطق فیزیکیِ کمی اشتباه!
📌 خلاصه:
همچنین AI هنوز قوانین نیوتن را کامل بلد نیست... ولی بهطرز خطرناکی دارد نزدیک میشود ⚙️
@rss_ai_ir
#Sora #هوش_مصنوعی #ویدیوژنراتور #AI #VideoGeneration #DeepLearning
😁4👍2🤣1
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 StreamDiffusionV2 —
نسل جدید ویدیوهای تعاملی در زمان واقعی!
❌پروژهی StreamDiffusion به نسخهی دوم رسیده و حالا یک سیستم متنباز برای تولید ویدیوهای تعاملی بهصورت Real-Time است.
❌هدف تیم توسعهدهنده: رسیدن به تعادلی بین سرعت بالا و کیفیت بصری قابلقبول ✨
🚀 ویژگیهای کلیدی:
♻️کاهش قابلتوجه flickering و boiling artifacts در ویدیوهای دیفیوژنی
♻️پشتیبانی از GPUهای متنوع و ساختار مقیاسپذیر
♻️امکان تنظیم تعداد مراحل denoising برای کنترل بهتر جزئیات
♻️تولید ویدیو با نرخ فریم بالا (High FPS) مناسب برای استریم، ولاگ و پلتفرمهای محتوایی
🎮 در واقع، StreamDiffusionV2 را میتوان نوعی Performance Animation Real-Time مدرن دانست — نسل جدیدی از ویدیو بهکمک AI که مستقیماً از جریان ورودی، خروجی زنده میسازد.
📦 کد منبع:
🔗 github.com/chenfengxu714/StreamDiffusionV2
🌐 صفحهی پروژه:
🔗 streamdiffusionv2.github.io
@rss_ai_ir
#AI #StreamDiffusionV2 #VideoGeneration #RealTimeAI #DiffusionModels
نسل جدید ویدیوهای تعاملی در زمان واقعی!
❌پروژهی StreamDiffusion به نسخهی دوم رسیده و حالا یک سیستم متنباز برای تولید ویدیوهای تعاملی بهصورت Real-Time است.
❌هدف تیم توسعهدهنده: رسیدن به تعادلی بین سرعت بالا و کیفیت بصری قابلقبول ✨
🚀 ویژگیهای کلیدی:
♻️کاهش قابلتوجه flickering و boiling artifacts در ویدیوهای دیفیوژنی
♻️پشتیبانی از GPUهای متنوع و ساختار مقیاسپذیر
♻️امکان تنظیم تعداد مراحل denoising برای کنترل بهتر جزئیات
♻️تولید ویدیو با نرخ فریم بالا (High FPS) مناسب برای استریم، ولاگ و پلتفرمهای محتوایی
🎮 در واقع، StreamDiffusionV2 را میتوان نوعی Performance Animation Real-Time مدرن دانست — نسل جدیدی از ویدیو بهکمک AI که مستقیماً از جریان ورودی، خروجی زنده میسازد.
📦 کد منبع:
🔗 github.com/chenfengxu714/StreamDiffusionV2
🌐 صفحهی پروژه:
🔗 streamdiffusionv2.github.io
@rss_ai_ir
#AI #StreamDiffusionV2 #VideoGeneration #RealTimeAI #DiffusionModels
🎬 بهروزرسانی جدید Veo 3.1 از گوگل در راه است!
طبق اطلاعات فاششده در توییتر (۸ اکتبر ۲۰۲۵)، نسخهی جدید مدل تولید ویدیو Veo 3.1 از Google بهزودی منتشر میشود. این مدل در لیست انتظار Higgsfield AI و در کدهای داخلی Vertex AI مشاهده شده است.
✨ ویژگیهای احتمالی نسخه جدید:
✅بهبود در ثبات و هماهنگی شخصیتها در طول ویدیو
✅افزایش مدت زمان تولید ویدیو تا ۶۰ ثانیه
✅اضافه شدن سازندهی صحنهها (Scene Builder)
✅وجود پریستهای سینمایی (Cinematic Presets) برای خروجیهای حرفهایتر 🎥
✅جامعهی هوش مصنوعی این تغییرات را گامی جدی از سوی گوگل برای رقابت مستقیم با Sora از OpenAI میداند، هرچند گوگل هنوز بهصورت رسمی این خبر را تأیید نکرده است.
@rss_ai_ir
#Veo3 #Google #هوش_مصنوعی #تولید_ویدیو #AI #VideoGeneration
طبق اطلاعات فاششده در توییتر (۸ اکتبر ۲۰۲۵)، نسخهی جدید مدل تولید ویدیو Veo 3.1 از Google بهزودی منتشر میشود. این مدل در لیست انتظار Higgsfield AI و در کدهای داخلی Vertex AI مشاهده شده است.
✨ ویژگیهای احتمالی نسخه جدید:
✅بهبود در ثبات و هماهنگی شخصیتها در طول ویدیو
✅افزایش مدت زمان تولید ویدیو تا ۶۰ ثانیه
✅اضافه شدن سازندهی صحنهها (Scene Builder)
✅وجود پریستهای سینمایی (Cinematic Presets) برای خروجیهای حرفهایتر 🎥
✅جامعهی هوش مصنوعی این تغییرات را گامی جدی از سوی گوگل برای رقابت مستقیم با Sora از OpenAI میداند، هرچند گوگل هنوز بهصورت رسمی این خبر را تأیید نکرده است.
@rss_ai_ir
#Veo3 #Google #هوش_مصنوعی #تولید_ویدیو #AI #VideoGeneration
🎥 مدتی است که کاربران متوجه یک باگ جالب در مدلهای تولید ویدیو شدهاند:
وقتی از مدل بخواهید ویدیویی از یک انسان وارونه (سر به پایین) بسازد و سپس همان ویدیو را ۱۸۰ درجه بچرخانید، نتیجه کاملاً غیرمنطقی و خندهدار میشود! 😂
نسخه جدید Sora از OpenAI هم هنوز از این مشکل رنج میبرد — بهمحض چرخاندن تصویر، فیزیک بدن، لباس و حتی جاذبه کاملاً بههم میریزد.
👀 این مسئله نشان میدهد که حتی مدلهای پیشرفتهی ویدیو هنوز در درک پایداری فیزیکی و جهتگیری فضایی به درستی عمل نمیکنند.
📌 شاید روزی برسد که هوش مصنوعی واقعاً بداند “بالا” کجاست!
@rss_ai_ir
#هوش_مصنوعی #Sora #ویدیو #AI #VideoGeneration #OpenAI
وقتی از مدل بخواهید ویدیویی از یک انسان وارونه (سر به پایین) بسازد و سپس همان ویدیو را ۱۸۰ درجه بچرخانید، نتیجه کاملاً غیرمنطقی و خندهدار میشود! 😂
نسخه جدید Sora از OpenAI هم هنوز از این مشکل رنج میبرد — بهمحض چرخاندن تصویر، فیزیک بدن، لباس و حتی جاذبه کاملاً بههم میریزد.
👀 این مسئله نشان میدهد که حتی مدلهای پیشرفتهی ویدیو هنوز در درک پایداری فیزیکی و جهتگیری فضایی به درستی عمل نمیکنند.
📌 شاید روزی برسد که هوش مصنوعی واقعاً بداند “بالا” کجاست!
@rss_ai_ir
#هوش_مصنوعی #Sora #ویدیو #AI #VideoGeneration #OpenAI
😁2
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 Grok Imagine 0.9 Desktop
بالاخره منتشر شد!
در نسخهی جدید، ویژگی Lip-sync عمومی اضافه شده — اما با نتایج بامزهای 😄
مثلاً در ویدیوهای تست، کوسه و سنجاب هر دو همزمان دهان باز میکنند (هرکدام با استایل خودش!) 🦈🐿
📉 مشکل اینجاست که الگوریتم لبخوانی مدل، روی تمام دهانها و پوزههای موجود در تصویر اعمال میشود، و چون هنوز تفکیک موجودات انجام نمیدهد، حرکات لبها به شکل هماهنگ ولی عجیب اجرا میشود.
با این حال، Grok Imagine 0.9 گام مهمی است به سمت ویدیوهای چندشخصیتی و همزمان با صداهای مختلف 🎧
@rss_ai_ir
#Grok #xAI #LipSync #هوش_مصنوعی #AI #VideoGeneration
بالاخره منتشر شد!
در نسخهی جدید، ویژگی Lip-sync عمومی اضافه شده — اما با نتایج بامزهای 😄
مثلاً در ویدیوهای تست، کوسه و سنجاب هر دو همزمان دهان باز میکنند (هرکدام با استایل خودش!) 🦈🐿
📉 مشکل اینجاست که الگوریتم لبخوانی مدل، روی تمام دهانها و پوزههای موجود در تصویر اعمال میشود، و چون هنوز تفکیک موجودات انجام نمیدهد، حرکات لبها به شکل هماهنگ ولی عجیب اجرا میشود.
با این حال، Grok Imagine 0.9 گام مهمی است به سمت ویدیوهای چندشخصیتی و همزمان با صداهای مختلف 🎧
@rss_ai_ir
#Grok #xAI #LipSync #هوش_مصنوعی #AI #VideoGeneration
👍2
🔥 خبر داغ برای علاقهمندان هوش مصنوعی!
کاربرها گزارش دادهاند که Veo 3.1 روی Google Flow فعال شده — البته فقط با VPN آمریکایی 🇺🇸 قابل دسترسه.
🎬 نسخهی جدید Veo طبق شایعات:
♻️پشتیبانی از ویدیوهای تا ۶۰ ثانیه
♻️سینک بهتر کاراکترها و اشیا
♻️حالتهای سینمایی و پریستهای نور و رنگ
♻️ابزار ساخت صحنه و ویرایش ویدیو داخل Flow
❌بهنظر میرسه گوگل داره جدیتر از همیشه وارد رقابت با Sora از OpenAI میشه.
@rss_ai_ir
#Veo3 #GoogleAI #Flow #VideoGeneration #GenerativeAI #Sora
کاربرها گزارش دادهاند که Veo 3.1 روی Google Flow فعال شده — البته فقط با VPN آمریکایی 🇺🇸 قابل دسترسه.
🎬 نسخهی جدید Veo طبق شایعات:
♻️پشتیبانی از ویدیوهای تا ۶۰ ثانیه
♻️سینک بهتر کاراکترها و اشیا
♻️حالتهای سینمایی و پریستهای نور و رنگ
♻️ابزار ساخت صحنه و ویرایش ویدیو داخل Flow
❌بهنظر میرسه گوگل داره جدیتر از همیشه وارد رقابت با Sora از OpenAI میشه.
@rss_ai_ir
#Veo3 #GoogleAI #Flow #VideoGeneration #GenerativeAI #Sora
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 مدل جدید ByteDance: Video-As-Prompt Wan2.1-14B 🎬
شرکت ByteDance از مدل جدید خود به نام Wan2.1-14B رونمایی کرده که برای وظیفهی نوآورانهی Video-as-Prompt طراحی شده است — یعنی میتوانید با دادن یک ویدیو (یا ترکیبی از تصویر و متن)، ویدیوی جدید و خلاقانهای بسازید.
✨ ویژگیها:
پشتیبانی از حالتهای:
🎞️ Video → Video
🖼️ Text/Image → Video
♻️دارای ۱۴ میلیارد پارامتر برای جزئیات بالا، حرکات روان و واقعگرایی چشمگیر.
♻️از ویدیوی ورودی برای حفظ سبک، ترکیببندی و ریتم حرکتی استفاده میکند.
⚠️ نکات مهم:
✳️برای اجرای آن به GPU قدرتمند و حافظه بالا نیاز است.
✳️کیفیت خروجی به میزان پیچیدگی درخواست و طول ویدیو بستگی دارد.
🟠 GitHub
🟠 Hugging Face
@rss_ai_ir
#AI #VideoGeneration #ByteDance #Wan2 #GenerativeAI #HuggingFace #Innovation
شرکت ByteDance از مدل جدید خود به نام Wan2.1-14B رونمایی کرده که برای وظیفهی نوآورانهی Video-as-Prompt طراحی شده است — یعنی میتوانید با دادن یک ویدیو (یا ترکیبی از تصویر و متن)، ویدیوی جدید و خلاقانهای بسازید.
✨ ویژگیها:
پشتیبانی از حالتهای:
🎞️ Video → Video
🖼️ Text/Image → Video
♻️دارای ۱۴ میلیارد پارامتر برای جزئیات بالا، حرکات روان و واقعگرایی چشمگیر.
♻️از ویدیوی ورودی برای حفظ سبک، ترکیببندی و ریتم حرکتی استفاده میکند.
⚠️ نکات مهم:
✳️برای اجرای آن به GPU قدرتمند و حافظه بالا نیاز است.
✳️کیفیت خروجی به میزان پیچیدگی درخواست و طول ویدیو بستگی دارد.
🟠 GitHub
🟠 Hugging Face
@rss_ai_ir
#AI #VideoGeneration #ByteDance #Wan2 #GenerativeAI #HuggingFace #Innovation
❤1
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 تولید ویدیو با ترکیب کاراکترها (Character Mixing Generation) 🦗
🚀 مؤسسه MBZUAI اولین سیستم تولید ویدیو را معرفی کرده که قادر است هویت، رفتار و سبک اصلی هر کاراکتر را حفظ کند، در حالی که تعاملات طبیعی و منطقی بین شخصیتهایی که هرگز با هم وجود نداشتهاند ایجاد میکند!
از کارتونهای کلاسیک 🎨 مثل We Bare Bears و Tom & Jerry
تا شخصیتهای واقعی 🎭 مثل Mr. Bean و Young Sheldon — همه در یک دنیای مشترک و هماهنگ.
💡 این فناوری گامی بزرگ در جهت تولید ویدیوهای چندکاراکتری واقعی و خلاقانه است، جایی که مرز بین انیمیشن و واقعیت محو میشود.
📚 منابع
👉 مقاله: https://lnkd.in/dhKMwukv
👉 پروژه: https://lnkd.in/dBkJs48h
👉 ریپوزیتوری: https://lnkd.in/dw_uzgAk
@rss_ai_ir
#هوش_مصنوعی #ویدیو #AI #MBZUAI #VideoGeneration #CharacterMixing
🚀 مؤسسه MBZUAI اولین سیستم تولید ویدیو را معرفی کرده که قادر است هویت، رفتار و سبک اصلی هر کاراکتر را حفظ کند، در حالی که تعاملات طبیعی و منطقی بین شخصیتهایی که هرگز با هم وجود نداشتهاند ایجاد میکند!
از کارتونهای کلاسیک 🎨 مثل We Bare Bears و Tom & Jerry
تا شخصیتهای واقعی 🎭 مثل Mr. Bean و Young Sheldon — همه در یک دنیای مشترک و هماهنگ.
💡 این فناوری گامی بزرگ در جهت تولید ویدیوهای چندکاراکتری واقعی و خلاقانه است، جایی که مرز بین انیمیشن و واقعیت محو میشود.
📚 منابع
👉 مقاله: https://lnkd.in/dhKMwukv
👉 پروژه: https://lnkd.in/dBkJs48h
👉 ریپوزیتوری: https://lnkd.in/dw_uzgAk
@rss_ai_ir
#هوش_مصنوعی #ویدیو #AI #MBZUAI #VideoGeneration #CharacterMixing
🔥2❤1👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 Minimax
نسخهی جدید شبکهی عصبی تولید ویدیو خود را معرفی کرد: Hailuo 2.3
شرکت Minimax نسخهی تازهای از مدل تولید ویدیو با هوش مصنوعی به نام Hailuo 2.3 را منتشر کرده است.
این نسخه تمرکز ویژهای بر بهبود فیزیک حرکات و واقعگرایی در ویدیوها دارد — حرکات اکنون طبیعیتر، روانتر و از نظر دینامیکی دقیقتر هستند. ⚙️🎥
📊 مدل جدید Hailuo 2.3 گامی مهم در جهت ایجاد ویدیوهای فوتورئالیستی محسوب میشود و میتواند برای کاربردهایی مانند انیمیشنسازی، تولید محتوای تبلیغاتی، و شبیهسازیهای واقعگرایانه مورد استفاده قرار گیرد.
منبع:
https://hailuoai.video/create/image-to-video
@rss_ai_ir
#AI #VideoGeneration #Hailuo #Minimax #MachineLearning #NeuralNetworks
نسخهی جدید شبکهی عصبی تولید ویدیو خود را معرفی کرد: Hailuo 2.3
شرکت Minimax نسخهی تازهای از مدل تولید ویدیو با هوش مصنوعی به نام Hailuo 2.3 را منتشر کرده است.
این نسخه تمرکز ویژهای بر بهبود فیزیک حرکات و واقعگرایی در ویدیوها دارد — حرکات اکنون طبیعیتر، روانتر و از نظر دینامیکی دقیقتر هستند. ⚙️🎥
📊 مدل جدید Hailuo 2.3 گامی مهم در جهت ایجاد ویدیوهای فوتورئالیستی محسوب میشود و میتواند برای کاربردهایی مانند انیمیشنسازی، تولید محتوای تبلیغاتی، و شبیهسازیهای واقعگرایانه مورد استفاده قرار گیرد.
منبع:
https://hailuoai.video/create/image-to-video
@rss_ai_ir
#AI #VideoGeneration #Hailuo #Minimax #MachineLearning #NeuralNetworks
👍2🔥1😁1👌1
This media is not supported in your browser
VIEW IN TELEGRAM
👢 Generative View Stitching (GVS):
رویکردی نو برای تولید ویدیوهای پیوسته و بدون برخورد با دوربین 🚀
پژوهش جدیدی به نام Generative View Stitching (GVS) معرفی شده که امکان تولید ویدیوهای هدایتشده با دوربین را بهصورت بدون برخورد (collision-free) و غیرخودبازگشتی (non-autoregressive) فراهم میکند — جایگزینی نوآورانه برای روشهای سنتی video length extrapolation. 🎥
✨ ویژگیهای کلیدی GVS:
🔹 تولید ویدیو در مسیرهای از پیش تعیینشده (predefined camera trajectories) بدون خطاهای فضایی یا حرکتی
🔹 استفاده از ساختار غیرخودبازگشتی برای افزایش پایداری فریمها و هماهنگی زمانی
🔹 مناسب برای کاربردهای گیمینگ، واقعیت مجازی (VR) و رندرهای سینمایی هوش مصنوعی
🔹 مجوز MIT — کاملاً متنباز و قابل استفاده در پروژههای تحقیقاتی یا صنعتی
📄 منابع رسمی:
👉 مقاله در
ArXiv: arxiv.org/pdf/2510.24718
👉 صفحه پروژه:
andrewsonga.github.io/gvs
👉 سورسکد:
github.com/andrewsonga/generative_view_stitching
🧠مدل GVS گامی مهم در جهت تولید ویدیوهای فتوواقعگرایانه با کنترل دقیق دوربین است — دنیای فیلمسازی و شبیهسازی ۳D را هوشمندتر از همیشه میسازد.
@rss_ai_ir
#AI #VideoGeneration #GVS #GenerativeAI #ComputerVision #Research
رویکردی نو برای تولید ویدیوهای پیوسته و بدون برخورد با دوربین 🚀
پژوهش جدیدی به نام Generative View Stitching (GVS) معرفی شده که امکان تولید ویدیوهای هدایتشده با دوربین را بهصورت بدون برخورد (collision-free) و غیرخودبازگشتی (non-autoregressive) فراهم میکند — جایگزینی نوآورانه برای روشهای سنتی video length extrapolation. 🎥
✨ ویژگیهای کلیدی GVS:
🔹 تولید ویدیو در مسیرهای از پیش تعیینشده (predefined camera trajectories) بدون خطاهای فضایی یا حرکتی
🔹 استفاده از ساختار غیرخودبازگشتی برای افزایش پایداری فریمها و هماهنگی زمانی
🔹 مناسب برای کاربردهای گیمینگ، واقعیت مجازی (VR) و رندرهای سینمایی هوش مصنوعی
🔹 مجوز MIT — کاملاً متنباز و قابل استفاده در پروژههای تحقیقاتی یا صنعتی
📄 منابع رسمی:
👉 مقاله در
ArXiv: arxiv.org/pdf/2510.24718
👉 صفحه پروژه:
andrewsonga.github.io/gvs
👉 سورسکد:
github.com/andrewsonga/generative_view_stitching
🧠مدل GVS گامی مهم در جهت تولید ویدیوهای فتوواقعگرایانه با کنترل دقیق دوربین است — دنیای فیلمسازی و شبیهسازی ۳D را هوشمندتر از همیشه میسازد.
@rss_ai_ir
#AI #VideoGeneration #GVS #GenerativeAI #ComputerVision #Research
❤2🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 ساخت ویدیو با LongCat-Video؛ غول ۱۳.۶ میلیارد پارامتری تولید ویدیو
مدل LongCat-Video یکی از قدرتمندترین سیستمهای تولید ویدیو است که میتواند متن را به ویدیو، تصویر را به ویدیو و حتی ادامهٔ ویدیو تولید کند — آن هم با کیفیت بالا و بدون افت در ویدیوهای طولانی.
🚀 ویژگیهای کلیدی:
✳️معماری یکپارچه برای تمام وظایف تولید ویدیو
✳️توانایی ساخت ویدیوهایی با مدت چند دقیقه
✳️تولید کارآمد با رزولوشن بالا
✳️کیفیت رقابتی در سطح مدلهای تجاری مطرح
📌 گیتهاب:
https://github.com/meituan-longcat/LongCat-Video
---
#LongCatVideo #AIvideo #VideoGeneration #DeepLearning
@rss_ai_ir
مدل LongCat-Video یکی از قدرتمندترین سیستمهای تولید ویدیو است که میتواند متن را به ویدیو، تصویر را به ویدیو و حتی ادامهٔ ویدیو تولید کند — آن هم با کیفیت بالا و بدون افت در ویدیوهای طولانی.
🚀 ویژگیهای کلیدی:
✳️معماری یکپارچه برای تمام وظایف تولید ویدیو
✳️توانایی ساخت ویدیوهایی با مدت چند دقیقه
✳️تولید کارآمد با رزولوشن بالا
✳️کیفیت رقابتی در سطح مدلهای تجاری مطرح
📌 گیتهاب:
https://github.com/meituan-longcat/LongCat-Video
---
#LongCatVideo #AIvideo #VideoGeneration #DeepLearning
@rss_ai_ir
❤1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
✨ STARFlow-V:
نسل تازه مدلهای ویدئو با Normalizing Flow
@rss_ai_ir 🎥⚡
مدل STARFlow-V یک مدل کاملاً End-to-End برای تولید ویدئو است که بر پایهی Normalizing Flow ساخته شده — رویکردی که معمولاً کمتر در ویدئو استفاده میشود، اما حالا نتایج فوقالعادهای نشان داده است.
🔹 کیفیت بصری بالا + پیوستگی زمانی عالی
🔹 پیشبینی علّی (causal prediction) پایدار
🔹 معماری Global–Local Latent
🔹 استفاده از Flow-Score Matching
🔹 قدمی مهم برای ورود Flow Models به دنیای Video Gen
📄 Paper: arxiv.org/abs/2511.20462
🌐 Project: starflow-v.github.io
💻 Code: github.com/apple/ml-starflow
#VideoGeneration #NormalizingFlow #GenerativeAI #DeepLearning #ML @rss_ai_ir
نسل تازه مدلهای ویدئو با Normalizing Flow
@rss_ai_ir 🎥⚡
مدل STARFlow-V یک مدل کاملاً End-to-End برای تولید ویدئو است که بر پایهی Normalizing Flow ساخته شده — رویکردی که معمولاً کمتر در ویدئو استفاده میشود، اما حالا نتایج فوقالعادهای نشان داده است.
🔹 کیفیت بصری بالا + پیوستگی زمانی عالی
🔹 پیشبینی علّی (causal prediction) پایدار
🔹 معماری Global–Local Latent
🔹 استفاده از Flow-Score Matching
🔹 قدمی مهم برای ورود Flow Models به دنیای Video Gen
📄 Paper: arxiv.org/abs/2511.20462
🌐 Project: starflow-v.github.io
💻 Code: github.com/apple/ml-starflow
#VideoGeneration #NormalizingFlow #GenerativeAI #DeepLearning #ML @rss_ai_ir
🥰1
Media is too big
VIEW IN TELEGRAM
✨ Paper2Video:
تبدیل خودکار مقاله علمی به ویدئو
📝 خلاصه:
اینکه PaperTalker یک فریمورک چندعاملی است که میتواند از یک مقاله علمی، بهصورت خودکار ویدئوی کامل بسازد — شامل اسلایدها، زیرنویس، گفتار و چهره سخنگو.
نتیجه نهایی نسبت به روشهای موجود دقیقتر، اطلاعاتیتر و بدون نیاز به تولید دستی محتوا است.
🔹 تاریخ انتشار: 6 اکتبر
🔹 لینکها:
• arXiv:
https://arxiv.org/abs/2510.05096
• PDF:
https://arxiv.org/pdf/2510.05096
• پروژه:
https://showlab.github.io/Paper2Video/
• گیتهاب:
https://showlab.github.io/Paper2Video/
✨ دیتاستهای مرتبط:
• https://huggingface.co/datasets/ZaynZhu/Paper2Video
#VideoGeneration #AI #AcademicCommunication #MachineLearning #MultimodalAI
تبدیل خودکار مقاله علمی به ویدئو
📝 خلاصه:
اینکه PaperTalker یک فریمورک چندعاملی است که میتواند از یک مقاله علمی، بهصورت خودکار ویدئوی کامل بسازد — شامل اسلایدها، زیرنویس، گفتار و چهره سخنگو.
نتیجه نهایی نسبت به روشهای موجود دقیقتر، اطلاعاتیتر و بدون نیاز به تولید دستی محتوا است.
🔹 تاریخ انتشار: 6 اکتبر
🔹 لینکها:
• arXiv:
https://arxiv.org/abs/2510.05096
• PDF:
https://arxiv.org/pdf/2510.05096
• پروژه:
https://showlab.github.io/Paper2Video/
• گیتهاب:
https://showlab.github.io/Paper2Video/
✨ دیتاستهای مرتبط:
• https://huggingface.co/datasets/ZaynZhu/Paper2Video
#VideoGeneration #AI #AcademicCommunication #MachineLearning #MultimodalAI
❤2🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🌵 Instance-Level Video Generation 🌵
👉 فریمورک InstanceV اولین فریمورک تولید ویدئو است که از پایه برای کنترل سطح-اُبجکت طراحی شده و اجازه میدهد هر شیء در ویدئو بهصورت مستقل و دقیق کنترل شود. کد و دیتاست منتشر شدهاند 💙
🔗 Paper: arxiv.org/pdf/2511.23146
🔗 Project: https://aliothchen.github.io/projects/InstanceV/
🔗 Repo: بهزودی
#InstanceV #VideoGeneration #AI #ComputerVision #GenerativeAI
👉 فریمورک InstanceV اولین فریمورک تولید ویدئو است که از پایه برای کنترل سطح-اُبجکت طراحی شده و اجازه میدهد هر شیء در ویدئو بهصورت مستقل و دقیق کنترل شود. کد و دیتاست منتشر شدهاند 💙
🔗 Paper: arxiv.org/pdf/2511.23146
🔗 Project: https://aliothchen.github.io/projects/InstanceV/
🔗 Repo: بهزودی
#InstanceV #VideoGeneration #AI #ComputerVision #GenerativeAI
👍2👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 نسخه جدید نسلساز ویدیو Runway — مدل قدرتمند Gen-4.5 معرفی شد
🚀 ارتقای مهمی در کیفیت و کنترلپذیری ویدیوهای تولیدی ثبت شده است.
مدل Gen-4.5 اکنون تصاویر شفافتر، حرکت واقعگرایانهتر و انطباق دقیقتری با متن ایجاد میکند.
✨ بهبودهای کلیدی:
♻️جزئیات تصویری بسیار تمیزتر و واضحتر
♻️حرکتهای طبیعیتر انسان و اشیا
♻️نورپردازی و فیزیک بهتر، بدون artifacts
♻️هماهنگی عالی با پرامپت، حتی در صحنههای پیچیده و سریع
♻️کنترلهای پیشرفته برای دوربین، حرکت، ترکیببندی و صدا
🎞️ قابلیتها:
Image-to-Video
Video-to-Video
Keyframes
کنترل کامل حرکت دوربین
📊 رکورد کیفیت:
اینکه Gen-4.5 در رتبهبندی Artificial Analysis Text-to-Video امتیاز ۱۲۴۷ Elo را ثبت کرده و بالاتر از تمام مدلهای ویدیویی فعلی قرار گرفته است.
🔗 لینک اعلام رسمی:
https://app.runwayml.com/video-tools/
@rss_ai_ir
#Runway #Gen45 #VideoGeneration #AI #AIGeneration #DeepLearning #TechNews
🚀 ارتقای مهمی در کیفیت و کنترلپذیری ویدیوهای تولیدی ثبت شده است.
مدل Gen-4.5 اکنون تصاویر شفافتر، حرکت واقعگرایانهتر و انطباق دقیقتری با متن ایجاد میکند.
✨ بهبودهای کلیدی:
♻️جزئیات تصویری بسیار تمیزتر و واضحتر
♻️حرکتهای طبیعیتر انسان و اشیا
♻️نورپردازی و فیزیک بهتر، بدون artifacts
♻️هماهنگی عالی با پرامپت، حتی در صحنههای پیچیده و سریع
♻️کنترلهای پیشرفته برای دوربین، حرکت، ترکیببندی و صدا
🎞️ قابلیتها:
Image-to-Video
Video-to-Video
Keyframes
کنترل کامل حرکت دوربین
📊 رکورد کیفیت:
اینکه Gen-4.5 در رتبهبندی Artificial Analysis Text-to-Video امتیاز ۱۲۴۷ Elo را ثبت کرده و بالاتر از تمام مدلهای ویدیویی فعلی قرار گرفته است.
🔗 لینک اعلام رسمی:
https://app.runwayml.com/video-tools/
@rss_ai_ir
#Runway #Gen45 #VideoGeneration #AI #AIGeneration #DeepLearning #TechNews
❤1
This media is not supported in your browser
VIEW IN TELEGRAM
✨ World Models That Know When They Don't Know
@rss_ai_ir
در دنیای مدلسازی ویدیو، یکی از بزرگترین مشکلات توهمزایی (Hallucination) و ناتوانی مدل در تشخیص نقاطی است که مطمئن نیست. پژوهش جدیدی با نام C3 راهکاری ارائه میدهد که مدل بتواند عدم قطعیت خود را تشخیص دهد و وقتی نمیداند، بداند که نمیداند! 🤯🎥
---
🔍 حال C3 چیست؟
اینکه C3 یک روش کمیسازی عدمقطعیت (Uncertainty Quantification) برای مدلهای تولید ویدیو است. این روش کمک میکند مدل:
🎯 اعتمادپذیری پیکسلبهپیکسل ارائه دهد (Dense Confidence Estimation)
🚨 ورودیهای خارج از توزیع (OOD) را تشخیص دهد
🛑 توهمات ویدئویی را کاهش دهد
🎮 تولید ویدیو را تحت کنترل دقیقتری قرار دهد
به بیان ساده:
مدل فقط تولید نمیکند؛ به شما میگوید کجا احتمال اشتباه دارد! 🤝
---
💡 چرا مهم است؟
در کاربردهایی مثل خودرانها، پزشکی، و رباتیک، مدل باید علاوه بر خروجی، درجه اطمینان را هم اعلام کند.
همچنین C3 کمک میکند که مدلهای ویدیویی به جای تولید بیمحابا، رفتار مسئولانهتری داشته باشند.
---
🔗 لینکها
📄 Arxiv:
https://arxiv.org/abs/2512.05927
📘 PDF:
https://arxiv.org/pdf/2512.05927
🌐 Project Page:
https://c-cubed-uq.github.io/
---
🧠 هشتگها
#AI #DeepLearning #VideoGeneration #Uncertainty #MachineLearning #MultimodalAI
@rss_ai_ir
در دنیای مدلسازی ویدیو، یکی از بزرگترین مشکلات توهمزایی (Hallucination) و ناتوانی مدل در تشخیص نقاطی است که مطمئن نیست. پژوهش جدیدی با نام C3 راهکاری ارائه میدهد که مدل بتواند عدم قطعیت خود را تشخیص دهد و وقتی نمیداند، بداند که نمیداند! 🤯🎥
---
🔍 حال C3 چیست؟
اینکه C3 یک روش کمیسازی عدمقطعیت (Uncertainty Quantification) برای مدلهای تولید ویدیو است. این روش کمک میکند مدل:
🎯 اعتمادپذیری پیکسلبهپیکسل ارائه دهد (Dense Confidence Estimation)
🚨 ورودیهای خارج از توزیع (OOD) را تشخیص دهد
🛑 توهمات ویدئویی را کاهش دهد
🎮 تولید ویدیو را تحت کنترل دقیقتری قرار دهد
به بیان ساده:
مدل فقط تولید نمیکند؛ به شما میگوید کجا احتمال اشتباه دارد! 🤝
---
💡 چرا مهم است؟
در کاربردهایی مثل خودرانها، پزشکی، و رباتیک، مدل باید علاوه بر خروجی، درجه اطمینان را هم اعلام کند.
همچنین C3 کمک میکند که مدلهای ویدیویی به جای تولید بیمحابا، رفتار مسئولانهتری داشته باشند.
---
🔗 لینکها
📄 Arxiv:
https://arxiv.org/abs/2512.05927
📘 PDF:
https://arxiv.org/pdf/2512.05927
🌐 Project Page:
https://c-cubed-uq.github.io/
---
🧠 هشتگها
#AI #DeepLearning #VideoGeneration #Uncertainty #MachineLearning #MultimodalAI
🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
✨ بهروزرسانی مهم از Runway ML؛ Demo Day تحقیقاتی که بیسروصدا برگزار شد 🎥🤖
مدتی است Runway ML آرام و بدون هیاهو جلو میرود، اما در Research Demo Day اخیرشان چند نکته مهم مطرح شد که ارزش توجه دارد 👇
🧠 Gen-4.5
در نسخههای آینده امکان ساخت و ویرایش صدا و همچنین ادیت ویدیو با طول دلخواه و حتی مونتاژ چندشاتی (multi-shot editing) فراهم میشود 🎬🔊
🌍 GWM-1 | General World Model
مدلی خودبازگشتی که فریمبهفریم آینده را پیشبینی میکند. کاربر میتواند وسط کار دخالت کند:
حرکت در فضا، کنترل ربات، یا تعامل با عاملها. خروجی فعلی: 720p و 24fps ⏱️
یک بازیگر جدی دیگر در میدان «مدلهای جهان».
🤖 GWM Robotics
شبیهساز قابلآموزش برای تولید داده مصنوعی و آموزش مقیاسپذیر رباتها، ساختهشده روی GWM-1.
🌐 GWM Worlds
مدل جهان برای شبیهسازی محیط بهصورت بلادرنگ و بینهایت.
از یک صحنه ثابت شروع میکند و جهانی قابل کاوش با هندسه، نورپردازی و فیزیک میسازد.
میتوانی انسان باشی، پهپاد، حیوان یا ربات — هر نقشی که بخواهی 🏙️🛸
🗣️ GWM Avatars
آواتارهای سخنگو شبیه Hedra و Live Avatars؛
نه فقط انسان، بلکه موجودات، شخصیتها و حیوانات، با ویدیوهای طولانی در 720p 🎭
⚠️ اسپویل مهم
هیچکدام از اینها هنوز آماده نیستند و زمانی برای عرضه اعلام نشده.
اینکه Runway از نظر ایده جلو بوده، اما از نظر سرعت آپدیتها کمی عقب افتاده است.
📺 ویدیو کامل:
https://www.youtube.com/watch?v=OnXu-6xecxM
🌐 وبسایت:
https://runwayml.com/
@rss_ai_ir
#AI #RunwayML #WorldModels #GenerativeAI #VideoGeneration #Robotics #Simulation
مدتی است Runway ML آرام و بدون هیاهو جلو میرود، اما در Research Demo Day اخیرشان چند نکته مهم مطرح شد که ارزش توجه دارد 👇
🧠 Gen-4.5
در نسخههای آینده امکان ساخت و ویرایش صدا و همچنین ادیت ویدیو با طول دلخواه و حتی مونتاژ چندشاتی (multi-shot editing) فراهم میشود 🎬🔊
🌍 GWM-1 | General World Model
مدلی خودبازگشتی که فریمبهفریم آینده را پیشبینی میکند. کاربر میتواند وسط کار دخالت کند:
حرکت در فضا، کنترل ربات، یا تعامل با عاملها. خروجی فعلی: 720p و 24fps ⏱️
یک بازیگر جدی دیگر در میدان «مدلهای جهان».
🤖 GWM Robotics
شبیهساز قابلآموزش برای تولید داده مصنوعی و آموزش مقیاسپذیر رباتها، ساختهشده روی GWM-1.
🌐 GWM Worlds
مدل جهان برای شبیهسازی محیط بهصورت بلادرنگ و بینهایت.
از یک صحنه ثابت شروع میکند و جهانی قابل کاوش با هندسه، نورپردازی و فیزیک میسازد.
میتوانی انسان باشی، پهپاد، حیوان یا ربات — هر نقشی که بخواهی 🏙️🛸
🗣️ GWM Avatars
آواتارهای سخنگو شبیه Hedra و Live Avatars؛
نه فقط انسان، بلکه موجودات، شخصیتها و حیوانات، با ویدیوهای طولانی در 720p 🎭
⚠️ اسپویل مهم
هیچکدام از اینها هنوز آماده نیستند و زمانی برای عرضه اعلام نشده.
اینکه Runway از نظر ایده جلو بوده، اما از نظر سرعت آپدیتها کمی عقب افتاده است.
📺 ویدیو کامل:
https://www.youtube.com/watch?v=OnXu-6xecxM
🌐 وبسایت:
https://runwayml.com/
@rss_ai_ir
#AI #RunwayML #WorldModels #GenerativeAI #VideoGeneration #Robotics #Simulation
🥰6👏6❤5👍4😁4🔥3🎉3