VIRSUN
10.3K subscribers
1.11K photos
667 videos
5 files
740 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
🎬 نسل جدید ویدئوهای طولانی با روش Mixture of Contexts

محققان ByteDance و استنفورد روشی نوین برای تولید ویدئوهای طولانی معرفی کرده‌اند که مشکل اصلی مدل‌ها را حل می‌کند:
وقتی ویدئو طولانی می‌شود، توجه مدل بیش از حد «پف می‌کند»؛ محاسبات سنگین‌تر می‌شود، جزئیات از بین می‌رود، کاراکترها فراموش می‌شوند و تصویر «سر می‌خورد».


---

🔑 ایده اصلی: Mixture of Contexts

♻️ویدئو به چند بخش (فریم، شات، کپشن) تقسیم می‌شود.
♻️هر کوئری فقط بخش‌های مرتبط را انتخاب می‌کند، نه کل تاریخچه را.
♻️انتخاب با یک امتیاز شباهت ساده انجام می‌شود (مقایسه ویژگی بخش‌ها با کوئری).
♻️دو «لنگر» همیشه حاضرند: پرامپت کامل و شات محلی برای جزئیات تصویری.
♻️یک ماسک علّی دسترسی به فریم‌های آینده را می‌بندد تا حلقه ایجاد نشود.
♻️در نهایت، Flash Attention فقط روی بخش‌های انتخاب‌شده اعمال می‌شود → رشد محاسبات وابسته به طول کل ویدئو نیست، بلکه فقط به محتوای مفید بستگی دارد.



---

📊 نتایج

♻️۷ برابر کاهش FLOPs
♻️۲.۲ برابر سرعت بیشتر
♻️در صحنه‌های طولانی (۱۸۰هزار توکن)، ۸۵٪ از توجه غیرضروری حذف شد.



---

🎥 جمع‌بندی

✳️در ویدئوهای کوتاه، کیفیت حفظ می‌شود.
✳️در ویدئوهای طولانی، صحنه‌ها روان‌تر و کاراکترها پایدارتر هستند.
✳️زمان تولید به‌طور محسوسی کاهش می‌یابد.


🔑 نکته مهم:
مدل خودش یاد می‌گیرد روی چه چیزی تمرکز کند، بدون نیاز به تغییر معماری پایه؛ یعنی نوعی «حافظه» برای چند دقیقه ویدئو پیدا می‌کند.

🔖 لینک مقاله

#AI #ML #VideoGeneration #ByteDance #Stanford #DeepLearning #GenerativeAI #هوش_مصنوعی #یادگیری_عمیق #ویدئو #تولید_ویدئو
🎉26👍2523🥰23😁22🔥18👏16
🚀 Higgsfield و UGC Factory:
انقلاب در ساخت ویدیوهای کاربرمحور 🎥

هایگزفیلد دوباره برگشته با محصولی تازه به نام UGC Factory که بر پایه‌ی Nano Banana و Veo 3 ساخته شده.

🔹 چیزی که این تیم رو خاص می‌کنه، اینه که همیشه محصولاتشون رو زود روی کاربرها تست می‌کنن و به جای تمرکز صرف روی مدل، بیشتر روی خروجی واقعی و تجربه‌ی کاربر کار می‌کنن.
🔹 از اون طرف، منتقدها می‌گن که از مدل‌های اصلی Higgsfield تقریباً چیزی باقی نمونده و بیشتر شبیه به تجمیع‌کننده API برای ژنراتورها شدن. (البته نباید فراموش کرد که محصول قبلی‌شون، Speak 2.0، موفقیت خوبی داشت).

🟢 اما برگردیم به UGC Factory:
ایده اینه که ساخت ویدیوهای تبلیغاتی یا تیک‌تاک‌مانند رو به ساده‌ترین حالت برسونه:

1️⃣ انتخاب مدل و محصول/شیء
2️⃣ تولید ۴ تصویر با Nano Banana 🍌
3️⃣ اضافه کردن حرکت (Action)
4️⃣ انتخاب یا اضافه کردن صدا 🎶
5️⃣ انتخاب سبک‌های صوتی (Audio styles)
6️⃣ افزودن پس‌زمینه مناسب

🎯 بدون نیاز به پرامپت‌های طولانی یا تنظیمات پیچیده. فقط چند کلیک و خروجی آماده!

📌 لینک تست: Higgsfield UGC Factory

@rss_ai_ir

#AI #UGC #NanoBanana #Veo3 #Higgsfield #VideoGeneration
13👍11🔥10👏10😁9🎉7🥰6
This media is not supported in your browser
VIEW IN TELEGRAM
🐙 ویدیوهای انسان‌محور با دقت بالا 🐙

محققان دانشگاه Tsinghua و شرکت ByteDance فریم‌ورک جدیدی به نام HuMo معرفی کردند؛ سیستمی یکپارچه برای تولید ویدیوهای انسان با کیفیت بالا که ویژگی‌های زیر رو داره:

🔹 تولید ویدیو از روی پرامپت متنی
🔹 حفظ یکپارچگی سوژه در فریم‌های مختلف
🔹 حرکت‌های هماهنگ‌شده با صدا (Audio-Driven Motion)
🔹 کنترل‌پذیری و جزئیات ظریف در خروجی

📌 فریم ورک HuMo می‌تونه از ورودی‌های چندحالته (متن، تصویر، صدا) ویدیوهای طبیعی و روان تولید کنه.
📌 سورس‌کد با لایسنس Apache 2.0 منتشر شده و به راحتی قابل استفاده و توسعه است.

🔗 لینک‌ها:

👉 Paper
👉 Project
👉 Repo

#HuMo #VideoGeneration #AI #DeepLearning #Tsinghua #ByteDance
12🔥11🥰10👏8👍5🎉5😁4
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 Lucy

تازه‌ترین محصول تیم Decart.ai معرفی شد: генератор ویدیویی Lucy که سرعت بالایی دارد و توجه زیادی جلب کرده است.

🔹 نسخه اصلی با ۱۴ میلیارد پارامتر عرضه شده (نسخه سبک‌تر ۵B هم وجود دارد).
🔹 سرعت: تولید یک ویدئو ۵ ثانیه‌ای در حدود ۱۲ ثانیه — ادعا ۶ ثانیه است، اما همین هم در مقایسه عالی محسوب می‌شود.
🔹 کیفیت خروجی: ۷۲۰p
🔹 طول ویدئو: فعلاً در Fal.ai فقط ۵ ثانیه (برخی منابع از ۱۰ ثانیه خبر داده‌اند).
🔹 هزینه: ۰.۰۸ دلار به ازای هر ثانیه تولید

💡 نکته مهم: این مدل اپن‌سورس نیست و فعلاً فقط روی Fal.ai در دسترس است.
اگر بخواهیم با Wan مقایسه کنیم، تفاوت سرعت قابل توجه است (۱۲ ثانیه در مقابل ۶۸ ثانیه)، اما در کیفیت هنوز جای بحث وجود دارد.

👾 جالب اینکه Decart.ai اخیراً Mirage (ژنراتور ریل‌تایم دنیاها) و Oasis 2.0 (ژنراتور دنیای Minecraft) را هم معرفی کرده بود — نشانه‌ای که احتمالاً مسیر آینده ترکیب «ژنراتورهای دنیا» و «ژنراتورهای ویدیو» خواهد بود (مشابه Veo و Genie از گوگل).

🔗 تست در Lucy Playground
🔗 معرفی رسمی: Decart.ai
@rss_ai_ir

---

#Lucy #AI #VideoGeneration #Decart #FalAI #GenerativeAI #cgevent
😁10👍5🔥53🎉3
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 ورزش سنگین در Sora!

مدل ویدیوساز Sora وارد مرحله‌ی جدیدی شده — صحنه‌هایی که فیزیک را تقریباً درست شبیه‌سازی می‌کنند... تا وقتی که یک هالتر وسط هوا می‌ماند 😅

حرکات آهسته، نور واقع‌گرایانه و جزئیات بدن شگفت‌انگیز است، اما هنوز مغز حس می‌کند چیزی طبیعی نیست — مثل وزنه‌برداری در دنیای خواب!

🧠 نکته جالب اینکه مدل‌هایی مثل Sora یا Veo واقعاً دارند فیزیک را یاد می‌گیرند:
وزن، شتاب، گشتاور و برخورد اجسام — بدون هیچ داده‌ی واقعی، فقط از روی تصویر.

نتیجه؟
🔹 ویدیوهایی خیره‌کننده
🔹 اما هنوز با منطق فیزیکیِ کمی اشتباه!

📌 خلاصه:
همچنین AI هنوز قوانین نیوتن را کامل بلد نیست... ولی به‌طرز خطرناکی دارد نزدیک می‌شود ⚙️

@rss_ai_ir
#Sora #هوش_مصنوعی #ویدیوژنراتور #AI #VideoGeneration #DeepLearning
😁4👍2🤣1
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 StreamDiffusionV2 —
نسل جدید ویدیوهای تعاملی در زمان واقعی!

پروژه‌ی StreamDiffusion به نسخه‌ی دوم رسیده و حالا یک سیستم متن‌باز برای تولید ویدیوهای تعاملی به‌صورت Real-Time است.
هدف تیم توسعه‌دهنده: رسیدن به تعادلی بین سرعت بالا و کیفیت بصری قابل‌قبول

🚀 ویژگی‌های کلیدی:

♻️کاهش قابل‌توجه flickering و boiling artifacts در ویدیوهای دیفیوژنی

♻️پشتیبانی از GPUهای متنوع و ساختار مقیاس‌پذیر

♻️امکان تنظیم تعداد مراحل denoising برای کنترل بهتر جزئیات

♻️تولید ویدیو با نرخ فریم بالا (High FPS) مناسب برای استریم، ولاگ و پلتفرم‌های محتوایی


🎮 در واقع، StreamDiffusionV2 را می‌توان نوعی Performance Animation Real-Time مدرن دانست — نسل جدیدی از ویدیو به‌کمک AI که مستقیماً از جریان ورودی، خروجی زنده می‌سازد.

📦 کد منبع:
🔗 github.com/chenfengxu714/StreamDiffusionV2
🌐 صفحه‌ی پروژه:
🔗 streamdiffusionv2.github.io

@rss_ai_ir
#AI #StreamDiffusionV2 #VideoGeneration #RealTimeAI #DiffusionModels
🎬 به‌روزرسانی جدید Veo 3.1 از گوگل در راه است!

طبق اطلاعات فاش‌شده در توییتر (۸ اکتبر ۲۰۲۵)، نسخه‌ی جدید مدل تولید ویدیو Veo 3.1 از Google به‌زودی منتشر می‌شود. این مدل در لیست انتظار Higgsfield AI و در کدهای داخلی Vertex AI مشاهده شده است.

ویژگی‌های احتمالی نسخه جدید:

بهبود در ثبات و هماهنگی شخصیت‌ها در طول ویدیو

افزایش مدت زمان تولید ویدیو تا ۶۰ ثانیه

اضافه شدن سازنده‌ی صحنه‌ها (Scene Builder)

وجود پریست‌های سینمایی (Cinematic Presets) برای خروجی‌های حرفه‌ای‌تر 🎥


جامعه‌ی هوش مصنوعی این تغییرات را گامی جدی از سوی گوگل برای رقابت مستقیم با Sora از OpenAI می‌داند، هرچند گوگل هنوز به‌صورت رسمی این خبر را تأیید نکرده است.

@rss_ai_ir
#Veo3 #Google #هوش_مصنوعی #تولید_ویدیو #AI #VideoGeneration
🎥 مدتی است که کاربران متوجه یک باگ جالب در مدل‌های تولید ویدیو شده‌اند:

وقتی از مدل بخواهید ویدیویی از یک انسان وارونه (سر به پایین) بسازد و سپس همان ویدیو را ۱۸۰ درجه بچرخانید، نتیجه کاملاً غیرمنطقی و خنده‌دار می‌شود! 😂

نسخه جدید Sora از OpenAI هم هنوز از این مشکل رنج می‌برد — به‌محض چرخاندن تصویر، فیزیک بدن، لباس و حتی جاذبه کاملاً به‌هم می‌ریزد.

👀 این مسئله نشان می‌دهد که حتی مدل‌های پیشرفته‌ی ویدیو هنوز در درک پایداری فیزیکی و جهت‌گیری فضایی به درستی عمل نمی‌کنند.

📌 شاید روزی برسد که هوش مصنوعی واقعاً بداند “بالا” کجاست!

@rss_ai_ir
#هوش_مصنوعی #Sora #ویدیو #AI #VideoGeneration #OpenAI
😁2
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 Grok Imagine 0.9 Desktop
بالاخره منتشر شد!

در نسخه‌ی جدید، ویژگی Lip-sync عمومی اضافه شده — اما با نتایج بامزه‌ای 😄
مثلاً در ویدیوهای تست، کوسه و سنجاب هر دو هم‌زمان دهان باز می‌کنند (هرکدام با استایل خودش!) 🦈🐿

📉 مشکل اینجاست که الگوریتم لب‌خوانی مدل، روی تمام دهان‌ها و پوزه‌های موجود در تصویر اعمال می‌شود، و چون هنوز تفکیک موجودات انجام نمی‌دهد، حرکات لب‌ها به شکل هماهنگ ولی عجیب اجرا می‌شود.

با این حال، Grok Imagine 0.9 گام مهمی است به سمت ویدیوهای چندشخصیتی و هم‌زمان با صداهای مختلف 🎧

@rss_ai_ir
#Grok #xAI #LipSync #هوش_مصنوعی #AI #VideoGeneration
👍2
🔥 خبر داغ برای علاقه‌مندان هوش مصنوعی!

کاربرها گزارش داده‌اند که Veo 3.1 روی Google Flow فعال شده — البته فقط با VPN آمریکایی 🇺🇸 قابل دسترسه.

🎬 نسخه‌ی جدید Veo طبق شایعات:

♻️پشتیبانی از ویدیوهای تا ۶۰ ثانیه
♻️سینک بهتر کاراکترها و اشیا
♻️حالت‌های سینمایی و پری‌ست‌های نور و رنگ
♻️ابزار ساخت صحنه و ویرایش ویدیو داخل Flow


به‌نظر می‌رسه گوگل داره جدی‌تر از همیشه وارد رقابت با Sora از OpenAI می‌شه.

@rss_ai_ir

#Veo3 #GoogleAI #Flow #VideoGeneration #GenerativeAI #Sora
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 مدل جدید ByteDance: Video-As-Prompt Wan2.1-14B 🎬

شرکت ByteDance از مدل جدید خود به نام Wan2.1-14B رونمایی کرده که برای وظیفه‌ی نوآورانه‌ی Video-as-Prompt طراحی شده است — یعنی می‌توانید با دادن یک ویدیو (یا ترکیبی از تصویر و متن)، ویدیوی جدید و خلاقانه‌ای بسازید.

ویژگی‌ها:

پشتیبانی از حالت‌های:
🎞️ Video → Video
🖼️ Text/Image → Video

♻️دارای ۱۴ میلیارد پارامتر برای جزئیات بالا، حرکات روان و واقع‌گرایی چشمگیر.

♻️از ویدیوی ورودی برای حفظ سبک، ترکیب‌بندی و ریتم حرکتی استفاده می‌کند.


⚠️ نکات مهم:

✳️برای اجرای آن به GPU قدرتمند و حافظه بالا نیاز است.
✳️کیفیت خروجی به میزان پیچیدگی درخواست و طول ویدیو بستگی دارد.


🟠 GitHub
🟠 Hugging Face

@rss_ai_ir

#AI #VideoGeneration #ByteDance #Wan2 #GenerativeAI #HuggingFace #Innovation
1
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 تولید ویدیو با ترکیب کاراکترها (Character Mixing Generation) 🦗

🚀 مؤسسه MBZUAI اولین سیستم تولید ویدیو را معرفی کرده که قادر است هویت، رفتار و سبک اصلی هر کاراکتر را حفظ کند، در حالی که تعاملات طبیعی و منطقی بین شخصیت‌هایی که هرگز با هم وجود نداشته‌اند ایجاد می‌کند!

از کارتون‌های کلاسیک 🎨 مثل We Bare Bears و Tom & Jerry
تا شخصیت‌های واقعی 🎭 مثل Mr. Bean و Young Sheldon — همه در یک دنیای مشترک و هماهنگ.

💡 این فناوری گامی بزرگ در جهت تولید ویدیوهای چندکاراکتری واقعی و خلاقانه است، جایی که مرز بین انیمیشن و واقعیت محو می‌شود.

📚 منابع
👉 مقاله: https://lnkd.in/dhKMwukv
👉 پروژه: https://lnkd.in/dBkJs48h
👉 ریپوزیتوری: https://lnkd.in/dw_uzgAk

@rss_ai_ir
#هوش_مصنوعی #ویدیو #AI #MBZUAI #VideoGeneration #CharacterMixing
🔥21👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 Minimax
نسخه‌ی جدید شبکه‌ی عصبی تولید ویدیو خود را معرفی کرد: Hailuo 2.3

شرکت Minimax نسخه‌ی تازه‌ای از مدل تولید ویدیو با هوش مصنوعی به نام Hailuo 2.3 را منتشر کرده است.
این نسخه تمرکز ویژه‌ای بر بهبود فیزیک حرکات و واقع‌گرایی در ویدیوها دارد — حرکات اکنون طبیعی‌تر، روان‌تر و از نظر دینامیکی دقیق‌تر هستند. ⚙️🎥

📊 مدل جدید Hailuo 2.3 گامی مهم در جهت ایجاد ویدیوهای فوتورئالیستی محسوب می‌شود و می‌تواند برای کاربردهایی مانند انیمیشن‌سازی، تولید محتوای تبلیغاتی، و شبیه‌سازی‌های واقع‌گرایانه مورد استفاده قرار گیرد.

منبع:
https://hailuoai.video/create/image-to-video

@rss_ai_ir
#AI #VideoGeneration #Hailuo #Minimax #MachineLearning #NeuralNetworks
👍2🔥1😁1👌1
This media is not supported in your browser
VIEW IN TELEGRAM
👢 Generative View Stitching (GVS):
رویکردی نو برای تولید ویدیوهای پیوسته و بدون برخورد با دوربین 🚀

پژوهش جدیدی به نام Generative View Stitching (GVS) معرفی شده که امکان تولید ویدیوهای هدایت‌شده با دوربین را به‌صورت بدون برخورد (collision-free) و غیرخودبازگشتی (non-autoregressive) فراهم می‌کند — جایگزینی نوآورانه برای روش‌های سنتی video length extrapolation. 🎥

ویژگی‌های کلیدی GVS:
🔹 تولید ویدیو در مسیرهای از پیش تعیین‌شده (predefined camera trajectories) بدون خطاهای فضایی یا حرکتی
🔹 استفاده از ساختار غیرخودبازگشتی برای افزایش پایداری فریم‌ها و هماهنگی زمانی
🔹 مناسب برای کاربردهای گیمینگ، واقعیت مجازی (VR) و رندرهای سینمایی هوش مصنوعی
🔹 مجوز MIT — کاملاً متن‌باز و قابل استفاده در پروژه‌های تحقیقاتی یا صنعتی

📄 منابع رسمی:
👉 مقاله در
ArXiv: arxiv.org/pdf/2510.24718
👉 صفحه پروژه:
andrewsonga.github.io/gvs
👉 سورس‌کد:
github.com/andrewsonga/generative_view_stitching

🧠مدل GVS گامی مهم در جهت تولید ویدیوهای فتوواقع‌گرایانه با کنترل دقیق دوربین است — دنیای فیلم‌سازی و شبیه‌سازی ۳D را هوشمندتر از همیشه می‌سازد.

@rss_ai_ir
#AI #VideoGeneration #GVS #GenerativeAI #ComputerVision #Research
2🔥1👏1