VIRSUN
6.09K subscribers
1.06K photos
623 videos
5 files
683 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
Media is too big
VIEW IN TELEGRAM
🧠 مدل‌های انتشار (Diffusion Models) – با تمرکز بر DDPM

در دنیای مدل‌های مولد، روش‌های مبتنی بر «انتشار» به‌عنوان یکی از دقیق‌ترین و قابل‌کنترل‌ترین رویکردها شناخته می‌شوند. به‌ویژه DDPM (مدل احتمالاتی انتشار کاهش نویز) که ساختار ساده اما بسیار قدرتمندی دارد، پایه‌گذار بسیاری از مدل‌های موفق مانند Stable Diffusion است.

---

🔄 منطق مدل چگونه کار می‌کند؟

مدل DDPM ابتدا تصویر واقعی را طی چند مرحله با نویز مخدوش می‌کند تا به نویز کامل برسد. سپس در مسیر معکوس، گام‌به‌گام تلاش می‌کند تا آن نویز را حذف کرده و تصویر اصلی را بازسازی کند. این فرآیند آموزش باعث می‌شود مدل یاد بگیرد که از یک نویز خالص، تصویری دقیق و واقعی تولید کند.

در واقع، این مدل نه «یاد می‌گیرد چه چیزی بسازد»، بلکه «یاد می‌گیرد چگونه نویز را حذف کند».

---

⚙️ چرا DDPM اهمیت دارد؟

فرآیند آموزش پایدارتر از GAN است و مدل دچار نوسانات یادگیری نمی‌شود.
در تولید محتواهای تصویری، قابلیت کنترل و هدایت بیشتری در اختیار کاربر قرار می‌دهد.
برخلاف مدل‌های تصادفی ساده، خروجی‌هایی با جزئیات بالا و بافت دقیق ارائه می‌دهد.
امکان شرطی‌سازی وجود دارد؛ یعنی می‌توان تصویر خاصی را بر اساس متن، دسته‌بندی یا اطلاعات زمینه‌ای تولید کرد.

---

🧪 کاربردهای صنعتی و علمی


🔸 تولید تصویر از روی متن (Text-to-Image Generation)
🔸 بازسازی تصاویر آسیب‌دیده یا نویزی (Image Denoising)
🔸 ساخت انیمیشن و ویدئوهای تعاملی
🔸 تولید داده برای حوزه‌های پزشکی، رادار، سنجش‌ازدور و طراحی صنعتی
🔸 جایگزین‌سازی قطعات گمشده در تصاویر قدیمی یا ناقص

---

📌 جمع‌بندی

مدل‌های انتشار، انقلابی در هوش مصنوعی مولد به‌وجود آورده‌اند. DDPM به‌عنوان ساده‌ترین و پایه‌ای‌ترین نوع این مدل‌ها، درک مفهومی بسیار شفافی دارد و درعین‌حال قدرت بالایی در تولید تصاویر دقیق و کنترل‌پذیر ارائه می‌دهد.

در آینده، به‌کمک نسخه‌های سریع‌تر مانند DDIM یا مدل‌های ترکیبی با ترنسفورمر، سرعت و دقت این نسل از معماری‌ها حتی بیشتر خواهد شد.

---

📎 اگر دوست داری پیاده‌سازی عملی این مدل‌ها با PyTorch یا HuggingFace را هم بررسی کنیم، کافیه توی کامنت بگی تا آموزش گام‌به‌گامش رو هم آماده کنیم.

@rss_ai_ir
#هوش_مصنوعی #مدل_مولد #مدل_انتشار #پردازش_تصویر #یادگیری_عمیق #AI #DiffusionModels #DDPM #StableDiffusion #GenerativeAI
22👍18🔥16🥰16😁16👏15🎉9🙏1
⚡️ فتورئالیسم در مدل‌های دیفیوژن در کمتر از ۱۰ دقیقه؟

✳️تیم Hunyuan روش جدیدی به نام SRPO (Semantic Relative Preference Optimization) معرفی کرده که نشان می‌دهد این کار ممکن است.

🔹 فریم ورکSRPO یک فریم‌ورک آنلاین برای یادگیری تقویتی در مدل‌های متن-به-تصویر است؛ جایگزینی کارآمدتر نسبت به GRPO که تولید را پایدارتر، سریع‌تر و ارزان‌تر می‌کند.

📌 چطور کار می‌کند؟

Direct-Align →
بهینه‌سازی حتی روی پر‌نویزترین مراحل، بدون خطا و با مصرف کمتر حافظه.

Promptable Rewards →
تبدیل پاداش‌ها به سیگنال‌های شرطی. کافیست کلمات کلیدی به پرامپت اضافه کنید تا مدل بلافاصله واقع‌گرایی را تقویت کند.

بهره‌وری → ۷۵ برابر افزایش سرعت؛ نتایج تنها در ۱۰ دقیقه روی ۳۲ GPU (بهتر از DanceGRPO).

کیفیت → افزایش رئالیسم و زیبایی تصاویر در مدل FLUX.1-dev بدون نیاز به داده‌ی جدید.

پایداری → بدون reward hacking، سازگار با مدل‌های پاداش آماده و بدون oversaturation تصاویر.


🔗 منابع بیشتر:
🟢 پروژه
🟢 مقاله
🟢 مدل
🟢 کد

#هوش_مصنوعی #یادگیری_تقویتی #مدل_دیفیوژن #متن_به_تصویر #SRPO #AI #DiffusionModels
🎉6148😁44🔥43👍40👏37🥰34
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 StreamDiffusionV2 —
نسل جدید ویدیوهای تعاملی در زمان واقعی!

پروژه‌ی StreamDiffusion به نسخه‌ی دوم رسیده و حالا یک سیستم متن‌باز برای تولید ویدیوهای تعاملی به‌صورت Real-Time است.
هدف تیم توسعه‌دهنده: رسیدن به تعادلی بین سرعت بالا و کیفیت بصری قابل‌قبول

🚀 ویژگی‌های کلیدی:

♻️کاهش قابل‌توجه flickering و boiling artifacts در ویدیوهای دیفیوژنی

♻️پشتیبانی از GPUهای متنوع و ساختار مقیاس‌پذیر

♻️امکان تنظیم تعداد مراحل denoising برای کنترل بهتر جزئیات

♻️تولید ویدیو با نرخ فریم بالا (High FPS) مناسب برای استریم، ولاگ و پلتفرم‌های محتوایی


🎮 در واقع، StreamDiffusionV2 را می‌توان نوعی Performance Animation Real-Time مدرن دانست — نسل جدیدی از ویدیو به‌کمک AI که مستقیماً از جریان ورودی، خروجی زنده می‌سازد.

📦 کد منبع:
🔗 github.com/chenfengxu714/StreamDiffusionV2
🌐 صفحه‌ی پروژه:
🔗 streamdiffusionv2.github.io

@rss_ai_ir
#AI #StreamDiffusionV2 #VideoGeneration #RealTimeAI #DiffusionModels
This media is not supported in your browser
VIEW IN TELEGRAM
💄 Pixel-Perfect Depth
؛ استاندارد جدید در تخمین عمق تک‌تصویری (SOTA)
💄


🔹 مدل Pixel-Perfect Depth یک سیستم پیشرفته برای تخمین عمق از تصاویر تک‌چشمی (mono-depth estimation) است که از Pixel-Space Diffusion Transformers استفاده می‌کند و اکنون رکورد جدیدی در دقت (SOTA) ثبت کرده است.


🚀 ویژگی‌ها:
✳️تخمین عمق با دقت پیکسلی و جزئیات خیره‌کننده 🖼️
✳️طراحی بر پایه ترنسفورمرهای دیفیوزنی در فضای تصویر (نه ویژگی‌ها)
✳️پشتیبانی از ساختارهای پیچیده و بافت‌های ظریف
✳️عملکرد عالی در سناریوهای واقعیت افزوده، نقشه‌برداری و بینایی رباتیک


📜 لایسنس آزاد: Apache 2.0

🔗 مقاله: lnkd.in/d8wxFpyY
🔗 پروژه: lnkd.in/dV5HhsqH
🔗 کد: lnkd.in/d9JKFBJq
🔗 دموی آنلاین: lnkd.in/d3wBkKJ9

@rss_ai_ir
#AI #ComputerVision #DepthEstimation #DiffusionModels #SOTA #هوش_مصنوعی
👍1
FlashVSR —
ارتقای ویدیو در زمان واقعی بر پایه‌ی دیفیوشن

پروژه‌ی FlashVSR به هدف رسیدن به Super-Resolution ویدیوهای استریم در زمان واقعی طراحی شده است — نه بهترین، اما کاملاً متن‌باز و قابل استفاده برای همه 🔓

📦 کد منبع:

🔗 github.com/OpenImagingLab/FlashVSR

🧩 نودها برای ComfyUI:

🔗 github.com/smthemex/ComfyUI_FlashVSR

💡 ویژگی‌ها و نکات فنی:

✳️مصرف حافظه بالا (مثل اکثر آپ‌اسکیلرهای دیفیوشنی)

✳️مبتنی بر Block-Sparse Attention — ممکن است روی کارت‌های گرافیکی ضعیف ناپایدار عمل کند

✳️کیفیت خروجی مناسب با تأکید بر سرعت پردازش


در مجموع، گزینه‌ای عالی برای کسانی که دنبال راه‌حل متن‌باز ارتقای ویدیو با انعطاف بالا هستند.

#FlashVSR #AI #Upscaling #VideoAI #SuperResolution #OpenSource #MachineLearning #DiffusionModels #ComfyUI #DeepLearning #BlockSparseAttention
👍1🔥1👏1