VIRSUN
6.14K subscribers
1.02K photos
585 videos
5 files
654 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
🧠 گلوگاه اصلی در مدل‌های هوش مصنوعی — نه قدرت محاسباتی، بلکه حافظه است

امروزه حتی بزرگ‌ترین مدل‌های زبانی به جای FLOPs، در KV-cache گیر می‌کنند:
هرچه طول کانتکست بیشتر باشد، حجم ذخیره‌سازی Key و Value بزرگ‌تر می‌شود → پردازنده‌های گرافیکی خیلی سریع محاسبه می‌کنند، اما حافظه و پهنای باند آن نمی‌تواند همگام شود.

⚡️ راه‌حل: XQuant
این روش به جای ذخیره‌ی Key/Value فقط X — بردار ورودی لایه را نگه می‌دارد.

✔️ همچنین X حجم کمتری دارد
✔️ به‌راحتی می‌تواند کوانتیزه شود (کاهش به بیت‌های پایین‌تر)
✔️ هنگام تولید توکن، K و V دوباره از X محاسبه می‌شوند

مزایا:

📉 کاهش مصرف حافظه تا ۲ برابر
🎯 افت کیفیت تقریباً ناچیز
🟢 همچنین XQuant-CL — نسخه‌ی بهبود یافته
فقط تفاوت‌های کوچک بین لایه‌ها را ذخیره می‌کند (چون تقریباً مشابه‌اند)
صرفه‌جویی: ۱۰ تا ۱۲.۵ برابر
افت کیفیت: فقط ۰.۰۱ تا ۰.۱ perplexity


➡️ نتایج

✳️کاهش حافظه تا ۱۲.۵× نسبت به FP16
✳️کیفیت نزدیک به FP16
✳️عملکرد بهتر نسبت به بهترین روش‌های کوانتیزه‌کردن KV-cache


💡 منطق ساده است: کارت‌های گرافیکی امروزی سریع‌تر از آن‌که داده‌های بزرگ را جابه‌جا کنند، می‌توانند K/V را دوباره محاسبه کنند.

📌 جزئیات: arxiv.org/abs/2508.10395

@rss_ai_ir

#هوش_مصنوعی #LLM #XQuant #یادگیری_عمیق #GPU #بهینه‌سازی #Inference
🔥22🥰1918👏18👍15🎉13😁11