🧠 گلوگاه اصلی در مدلهای هوش مصنوعی — نه قدرت محاسباتی، بلکه حافظه است
امروزه حتی بزرگترین مدلهای زبانی به جای FLOPs، در KV-cache گیر میکنند:
هرچه طول کانتکست بیشتر باشد، حجم ذخیرهسازی Key و Value بزرگتر میشود → پردازندههای گرافیکی خیلی سریع محاسبه میکنند، اما حافظه و پهنای باند آن نمیتواند همگام شود.
⚡️ راهحل: XQuant
این روش به جای ذخیرهی Key/Value فقط X — بردار ورودی لایه را نگه میدارد.
✔️ همچنین X حجم کمتری دارد
✔️ بهراحتی میتواند کوانتیزه شود (کاهش به بیتهای پایینتر)
✔️ هنگام تولید توکن، K و V دوباره از X محاسبه میشوند
مزایا:
📉 کاهش مصرف حافظه تا ۲ برابر
🎯 افت کیفیت تقریباً ناچیز
🟢 همچنین XQuant-CL — نسخهی بهبود یافته
✅فقط تفاوتهای کوچک بین لایهها را ذخیره میکند (چون تقریباً مشابهاند)
✅صرفهجویی: ۱۰ تا ۱۲.۵ برابر
✅افت کیفیت: فقط ۰.۰۱ تا ۰.۱ perplexity
➡️ نتایج
✳️کاهش حافظه تا ۱۲.۵× نسبت به FP16
✳️کیفیت نزدیک به FP16
✳️عملکرد بهتر نسبت به بهترین روشهای کوانتیزهکردن KV-cache
💡 منطق ساده است: کارتهای گرافیکی امروزی سریعتر از آنکه دادههای بزرگ را جابهجا کنند، میتوانند K/V را دوباره محاسبه کنند.
📌 جزئیات: arxiv.org/abs/2508.10395
@rss_ai_ir
#هوش_مصنوعی #LLM #XQuant #یادگیری_عمیق #GPU #بهینهسازی #Inference
امروزه حتی بزرگترین مدلهای زبانی به جای FLOPs، در KV-cache گیر میکنند:
هرچه طول کانتکست بیشتر باشد، حجم ذخیرهسازی Key و Value بزرگتر میشود → پردازندههای گرافیکی خیلی سریع محاسبه میکنند، اما حافظه و پهنای باند آن نمیتواند همگام شود.
⚡️ راهحل: XQuant
این روش به جای ذخیرهی Key/Value فقط X — بردار ورودی لایه را نگه میدارد.
✔️ همچنین X حجم کمتری دارد
✔️ بهراحتی میتواند کوانتیزه شود (کاهش به بیتهای پایینتر)
✔️ هنگام تولید توکن، K و V دوباره از X محاسبه میشوند
مزایا:
📉 کاهش مصرف حافظه تا ۲ برابر
🎯 افت کیفیت تقریباً ناچیز
🟢 همچنین XQuant-CL — نسخهی بهبود یافته
✅فقط تفاوتهای کوچک بین لایهها را ذخیره میکند (چون تقریباً مشابهاند)
✅صرفهجویی: ۱۰ تا ۱۲.۵ برابر
✅افت کیفیت: فقط ۰.۰۱ تا ۰.۱ perplexity
➡️ نتایج
✳️کاهش حافظه تا ۱۲.۵× نسبت به FP16
✳️کیفیت نزدیک به FP16
✳️عملکرد بهتر نسبت به بهترین روشهای کوانتیزهکردن KV-cache
💡 منطق ساده است: کارتهای گرافیکی امروزی سریعتر از آنکه دادههای بزرگ را جابهجا کنند، میتوانند K/V را دوباره محاسبه کنند.
📌 جزئیات: arxiv.org/abs/2508.10395
@rss_ai_ir
#هوش_مصنوعی #LLM #XQuant #یادگیری_عمیق #GPU #بهینهسازی #Inference
🔥22🥰19❤18👏18👍15🎉13😁11