⚡️ vLLM Sleep Mode —
حالت خواب برای تعویض سریع مدلها
در نسخهی جدید منتشرشده در بلاگ vLLM، ویژگی جدیدی به نام Sleep Mode معرفی شده که زمان تعویض بین مدلهای زبانی را بهشدت کاهش میدهد.
🧠 در روشهای سنتی، اگر بخواهید دو مدل را بهصورت همزمان در GPU داشته باشید، یا باید هر دو را بارگذاری کنید (که منابع را دو برابر مصرف میکند) یا یکی را خاموش و دیگری را مجدداً بارگذاری کنید — که معمولاً ۳۰ تا ۱۰۰ ثانیه زمان میبرد.
Sleep Mode
راه سوم را ارائه میدهد:
مدلها در حالت «خواب» قرار میگیرند و فقط در چند ثانیه دوباره «بیدار» میشوند، در حالی که وضعیت اولیهشان حفظ شده است.
🔹 دو سطح خواب:
1. Sleep Level 1:
وزنها در RAM ذخیره میشوند — راهاندازی بسیار سریع اما نیاز به رم بالا دارد.
2. Sleep Level 2:
وزنها کاملاً آزاد میشوند — مصرف رم پایینتر، ولی بیدارسازی کمی کندتر است.
📊 نتایج:
♻️سرعت سوئیچ بین مدلها تا ۱۸ تا ۲۰۰ برابر بیشتر
♻️سرعت استنتاج بعد از بیداری بین ۶۱ تا ۸۸٪ سریعتر
♻️زیرا فرآیندهایی مانند حافظهی CUDA، گرافها و JIT compilation حفظ میشوند.
💡 ویژگی Sleep Mode برای محیطهایی که نیاز به تعویض مداوم بین چند مدل دارند ایدهآل است —
از GPUهای متوسط مثل A4000 تا مدلهای قدرتمند مانند A100.
🔗 مطالعهی کامل در بلاگ vLLM
@rss_ai_ir
#vLLM #AI #Optimization #Inference #DeepLearning #LLM
حالت خواب برای تعویض سریع مدلها
در نسخهی جدید منتشرشده در بلاگ vLLM، ویژگی جدیدی به نام Sleep Mode معرفی شده که زمان تعویض بین مدلهای زبانی را بهشدت کاهش میدهد.
🧠 در روشهای سنتی، اگر بخواهید دو مدل را بهصورت همزمان در GPU داشته باشید، یا باید هر دو را بارگذاری کنید (که منابع را دو برابر مصرف میکند) یا یکی را خاموش و دیگری را مجدداً بارگذاری کنید — که معمولاً ۳۰ تا ۱۰۰ ثانیه زمان میبرد.
Sleep Mode
راه سوم را ارائه میدهد:
مدلها در حالت «خواب» قرار میگیرند و فقط در چند ثانیه دوباره «بیدار» میشوند، در حالی که وضعیت اولیهشان حفظ شده است.
🔹 دو سطح خواب:
1. Sleep Level 1:
وزنها در RAM ذخیره میشوند — راهاندازی بسیار سریع اما نیاز به رم بالا دارد.
2. Sleep Level 2:
وزنها کاملاً آزاد میشوند — مصرف رم پایینتر، ولی بیدارسازی کمی کندتر است.
📊 نتایج:
♻️سرعت سوئیچ بین مدلها تا ۱۸ تا ۲۰۰ برابر بیشتر
♻️سرعت استنتاج بعد از بیداری بین ۶۱ تا ۸۸٪ سریعتر
♻️زیرا فرآیندهایی مانند حافظهی CUDA، گرافها و JIT compilation حفظ میشوند.
💡 ویژگی Sleep Mode برای محیطهایی که نیاز به تعویض مداوم بین چند مدل دارند ایدهآل است —
از GPUهای متوسط مثل A4000 تا مدلهای قدرتمند مانند A100.
🔗 مطالعهی کامل در بلاگ vLLM
@rss_ai_ir
#vLLM #AI #Optimization #Inference #DeepLearning #LLM