⚡️ vLLM Sleep Mode —
حالت خواب برای تعویض سریع مدلها
در نسخهی جدید منتشرشده در بلاگ vLLM، ویژگی جدیدی به نام Sleep Mode معرفی شده که زمان تعویض بین مدلهای زبانی را بهشدت کاهش میدهد.
🧠 در روشهای سنتی، اگر بخواهید دو مدل را بهصورت همزمان در GPU داشته باشید، یا باید هر دو را بارگذاری کنید (که منابع را دو برابر مصرف میکند) یا یکی را خاموش و دیگری را مجدداً بارگذاری کنید — که معمولاً ۳۰ تا ۱۰۰ ثانیه زمان میبرد.
Sleep Mode
راه سوم را ارائه میدهد:
مدلها در حالت «خواب» قرار میگیرند و فقط در چند ثانیه دوباره «بیدار» میشوند، در حالی که وضعیت اولیهشان حفظ شده است.
🔹 دو سطح خواب:
1. Sleep Level 1:
وزنها در RAM ذخیره میشوند — راهاندازی بسیار سریع اما نیاز به رم بالا دارد.
2. Sleep Level 2:
وزنها کاملاً آزاد میشوند — مصرف رم پایینتر، ولی بیدارسازی کمی کندتر است.
📊 نتایج:
♻️سرعت سوئیچ بین مدلها تا ۱۸ تا ۲۰۰ برابر بیشتر
♻️سرعت استنتاج بعد از بیداری بین ۶۱ تا ۸۸٪ سریعتر
♻️زیرا فرآیندهایی مانند حافظهی CUDA، گرافها و JIT compilation حفظ میشوند.
💡 ویژگی Sleep Mode برای محیطهایی که نیاز به تعویض مداوم بین چند مدل دارند ایدهآل است —
از GPUهای متوسط مثل A4000 تا مدلهای قدرتمند مانند A100.
🔗 مطالعهی کامل در بلاگ vLLM
@rss_ai_ir
#vLLM #AI #Optimization #Inference #DeepLearning #LLM
حالت خواب برای تعویض سریع مدلها
در نسخهی جدید منتشرشده در بلاگ vLLM، ویژگی جدیدی به نام Sleep Mode معرفی شده که زمان تعویض بین مدلهای زبانی را بهشدت کاهش میدهد.
🧠 در روشهای سنتی، اگر بخواهید دو مدل را بهصورت همزمان در GPU داشته باشید، یا باید هر دو را بارگذاری کنید (که منابع را دو برابر مصرف میکند) یا یکی را خاموش و دیگری را مجدداً بارگذاری کنید — که معمولاً ۳۰ تا ۱۰۰ ثانیه زمان میبرد.
Sleep Mode
راه سوم را ارائه میدهد:
مدلها در حالت «خواب» قرار میگیرند و فقط در چند ثانیه دوباره «بیدار» میشوند، در حالی که وضعیت اولیهشان حفظ شده است.
🔹 دو سطح خواب:
1. Sleep Level 1:
وزنها در RAM ذخیره میشوند — راهاندازی بسیار سریع اما نیاز به رم بالا دارد.
2. Sleep Level 2:
وزنها کاملاً آزاد میشوند — مصرف رم پایینتر، ولی بیدارسازی کمی کندتر است.
📊 نتایج:
♻️سرعت سوئیچ بین مدلها تا ۱۸ تا ۲۰۰ برابر بیشتر
♻️سرعت استنتاج بعد از بیداری بین ۶۱ تا ۸۸٪ سریعتر
♻️زیرا فرآیندهایی مانند حافظهی CUDA، گرافها و JIT compilation حفظ میشوند.
💡 ویژگی Sleep Mode برای محیطهایی که نیاز به تعویض مداوم بین چند مدل دارند ایدهآل است —
از GPUهای متوسط مثل A4000 تا مدلهای قدرتمند مانند A100.
🔗 مطالعهی کامل در بلاگ vLLM
@rss_ai_ir
#vLLM #AI #Optimization #Inference #DeepLearning #LLM
🚀 مدل Holo2 نسل تازهای از مدلهای چندرسانهای است که برای فهم رابطکاربری، ناوبری و استدلال در وب، دسکتاپ و موبایل طراحی شده است.
📈 نتایج چشمگیر در بنچمارکها Holo2 رکوردهای جدیدی ثبت کرده است:
🟩 امتیاز 66.1% در ScreenSpot-Pro (افزایش +۳٪)
🟩 امتیاز 76.1% در OSWorld-G (افزایش +۵٪)
این مدل بسیاری از رقبا را پشت سر گذاشته و تبدیل به یکی از بهترین گزینهها برای UI-grounding شده است.
🧠 معماری مدل
مبتنی بر Qwen3-VL
درک بسیار قوی از رابطکاربری و ناوبری دقیق
مناسب برای توسعه عاملهای هوشمند UI در نرمافزارها
🌐 قابل اجرا روی: مرورگر، Ubuntu و Android
🔀 همچنین Mixture of Experts نسخهی پرچمدار 30B-A3B فقط با فعالسازی ۳ میلیارد پارامتر در هر مرحله عملکردی در سطح مدل 30B ارائه میدهد اما با هزینه محاسبات کمتر.
🤖 مدل از reasoning-token ها برای بهبود دقت تصمیمگیری بهره میبرد و با Surfer 2 و ReAct کاملاً سازگار است.
⚙️ شیوه اجرا
سازگار با vLLM و تمام فریمورکهای هماهنگ با Qwen3-VL
📜 لایسنسها
نسخههای 4B و 8B → تحت Apache-2
نسخه 30B-A3B → فقط استفاده غیرتجاری
🔗 لینکها:
🌐 Blog: hcompany.ai/blog/holo2
🍳 Cookbook: github.com/hcompai/hai-cookbook/blob/main/holo2/holo_2_localization_huggingface.ipynb
🤗 HuggingFace: huggingface.co/collections/Hcompany/holo2
@rss_ai_ir
#هوش_مصنوعی #مدل_چندرسانهای #عامل_هوشمند #Qwen #Holo2 #AI #LLM #ML #رابط_کاربری #ui_grounding #qwen3_vl #vllm #surfer2 #react_ai
📈 نتایج چشمگیر در بنچمارکها Holo2 رکوردهای جدیدی ثبت کرده است:
🟩 امتیاز 66.1% در ScreenSpot-Pro (افزایش +۳٪)
🟩 امتیاز 76.1% در OSWorld-G (افزایش +۵٪)
این مدل بسیاری از رقبا را پشت سر گذاشته و تبدیل به یکی از بهترین گزینهها برای UI-grounding شده است.
🧠 معماری مدل
مبتنی بر Qwen3-VL
درک بسیار قوی از رابطکاربری و ناوبری دقیق
مناسب برای توسعه عاملهای هوشمند UI در نرمافزارها
🌐 قابل اجرا روی: مرورگر، Ubuntu و Android
🔀 همچنین Mixture of Experts نسخهی پرچمدار 30B-A3B فقط با فعالسازی ۳ میلیارد پارامتر در هر مرحله عملکردی در سطح مدل 30B ارائه میدهد اما با هزینه محاسبات کمتر.
🤖 مدل از reasoning-token ها برای بهبود دقت تصمیمگیری بهره میبرد و با Surfer 2 و ReAct کاملاً سازگار است.
⚙️ شیوه اجرا
سازگار با vLLM و تمام فریمورکهای هماهنگ با Qwen3-VL
📜 لایسنسها
نسخههای 4B و 8B → تحت Apache-2
نسخه 30B-A3B → فقط استفاده غیرتجاری
🔗 لینکها:
🌐 Blog: hcompany.ai/blog/holo2
🍳 Cookbook: github.com/hcompai/hai-cookbook/blob/main/holo2/holo_2_localization_huggingface.ipynb
🤗 HuggingFace: huggingface.co/collections/Hcompany/holo2
@rss_ai_ir
#هوش_مصنوعی #مدل_چندرسانهای #عامل_هوشمند #Qwen #Holo2 #AI #LLM #ML #رابط_کاربری #ui_grounding #qwen3_vl #vllm #surfer2 #react_ai
🥰10👍5🔥5❤4👏3😁2🎉2