VIRSUN

⚡️ vLLM Sleep Mode —
حالت خواب برای تعویض سریع مدل‌ها

در نسخه‌ی جدید منتشرشده در بلاگ vLLM، ویژگی جدیدی به نام Sleep Mode معرفی شده که زمان تعویض بین مدل‌های زبانی را به‌شدت کاهش می‌دهد.

🧠 در روش‌های سنتی، اگر بخواهید دو مدل را به‌صورت هم‌زمان در GPU داشته باشید، یا باید هر دو را بارگذاری کنید (که منابع را دو برابر مصرف می‌کند) یا یکی را خاموش و دیگری را مجدداً بارگذاری کنید — که معمولاً ۳۰ تا ۱۰۰ ثانیه زمان می‌برد.

Sleep Mode
راه سوم را ارائه می‌دهد:
مدل‌ها در حالت «خواب» قرار می‌گیرند و فقط در چند ثانیه دوباره «بیدار» می‌شوند، در حالی که وضعیت اولیه‌شان حفظ شده است.

🔹 دو سطح خواب:

1. Sleep Level 1:
وزن‌ها در RAM ذخیره می‌شوند — راه‌اندازی بسیار سریع اما نیاز به رم بالا دارد.

2. Sleep Level 2:
وزن‌ها کاملاً آزاد می‌شوند — مصرف رم پایین‌تر، ولی بیدارسازی کمی کندتر است.

📊 نتایج:

♻️سرعت سوئیچ بین مدل‌ها تا ۱۸ تا ۲۰۰ برابر بیشتر

♻️سرعت استنتاج بعد از بیداری بین ۶۱ تا ۸۸٪ سریع‌تر

♻️زیرا فرآیندهایی مانند حافظه‌ی CUDA، گراف‌ها و JIT compilation حفظ می‌شوند.

💡 ویژگی Sleep Mode برای محیط‌هایی که نیاز به تعویض مداوم بین چند مدل دارند ایده‌آل است —
از GPUهای متوسط مثل A4000 تا مدل‌های قدرتمند مانند A100.

🔗 مطالعه‌ی کامل در بلاگ vLLM

@rss_ai_ir
#vLLM #AI #Optimization #Inference #DeepLearning #LLM

1.39K views18:17

VIRSUN

🚀 مدل Holo2 نسل تازه‌ای از مدل‌های چندرسانه‌ای است که برای فهم رابط‌کاربری، ناوبری و استدلال در وب، دسکتاپ و موبایل طراحی شده است.

📈 نتایج چشمگیر در بنچمارک‌ها Holo2 رکوردهای جدیدی ثبت کرده است:

🟩 امتیاز 66.1% در ScreenSpot-Pro (افزایش +۳٪)

🟩 امتیاز 76.1% در OSWorld-G (افزایش +۵٪)
این مدل بسیاری از رقبا را پشت سر گذاشته و تبدیل به یکی از بهترین گزینه‌ها برای UI-grounding شده است.

🧠 معماری مدل

مبتنی بر Qwen3-VL

درک بسیار قوی از رابط‌کاربری و ناوبری دقیق

مناسب برای توسعه عامل‌های هوشمند UI در نرم‌افزارها

🌐 قابل اجرا روی: مرورگر، Ubuntu و Android

🔀 همچنین Mixture of Experts نسخه‌ی پرچم‌دار 30B-A3B فقط با فعال‌سازی ۳ میلیارد پارامتر در هر مرحله عملکردی در سطح مدل 30B ارائه می‌دهد اما با هزینه محاسبات کمتر.

🤖 مدل از reasoning-token ها برای بهبود دقت تصمیم‌گیری بهره می‌برد و با Surfer 2 و ReAct کاملاً سازگار است.

⚙️ شیوه اجرا
سازگار با vLLM و تمام فریم‌ورک‌های هماهنگ با Qwen3-VL

📜 لایسنس‌ها

نسخه‌های 4B و 8B → تحت Apache-2

نسخه 30B-A3B → فقط استفاده غیرتجاری

🔗 لینک‌ها:
🌐 Blog: hcompany.ai/blog/holo2
🍳 Cookbook: github.com/hcompai/hai-cookbook/blob/main/holo2/holo_2_localization_huggingface.ipynb
🤗 HuggingFace: huggingface.co/collections/Hcompany/holo2

@rss_ai_ir

#هوش_مصنوعی #مدل_چندرسانه‌ای #عامل_هوشمند #Qwen #Holo2 #AI #LLM #ML #رابط_کاربری #ui_grounding #qwen3_vl #vllm #surfer2 #react_ai

🥰10👍5🔥5❤4👏3😁2🎉2

179 views14:16

About

Blog

Apps

Platform