🚀 علیبابا با سیستم جدید Aegaeon مصرف GPU را تا ۸۲٪ کاهش داد 🤯
شرکت Alibaba از سامانهی انقلابی خود به نام Aegaeon رونمایی کرد — سیستمی برای اشتراکگذاری هوشمند GPU که بهرهوری در سرویسدهی مدلهای زبانی بزرگ (LLM) را تا ۸ برابر افزایش میدهد! ⚙️
📊 نتایج حیرتانگیز:
🔻 ۸۲٪ کاهش مصرف GPUهای انویدیا
💡 در آزمایش بتای سهماهه در Alibaba Cloud:
از ۱٬۱۹۲ GPU به ۲۱۳ GPU برای پشتیبانی از چندین مدل تا ۷۲ میلیارد پارامتر
---
🔥 چطور کار میکند؟
در حالت عادی، بسیاری از GPUها در زمان سرویسدهی به مدلهای «سرد» (کماستفاده) بلااستفاده میمانند —
مثلاً ۱۷.۷٪ از GPUها فقط ۱.۳۵٪ درخواستها را انجام میدادند.
💡 علاوه براین Aegaeon این مشکل را با رویکردی جدید حل میکند:
یعنی GPUها میتوانند در حین تولید پاسخ (در سطح توکن) بین مدلها سوئیچ کنند،
بدون اینکه منتظر پایان پاسخ قبلی بمانند! ⚙️
---
⚡ نتیجه:
✳️هر GPU میتواند تا ۷ مدل را همزمان پشتیبانی کند (در سیستمهای دیگر: ۲ تا ۳ مدل)
✳️تأخیر هنگام سوئیچ بین مدلها تا ۹۷٪ کاهش یافته است
✳️مدلهای «داغ» (پُرکاربرد) در اولویت میمانند، مدلهای «سرد» فقط در لحظههای کوتاه منابع میگیرند
---
🧩 ویژه برای مرحله استنتاج (Inference):
همچنین، Aegaeon بر اساس ساختار تولید توکنی طراحی شده و با زمانبندی دقیق بار کاری (load scheduling) بهینه شده است.
در شرایط کمبود تراشه در چین، این سیستم یک پیشرفت استراتژیک محسوب میشود —
یعنی GPU کمتر، ترافیک بیشتر، هزینه پایینتر. 💰
---
✅ مزایا:
♻️کاهش چشمگیر هزینهی هر توکن
♻️افزایش بهرهوری سختافزار
♻️کاهش نیاز به خرید GPUهای جدید بدون افت عملکرد
🔗 منبع: South China Morning Post
#Alibaba #Aegaeon #AI #LLM #GPU #CloudComputing #Efficiency #Nvidia #GenerativeAI
شرکت Alibaba از سامانهی انقلابی خود به نام Aegaeon رونمایی کرد — سیستمی برای اشتراکگذاری هوشمند GPU که بهرهوری در سرویسدهی مدلهای زبانی بزرگ (LLM) را تا ۸ برابر افزایش میدهد! ⚙️
📊 نتایج حیرتانگیز:
🔻 ۸۲٪ کاهش مصرف GPUهای انویدیا
💡 در آزمایش بتای سهماهه در Alibaba Cloud:
از ۱٬۱۹۲ GPU به ۲۱۳ GPU برای پشتیبانی از چندین مدل تا ۷۲ میلیارد پارامتر
---
🔥 چطور کار میکند؟
در حالت عادی، بسیاری از GPUها در زمان سرویسدهی به مدلهای «سرد» (کماستفاده) بلااستفاده میمانند —
مثلاً ۱۷.۷٪ از GPUها فقط ۱.۳۵٪ درخواستها را انجام میدادند.
💡 علاوه براین Aegaeon این مشکل را با رویکردی جدید حل میکند:
یعنی GPUها میتوانند در حین تولید پاسخ (در سطح توکن) بین مدلها سوئیچ کنند،
بدون اینکه منتظر پایان پاسخ قبلی بمانند! ⚙️
---
⚡ نتیجه:
✳️هر GPU میتواند تا ۷ مدل را همزمان پشتیبانی کند (در سیستمهای دیگر: ۲ تا ۳ مدل)
✳️تأخیر هنگام سوئیچ بین مدلها تا ۹۷٪ کاهش یافته است
✳️مدلهای «داغ» (پُرکاربرد) در اولویت میمانند، مدلهای «سرد» فقط در لحظههای کوتاه منابع میگیرند
---
🧩 ویژه برای مرحله استنتاج (Inference):
همچنین، Aegaeon بر اساس ساختار تولید توکنی طراحی شده و با زمانبندی دقیق بار کاری (load scheduling) بهینه شده است.
در شرایط کمبود تراشه در چین، این سیستم یک پیشرفت استراتژیک محسوب میشود —
یعنی GPU کمتر، ترافیک بیشتر، هزینه پایینتر. 💰
---
✅ مزایا:
♻️کاهش چشمگیر هزینهی هر توکن
♻️افزایش بهرهوری سختافزار
♻️کاهش نیاز به خرید GPUهای جدید بدون افت عملکرد
🔗 منبع: South China Morning Post
#Alibaba #Aegaeon #AI #LLM #GPU #CloudComputing #Efficiency #Nvidia #GenerativeAI
👍4🔥1