DevOps Labdon
453 subscribers
23 photos
2 videos
1 file
660 links
👑 DevOps Labdon

حمایت مالی:
https://www.coffeete.ir/mrbardia72

ادمین:
@mrbardia72
Download Telegram
🔵 عنوان مقاله
Introducing Gateway API Inference Extension

🟢 خلاصه مقاله:
این مقاله یک افزونه برای Kubernetes Gateway API معرفی می‌کند که مخصوص بارهای کاری LLM و inference طراحی شده است. هدف آن «مدل‌آگاه» کردن لایه شبکه است تا مسیریابی و سیاست‌های ترافیکی بر اساس مدل، نسخه، ارائه‌دهنده و فراداده درخواست انجام شود. این کار امکان‌هایی مانند A/B تست، shadowing، و fallback بین مدل‌ها و ارائه‌دهندگان مختلف را بدون تغییر کد برنامه فراهم می‌کند.

همچنین قابلیت تعیین criticality برای هر درخواست را فراهم می‌کند تا مسیرهای حساس به تأخیر نسبت به کارهای پس‌زمینه در صف‌ها، بودجه زمانی و ظرفیت، اولویت بگیرند و SLOها بهتر رعایت شوند. از طرفی، load balancing بهینه‌شده برای inference با درنظرگرفتن عمق صف، وضعیت GPU، اندازه batch، گذردهی توکن و زمان تکمیل تخمینی، به کاهش tail latency و افزایش بهره‌وری کمک می‌کند.

این طراحی بر پایه الگوی آشنای Gateway API بنا شده و با گسترش منابع موجود (Gateway و Route) به‌صورت ارائه‌دهنده‌-محور خنثی عمل می‌کند و هم backendهای درون کلاستر و هم خارجی را پوشش می‌دهد. نتیجه، لایه شبکه‌ای است که محدودیت‌های inference را می‌شناسد و استقرارهای امن‌تر، سیاست‌های هزینه‌محور و رصدپذیری دقیق‌تر در سطح مدل را برای تیم‌های پلتفرمی در Kubernetes ممکن می‌سازد.

#Kubernetes #GatewayAPI #LLM #Inference #MLOps #AIInfrastructure #LoadBalancing #ModelRouting

🟣لینک مقاله:
https://ku.bz/QhNP_lkb3


👑 @DevOps_Labdon