DevOps Labdon

🔵 عنوان مقاله
Introducing Gateway API Inference Extension

🟢 خلاصه مقاله:
این مقاله یک افزونه برای Kubernetes Gateway API معرفی می‌کند که مخصوص بارهای کاری LLM و inference طراحی شده است. هدف آن «مدل‌آگاه» کردن لایه شبکه است تا مسیریابی و سیاست‌های ترافیکی بر اساس مدل، نسخه، ارائه‌دهنده و فراداده درخواست انجام شود. این کار امکان‌هایی مانند A/B تست، shadowing، و fallback بین مدل‌ها و ارائه‌دهندگان مختلف را بدون تغییر کد برنامه فراهم می‌کند.

همچنین قابلیت تعیین criticality برای هر درخواست را فراهم می‌کند تا مسیرهای حساس به تأخیر نسبت به کارهای پس‌زمینه در صف‌ها، بودجه زمانی و ظرفیت، اولویت بگیرند و SLOها بهتر رعایت شوند. از طرفی، load balancing بهینه‌شده برای inference با درنظرگرفتن عمق صف، وضعیت GPU، اندازه batch، گذردهی توکن و زمان تکمیل تخمینی، به کاهش tail latency و افزایش بهره‌وری کمک می‌کند.

این طراحی بر پایه الگوی آشنای Gateway API بنا شده و با گسترش منابع موجود (Gateway و Route) به‌صورت ارائه‌دهنده‌-محور خنثی عمل می‌کند و هم backendهای درون کلاستر و هم خارجی را پوشش می‌دهد. نتیجه، لایه شبکه‌ای است که محدودیت‌های inference را می‌شناسد و استقرارهای امن‌تر، سیاست‌های هزینه‌محور و رصدپذیری دقیق‌تر در سطح مدل را برای تیم‌های پلتفرمی در Kubernetes ممکن می‌سازد.

#Kubernetes #GatewayAPI #LLM #Inference #MLOps #AIInfrastructure #LoadBalancing #ModelRouting

🟣لینک مقاله:
https://ku.bz/QhNP_lkb3

➖➖➖➖➖➖➖➖
👑 @DevOps_Labdon

Kubernetes

Introducing Gateway API Inference Extension

Modern generative AI and large language model (LLM) services create unique traffic-routing challenges on Kubernetes. Unlike typical short-lived, stateless web requests, LLM inference sessions are often long-running, resource-intensive, and partially stateful.…

69 views05:30

DevOps Labdon

🔵 عنوان مقاله
How to run AI model inference with GPUs on Amazon EKS Auto Mode

🟢 خلاصه مقاله:
اجرای استنتاج مدل‌های هوش مصنوعی روی GPU در Amazon EKS Auto Mode با اعلام نیازمندی‌ها در سطح Pod ساده می‌شود و خودکار ظرفیت GPU را فراهم و مقیاس می‌دهد. کافی است سرور استنتاج (مثل TensorFlow Serving، TorchServe یا NVIDIA Triton Inference Server) را با CUDA/cuDNN و NVIDIA Container Toolkit در یک ایمیج آماده کنید، در Deployment منابع nvidia.com/gpu و CPU/Memory را درخواست دهید، و با نصب NVIDIA device plugin امکان شناسایی GPU را فراهم کنید. Auto Mode براساس این درخواست‌ها نودهای GPU مناسب را در EC2 تأمین و زمان‌بندی را تسریع می‌کند. برای مقیاس‌پذیری از HPA و اتوسکیلینگ کلاستر استفاده کنید و با تکنیک‌هایی مثل dynamic batching و multi-model throughput را بالا ببرید؛ برای مدیریت هزینه، right-sizing، استفاده هدفمند از Spot و scale-to-zero را در نظر بگیرید. امنیت و شبکه با VPC CNI، Security Group و IAM Roles for Service Accounts و مشاهده‌پذیری با Prometheus/Grafana، DCGM و CloudWatch تکمیل می‌شوند. در نهایت، با CI/CD و Amazon ECR و الگوهای انتشار امن (blue/green یا canary) استقرار به‌صورت قابل تکرار و پایدار از توسعه تا تولید انجام می‌شود.

#AmazonEKS #Kubernetes #GPU #MLOps #AWS #Inference #AutoScaling #NVIDIA

🟣لینک مقاله:
https://ku.bz/jyGr1NGBX

➖➖➖➖➖➖➖➖
👑 @DevOps_Labdon

Amazon

How to run AI model inference with GPUs on Amazon EKS Auto Mode | Amazon Web Services

In this post, we show you how to swiftly deploy inference workloads on EKS Auto Mode and demonstrate key features that streamline GPU management. We walk through a practical example by deploying open weight models from OpenAI using vLLM, while showing best…

69 views05:30

About

Blog

Apps

Platform