DevOps Labdon

🔵 عنوان مقاله
HAMi – Heterogeneous AI Computing Virtualization Middleware

🟢 خلاصه مقاله:
HAMi یک میان‌افزار Kubernetes-native برای مجازی‌سازی و مدیریت شتاب‌دهنده‌های ناهمگن مانند GPU، NPU و MLU است. این راهکار با ارائه دستگاه‌های مجازی، امکان اشتراک‌گذاری کارآمد و ایزوله‌سازی قوی را فراهم می‌کند، بهره‌وری را بالا می‌برد و از تداخل بارها جلوگیری می‌کند. با زمان‌بندی آگاه از توپولوژی، بارها در جایی قرار می‌گیرند که دسترسی به شتاب‌دهنده‌های مناسب با کمترین رقابت و تأخیر ممکن باشد. HAMi همچنین با سیاست‌های یکپارچه تخصیص و محدودسازی منابع، و ادغام طبیعی در Kubernetes، اجرای پایدار، قابل پیش‌بینی و مقیاس‌پذیر بارهای AI/ML را روی سخت‌افزارهای متنوع ممکن می‌سازد.

#Kubernetes #HeterogeneousComputing #AIInfrastructure #GPUVirtualization #ResourceIsolation #Scheduling #CloudNative #MLOps

🟣لینک مقاله:
https://ku.bz/-rMLBxmkc

➖➖➖➖➖➖➖➖
👑 @DevOps_Labdon

GitHub

GitHub - Project-HAMi/HAMi: Heterogeneous AI Computing Virtualization Middleware(Project under CNCF)

Heterogeneous AI Computing Virtualization Middleware(Project under CNCF) - Project-HAMi/HAMi

👍1

91 views11:30

DevOps Labdon

🔵 عنوان مقاله
kgateway – Envoy-Based Kubernetes Gateway for API and LLM Traffic

🟢 خلاصه مقاله:
خلاصه‌ای از kgateway: یک درگاه API بومی Kubernetes مبتنی بر Envoy که مسیریابی، امنیت و حاکمیت ترافیک API و ترافیک AI/LLM را یکپارچه می‌کند. این راهکار برای محیط‌های چندابری و هیبریدی طراحی شده و با فراهم‌کردن کنترل‌پلن یکسان و دیتاپلن پرکاربرد، ترافیک در مقیاس میلیاردی را با قابلیت اطمینان بالا مدیریت می‌کند. kgateway قابلیت‌های مدیریت ترافیک مانند مسیریابی هوشمند، بالانس بار، retry/timeout و الگوهای انتشار تدریجی را ارائه می‌دهد و با سازوکارهای شبکه‌ای Kubernetes به‌خوبی هماهنگ می‌شود. در حوزه امنیت و حاکمیت، از mTLS و احراز هویت مبتنی بر توکن، اعمال مجوزهای ریزدانه، محدودسازی نرخ و پایش‌پذیری کامل پشتیبانی می‌کند. برای سناریوهای AI/LLM نیز برای اتصال‌های طولانی‌مدت و الگوهای پرتراکم درخواست بهینه شده، دسترسی به endpointهای مدل در ابرهای مختلف را متمرکز می‌سازد و با پیکربندی کاملاً اعلامی و بومی Kubernetes، امکان GitOps، ایزوله‌سازی چندمستاجره و مقیاس‌پذیری پویا را فراهم می‌کند.

#Kubernetes #Envoy #APIGateway #LLM #AIInfrastructure #CloudNative #MultiCloud #Security

🟣لینک مقاله:
https://ku.bz/WmWGQ11CZ

➖➖➖➖➖➖➖➖
👑 @DevOps_Labdon

GitHub

GitHub - kgateway-dev/kgateway: The Cloud-Native API Gateway and AI Gateway

The Cloud-Native API Gateway and AI Gateway. Contribute to kgateway-dev/kgateway development by creating an account on GitHub.

57 views08:30

DevOps Labdon

🔵 عنوان مقاله
Introducing Gateway API Inference Extension

🟢 خلاصه مقاله:
این مقاله یک افزونه برای Kubernetes Gateway API معرفی می‌کند که مخصوص بارهای کاری LLM و inference طراحی شده است. هدف آن «مدل‌آگاه» کردن لایه شبکه است تا مسیریابی و سیاست‌های ترافیکی بر اساس مدل، نسخه، ارائه‌دهنده و فراداده درخواست انجام شود. این کار امکان‌هایی مانند A/B تست، shadowing، و fallback بین مدل‌ها و ارائه‌دهندگان مختلف را بدون تغییر کد برنامه فراهم می‌کند.

همچنین قابلیت تعیین criticality برای هر درخواست را فراهم می‌کند تا مسیرهای حساس به تأخیر نسبت به کارهای پس‌زمینه در صف‌ها، بودجه زمانی و ظرفیت، اولویت بگیرند و SLOها بهتر رعایت شوند. از طرفی، load balancing بهینه‌شده برای inference با درنظرگرفتن عمق صف، وضعیت GPU، اندازه batch، گذردهی توکن و زمان تکمیل تخمینی، به کاهش tail latency و افزایش بهره‌وری کمک می‌کند.

این طراحی بر پایه الگوی آشنای Gateway API بنا شده و با گسترش منابع موجود (Gateway و Route) به‌صورت ارائه‌دهنده‌-محور خنثی عمل می‌کند و هم backendهای درون کلاستر و هم خارجی را پوشش می‌دهد. نتیجه، لایه شبکه‌ای است که محدودیت‌های inference را می‌شناسد و استقرارهای امن‌تر، سیاست‌های هزینه‌محور و رصدپذیری دقیق‌تر در سطح مدل را برای تیم‌های پلتفرمی در Kubernetes ممکن می‌سازد.

#Kubernetes #GatewayAPI #LLM #Inference #MLOps #AIInfrastructure #LoadBalancing #ModelRouting

🟣لینک مقاله:
https://ku.bz/QhNP_lkb3

➖➖➖➖➖➖➖➖
👑 @DevOps_Labdon

Kubernetes

Introducing Gateway API Inference Extension

Modern generative AI and large language model (LLM) services create unique traffic-routing challenges on Kubernetes. Unlike typical short-lived, stateless web requests, LLM inference sessions are often long-running, resource-intensive, and partially stateful.…

70 views05:30

DevOps Labdon

🔵 عنوان مقاله
AI Infrastructure on Kubernetes

🟢 خلاصه مقاله:
** این گزارش از kube.today با اتکا به ۹۱۷ پاسخ نظرسنجی نشان می‌دهد تیم‌ها در عمل چگونه بارهای کاری AI را روی Kubernetes مقیاس می‌دهند. نتیجه اصلی، شکاف میان ادعاهای فروشندگان و واقعیت بهره‌گیری از GPU است: تأخیر در زمان‌بندی، تکه‌تکه‌شدن منابع، گلوگاه‌های داده و ضعف در مشاهده‌پذیری باعث می‌شود GPUها کمتر از حد انتظار کار کنند. گزارش الگوهای عملی برای بهبود ارائه می‌کند؛ از right-sizing و bin-packing و زمان‌بندی آگاه از توپولوژی تا autoscaling مبتنی بر صف، اولویت‌دهی و preemption و رصد دقیق حافظه و I/O روی GPU. این رویکردها به تبدیل ظرفیت پرهزینه GPU به کار مفید کمک می‌کند و Kubernetes را برای بارهای کاری AI قابل‌اعتمادتر می‌سازد.

#Kubernetes #AI #GPU #MLOps #CloudNative #K8s #AIInfrastructure #Observability

🟣لینک مقاله:
https://ku.bz/B3nxKPYpV

➖➖➖➖➖➖➖➖
👑 @DevOps_Labdon

Kube Today

AI Infrastructure on Kubernetes

Survey of 917 Kubernetes practitioners reveals 62% run clusters under 1,000 nodes, 54% struggle with GPU cost waste averaging $200K annually, and 51% prefer unified clusters with node separation over isolated infrastructure for AI workloads.

64 views05:30

About

Blog

Apps

Platform