🔵 عنوان مقاله
HAMi – Heterogeneous AI Computing Virtualization Middleware
🟢 خلاصه مقاله:
HAMi یک میانافزار Kubernetes-native برای مجازیسازی و مدیریت شتابدهندههای ناهمگن مانند GPU، NPU و MLU است. این راهکار با ارائه دستگاههای مجازی، امکان اشتراکگذاری کارآمد و ایزولهسازی قوی را فراهم میکند، بهرهوری را بالا میبرد و از تداخل بارها جلوگیری میکند. با زمانبندی آگاه از توپولوژی، بارها در جایی قرار میگیرند که دسترسی به شتابدهندههای مناسب با کمترین رقابت و تأخیر ممکن باشد. HAMi همچنین با سیاستهای یکپارچه تخصیص و محدودسازی منابع، و ادغام طبیعی در Kubernetes، اجرای پایدار، قابل پیشبینی و مقیاسپذیر بارهای AI/ML را روی سختافزارهای متنوع ممکن میسازد.
#Kubernetes #HeterogeneousComputing #AIInfrastructure #GPUVirtualization #ResourceIsolation #Scheduling #CloudNative #MLOps
🟣لینک مقاله:
https://ku.bz/-rMLBxmkc
➖➖➖➖➖➖➖➖
👑 @DevOps_Labdon
HAMi – Heterogeneous AI Computing Virtualization Middleware
🟢 خلاصه مقاله:
HAMi یک میانافزار Kubernetes-native برای مجازیسازی و مدیریت شتابدهندههای ناهمگن مانند GPU، NPU و MLU است. این راهکار با ارائه دستگاههای مجازی، امکان اشتراکگذاری کارآمد و ایزولهسازی قوی را فراهم میکند، بهرهوری را بالا میبرد و از تداخل بارها جلوگیری میکند. با زمانبندی آگاه از توپولوژی، بارها در جایی قرار میگیرند که دسترسی به شتابدهندههای مناسب با کمترین رقابت و تأخیر ممکن باشد. HAMi همچنین با سیاستهای یکپارچه تخصیص و محدودسازی منابع، و ادغام طبیعی در Kubernetes، اجرای پایدار، قابل پیشبینی و مقیاسپذیر بارهای AI/ML را روی سختافزارهای متنوع ممکن میسازد.
#Kubernetes #HeterogeneousComputing #AIInfrastructure #GPUVirtualization #ResourceIsolation #Scheduling #CloudNative #MLOps
🟣لینک مقاله:
https://ku.bz/-rMLBxmkc
➖➖➖➖➖➖➖➖
👑 @DevOps_Labdon
GitHub
GitHub - Project-HAMi/HAMi: Heterogeneous AI Computing Virtualization Middleware(Project under CNCF)
Heterogeneous AI Computing Virtualization Middleware(Project under CNCF) - Project-HAMi/HAMi
👍1
🔵 عنوان مقاله
kgateway – Envoy-Based Kubernetes Gateway for API and LLM Traffic
🟢 خلاصه مقاله:
خلاصهای از kgateway: یک درگاه API بومی Kubernetes مبتنی بر Envoy که مسیریابی، امنیت و حاکمیت ترافیک API و ترافیک AI/LLM را یکپارچه میکند. این راهکار برای محیطهای چندابری و هیبریدی طراحی شده و با فراهمکردن کنترلپلن یکسان و دیتاپلن پرکاربرد، ترافیک در مقیاس میلیاردی را با قابلیت اطمینان بالا مدیریت میکند. kgateway قابلیتهای مدیریت ترافیک مانند مسیریابی هوشمند، بالانس بار، retry/timeout و الگوهای انتشار تدریجی را ارائه میدهد و با سازوکارهای شبکهای Kubernetes بهخوبی هماهنگ میشود. در حوزه امنیت و حاکمیت، از mTLS و احراز هویت مبتنی بر توکن، اعمال مجوزهای ریزدانه، محدودسازی نرخ و پایشپذیری کامل پشتیبانی میکند. برای سناریوهای AI/LLM نیز برای اتصالهای طولانیمدت و الگوهای پرتراکم درخواست بهینه شده، دسترسی به endpointهای مدل در ابرهای مختلف را متمرکز میسازد و با پیکربندی کاملاً اعلامی و بومی Kubernetes، امکان GitOps، ایزولهسازی چندمستاجره و مقیاسپذیری پویا را فراهم میکند.
#Kubernetes #Envoy #APIGateway #LLM #AIInfrastructure #CloudNative #MultiCloud #Security
🟣لینک مقاله:
https://ku.bz/WmWGQ11CZ
➖➖➖➖➖➖➖➖
👑 @DevOps_Labdon
kgateway – Envoy-Based Kubernetes Gateway for API and LLM Traffic
🟢 خلاصه مقاله:
خلاصهای از kgateway: یک درگاه API بومی Kubernetes مبتنی بر Envoy که مسیریابی، امنیت و حاکمیت ترافیک API و ترافیک AI/LLM را یکپارچه میکند. این راهکار برای محیطهای چندابری و هیبریدی طراحی شده و با فراهمکردن کنترلپلن یکسان و دیتاپلن پرکاربرد، ترافیک در مقیاس میلیاردی را با قابلیت اطمینان بالا مدیریت میکند. kgateway قابلیتهای مدیریت ترافیک مانند مسیریابی هوشمند، بالانس بار، retry/timeout و الگوهای انتشار تدریجی را ارائه میدهد و با سازوکارهای شبکهای Kubernetes بهخوبی هماهنگ میشود. در حوزه امنیت و حاکمیت، از mTLS و احراز هویت مبتنی بر توکن، اعمال مجوزهای ریزدانه، محدودسازی نرخ و پایشپذیری کامل پشتیبانی میکند. برای سناریوهای AI/LLM نیز برای اتصالهای طولانیمدت و الگوهای پرتراکم درخواست بهینه شده، دسترسی به endpointهای مدل در ابرهای مختلف را متمرکز میسازد و با پیکربندی کاملاً اعلامی و بومی Kubernetes، امکان GitOps، ایزولهسازی چندمستاجره و مقیاسپذیری پویا را فراهم میکند.
#Kubernetes #Envoy #APIGateway #LLM #AIInfrastructure #CloudNative #MultiCloud #Security
🟣لینک مقاله:
https://ku.bz/WmWGQ11CZ
➖➖➖➖➖➖➖➖
👑 @DevOps_Labdon
GitHub
GitHub - kgateway-dev/kgateway: The Cloud-Native API Gateway and AI Gateway
The Cloud-Native API Gateway and AI Gateway. Contribute to kgateway-dev/kgateway development by creating an account on GitHub.
🔵 عنوان مقاله
Introducing Gateway API Inference Extension
🟢 خلاصه مقاله:
این مقاله یک افزونه برای Kubernetes Gateway API معرفی میکند که مخصوص بارهای کاری LLM و inference طراحی شده است. هدف آن «مدلآگاه» کردن لایه شبکه است تا مسیریابی و سیاستهای ترافیکی بر اساس مدل، نسخه، ارائهدهنده و فراداده درخواست انجام شود. این کار امکانهایی مانند A/B تست، shadowing، و fallback بین مدلها و ارائهدهندگان مختلف را بدون تغییر کد برنامه فراهم میکند.
همچنین قابلیت تعیین criticality برای هر درخواست را فراهم میکند تا مسیرهای حساس به تأخیر نسبت به کارهای پسزمینه در صفها، بودجه زمانی و ظرفیت، اولویت بگیرند و SLOها بهتر رعایت شوند. از طرفی، load balancing بهینهشده برای inference با درنظرگرفتن عمق صف، وضعیت GPU، اندازه batch، گذردهی توکن و زمان تکمیل تخمینی، به کاهش tail latency و افزایش بهرهوری کمک میکند.
این طراحی بر پایه الگوی آشنای Gateway API بنا شده و با گسترش منابع موجود (Gateway و Route) بهصورت ارائهدهنده-محور خنثی عمل میکند و هم backendهای درون کلاستر و هم خارجی را پوشش میدهد. نتیجه، لایه شبکهای است که محدودیتهای inference را میشناسد و استقرارهای امنتر، سیاستهای هزینهمحور و رصدپذیری دقیقتر در سطح مدل را برای تیمهای پلتفرمی در Kubernetes ممکن میسازد.
#Kubernetes #GatewayAPI #LLM #Inference #MLOps #AIInfrastructure #LoadBalancing #ModelRouting
🟣لینک مقاله:
https://ku.bz/QhNP_lkb3
➖➖➖➖➖➖➖➖
👑 @DevOps_Labdon
Introducing Gateway API Inference Extension
🟢 خلاصه مقاله:
این مقاله یک افزونه برای Kubernetes Gateway API معرفی میکند که مخصوص بارهای کاری LLM و inference طراحی شده است. هدف آن «مدلآگاه» کردن لایه شبکه است تا مسیریابی و سیاستهای ترافیکی بر اساس مدل، نسخه، ارائهدهنده و فراداده درخواست انجام شود. این کار امکانهایی مانند A/B تست، shadowing، و fallback بین مدلها و ارائهدهندگان مختلف را بدون تغییر کد برنامه فراهم میکند.
همچنین قابلیت تعیین criticality برای هر درخواست را فراهم میکند تا مسیرهای حساس به تأخیر نسبت به کارهای پسزمینه در صفها، بودجه زمانی و ظرفیت، اولویت بگیرند و SLOها بهتر رعایت شوند. از طرفی، load balancing بهینهشده برای inference با درنظرگرفتن عمق صف، وضعیت GPU، اندازه batch، گذردهی توکن و زمان تکمیل تخمینی، به کاهش tail latency و افزایش بهرهوری کمک میکند.
این طراحی بر پایه الگوی آشنای Gateway API بنا شده و با گسترش منابع موجود (Gateway و Route) بهصورت ارائهدهنده-محور خنثی عمل میکند و هم backendهای درون کلاستر و هم خارجی را پوشش میدهد. نتیجه، لایه شبکهای است که محدودیتهای inference را میشناسد و استقرارهای امنتر، سیاستهای هزینهمحور و رصدپذیری دقیقتر در سطح مدل را برای تیمهای پلتفرمی در Kubernetes ممکن میسازد.
#Kubernetes #GatewayAPI #LLM #Inference #MLOps #AIInfrastructure #LoadBalancing #ModelRouting
🟣لینک مقاله:
https://ku.bz/QhNP_lkb3
➖➖➖➖➖➖➖➖
👑 @DevOps_Labdon
Kubernetes
Introducing Gateway API Inference Extension
Modern generative AI and large language model (LLM) services create unique traffic-routing challenges on Kubernetes. Unlike typical short-lived, stateless web requests, LLM inference sessions are often long-running, resource-intensive, and partially stateful.…