DevOps Labdon
450 subscribers
23 photos
2 videos
1 file
652 links
👑 DevOps Labdon

حمایت مالی:
https://www.coffeete.ir/mrbardia72

ادمین:
@mrbardia72
Download Telegram
🔵 عنوان مقاله
HAMi – Heterogeneous AI Computing Virtualization Middleware

🟢 خلاصه مقاله:
HAMi یک میان‌افزار Kubernetes-native برای مجازی‌سازی و مدیریت شتاب‌دهنده‌های ناهمگن مانند GPU، NPU و MLU است. این راهکار با ارائه دستگاه‌های مجازی، امکان اشتراک‌گذاری کارآمد و ایزوله‌سازی قوی را فراهم می‌کند، بهره‌وری را بالا می‌برد و از تداخل بارها جلوگیری می‌کند. با زمان‌بندی آگاه از توپولوژی، بارها در جایی قرار می‌گیرند که دسترسی به شتاب‌دهنده‌های مناسب با کمترین رقابت و تأخیر ممکن باشد. HAMi همچنین با سیاست‌های یکپارچه تخصیص و محدودسازی منابع، و ادغام طبیعی در Kubernetes، اجرای پایدار، قابل پیش‌بینی و مقیاس‌پذیر بارهای AI/ML را روی سخت‌افزارهای متنوع ممکن می‌سازد.

#Kubernetes #HeterogeneousComputing #AIInfrastructure #GPUVirtualization #ResourceIsolation #Scheduling #CloudNative #MLOps

🟣لینک مقاله:
https://ku.bz/-rMLBxmkc


👑 @DevOps_Labdon
👍1
🔵 عنوان مقاله
kgateway – Envoy-Based Kubernetes Gateway for API and LLM Traffic

🟢 خلاصه مقاله:
خلاصه‌ای از kgateway: یک درگاه API بومی Kubernetes مبتنی بر Envoy که مسیریابی، امنیت و حاکمیت ترافیک API و ترافیک AI/LLM را یکپارچه می‌کند. این راهکار برای محیط‌های چندابری و هیبریدی طراحی شده و با فراهم‌کردن کنترل‌پلن یکسان و دیتاپلن پرکاربرد، ترافیک در مقیاس میلیاردی را با قابلیت اطمینان بالا مدیریت می‌کند. kgateway قابلیت‌های مدیریت ترافیک مانند مسیریابی هوشمند، بالانس بار، retry/timeout و الگوهای انتشار تدریجی را ارائه می‌دهد و با سازوکارهای شبکه‌ای Kubernetes به‌خوبی هماهنگ می‌شود. در حوزه امنیت و حاکمیت، از mTLS و احراز هویت مبتنی بر توکن، اعمال مجوزهای ریزدانه، محدودسازی نرخ و پایش‌پذیری کامل پشتیبانی می‌کند. برای سناریوهای AI/LLM نیز برای اتصال‌های طولانی‌مدت و الگوهای پرتراکم درخواست بهینه شده، دسترسی به endpointهای مدل در ابرهای مختلف را متمرکز می‌سازد و با پیکربندی کاملاً اعلامی و بومی Kubernetes، امکان GitOps، ایزوله‌سازی چندمستاجره و مقیاس‌پذیری پویا را فراهم می‌کند.

#Kubernetes #Envoy #APIGateway #LLM #AIInfrastructure #CloudNative #MultiCloud #Security

🟣لینک مقاله:
https://ku.bz/WmWGQ11CZ


👑 @DevOps_Labdon
🔵 عنوان مقاله
Introducing Gateway API Inference Extension

🟢 خلاصه مقاله:
این مقاله یک افزونه برای Kubernetes Gateway API معرفی می‌کند که مخصوص بارهای کاری LLM و inference طراحی شده است. هدف آن «مدل‌آگاه» کردن لایه شبکه است تا مسیریابی و سیاست‌های ترافیکی بر اساس مدل، نسخه، ارائه‌دهنده و فراداده درخواست انجام شود. این کار امکان‌هایی مانند A/B تست، shadowing، و fallback بین مدل‌ها و ارائه‌دهندگان مختلف را بدون تغییر کد برنامه فراهم می‌کند.

همچنین قابلیت تعیین criticality برای هر درخواست را فراهم می‌کند تا مسیرهای حساس به تأخیر نسبت به کارهای پس‌زمینه در صف‌ها، بودجه زمانی و ظرفیت، اولویت بگیرند و SLOها بهتر رعایت شوند. از طرفی، load balancing بهینه‌شده برای inference با درنظرگرفتن عمق صف، وضعیت GPU، اندازه batch، گذردهی توکن و زمان تکمیل تخمینی، به کاهش tail latency و افزایش بهره‌وری کمک می‌کند.

این طراحی بر پایه الگوی آشنای Gateway API بنا شده و با گسترش منابع موجود (Gateway و Route) به‌صورت ارائه‌دهنده‌-محور خنثی عمل می‌کند و هم backendهای درون کلاستر و هم خارجی را پوشش می‌دهد. نتیجه، لایه شبکه‌ای است که محدودیت‌های inference را می‌شناسد و استقرارهای امن‌تر، سیاست‌های هزینه‌محور و رصدپذیری دقیق‌تر در سطح مدل را برای تیم‌های پلتفرمی در Kubernetes ممکن می‌سازد.

#Kubernetes #GatewayAPI #LLM #Inference #MLOps #AIInfrastructure #LoadBalancing #ModelRouting

🟣لینک مقاله:
https://ku.bz/QhNP_lkb3


👑 @DevOps_Labdon