DevOps Labdon

🔵 عنوان مقاله
How to run AI model inference with GPUs on Amazon EKS Auto Mode

🟢 خلاصه مقاله:
اجرای استنتاج مدل‌های هوش مصنوعی روی GPU در Amazon EKS Auto Mode با اعلام نیازمندی‌ها در سطح Pod ساده می‌شود و خودکار ظرفیت GPU را فراهم و مقیاس می‌دهد. کافی است سرور استنتاج (مثل TensorFlow Serving، TorchServe یا NVIDIA Triton Inference Server) را با CUDA/cuDNN و NVIDIA Container Toolkit در یک ایمیج آماده کنید، در Deployment منابع nvidia.com/gpu و CPU/Memory را درخواست دهید، و با نصب NVIDIA device plugin امکان شناسایی GPU را فراهم کنید. Auto Mode براساس این درخواست‌ها نودهای GPU مناسب را در EC2 تأمین و زمان‌بندی را تسریع می‌کند. برای مقیاس‌پذیری از HPA و اتوسکیلینگ کلاستر استفاده کنید و با تکنیک‌هایی مثل dynamic batching و multi-model throughput را بالا ببرید؛ برای مدیریت هزینه، right-sizing، استفاده هدفمند از Spot و scale-to-zero را در نظر بگیرید. امنیت و شبکه با VPC CNI، Security Group و IAM Roles for Service Accounts و مشاهده‌پذیری با Prometheus/Grafana، DCGM و CloudWatch تکمیل می‌شوند. در نهایت، با CI/CD و Amazon ECR و الگوهای انتشار امن (blue/green یا canary) استقرار به‌صورت قابل تکرار و پایدار از توسعه تا تولید انجام می‌شود.

#AmazonEKS #Kubernetes #GPU #MLOps #AWS #Inference #AutoScaling #NVIDIA

🟣لینک مقاله:
https://ku.bz/jyGr1NGBX

➖➖➖➖➖➖➖➖
👑 @DevOps_Labdon

Amazon

How to run AI model inference with GPUs on Amazon EKS Auto Mode | Amazon Web Services

In this post, we show you how to swiftly deploy inference workloads on EKS Auto Mode and demonstrate key features that streamline GPU management. We walk through a practical example by deploying open weight models from OpenAI using vLLM, while showing best…

72 views05:30

DevOps Labdon

🔵 عنوان مقاله
GPU sharing with MPS and OKE

🟢 خلاصه مقاله:
این آموزش نشان می‌دهد چگونه با استفاده از NVIDIA MPS در Oracle Kubernetes Engine (OKE) اشتراک‌گذاری GPU را فعال کنیم تا چندین پردازه CUDA به‌طور هم‌زمان از یک GPU بهره ببرند. مراحل اصلی شامل ایجاد یک GPU node pool اختصاصی، سفارشی‌سازی cloud-init برای فعال‌سازی و پایدارسازی MPS روی نودها، استقرار NVIDIA device-plugin با Helm و سپس آزمایش دسترسی اشتراکی با اجرای یک بارکاری نمونه در قالب ۱۰ replica است. در پایان با ابزارهایی مانند nvidia-smi میزان هم‌زمانی و بهره‌وری بررسی می‌شود. نکات مهم: نیاز به سازگاری نسخه‌های CUDA و درایور، نبود ایزولیشن سخت حافظه در MPS، و مقایسه با گزینه‌هایی مثل MIG برای سناریوهای نیازمند ایزولیشن قوی‌تر.

#NVIDIA #MPS #GPUSharing #Kubernetes #OKE #OracleCloud #CUDA #Helm

🟣لینک مقاله:
https://ku.bz/Hd9QMtTXf

➖➖➖➖➖➖➖➖
👑 @DevOps_Labdon

Medium

GPU sharing with MPS and OKE

Though I’ve been working with Kubernetes since 2018, only very recently I had the opportunity to learn a bit more about GPU-based worker…

❤1

70 views11:30

DevOps Labdon

🔵 عنوان مقاله
DCGM-Exporter – NVIDIA GPU Metrics Exporter

🟢 خلاصه مقاله:
DCGM-Exporter یک ابزار قدرتمند است که برای جمع‌آوری و انتقال داده‌های مربوط به عملکرد کارت‌های گرافیک NVIDIA طراحی شده است. این ابزار با بهره‌گیری از APIهای مخصوص، اطلاعات دقیقی درباره سلامت، دما، مصرف انرژی و سایر پارامترهای مهم کارت‌های گرافیک NVIDIA را فراهم می‌کند. این داده‌ها برای مدیران سیستم‌ها و توسعه‌دهندگان اهمیت زیادی دارند؛ چرا که کمک می‌کنند تا عملکرد GPU به‌صورت لحظه‌ای نظارت شده و در صورت بروز مشکل، سریعاً واکنش نشان داده شود.

این ابزار در برنامه‌های پایش و مدیریت عملکرد GPU به‌کار می‌رود و توانایی انتقال داده‌ها به سیستم‌های مانیتورینگ مانند Prometheus را دارد. با استفاده از DCGM-Exporter، می‌توان به راحتی وضعیت کارت‌های گرافیک در دیتاسنترها و مراکز محاسبات ابری را کنترل کرد و اطمینان حاصل نمود که هر کارت در حالت بهینه قرار دارد. این موضوع به ویژه در تمرکز بر راندمان، نگهداری پیشرفته و کاهش downtime اهمیت پیدا می‌کند.

در نتیجه، استفاده از DCGM-Exporter برای سازمان‌هایی که از GPUهای NVIDIA در بسترهای ابری یا مراکز داده‌های بزرگ بهره می‌برند، بسیار مفید است. این ابزار نقش حیاتی در بهبود مدیریت و پایش سلامت سیستم‌های گرافیکی داراست و به تیم‌های فناوری اطلاعات این امکان را می‌دهد تا بهره‌وری سیستم‌ها را افزایش دهند و هزینه‌های نگهداری را کاهش دهند.

#پایش_GPU #نظارت_سیستم #NVIDIA #مدیریت_مراکز

🟣لینک مقاله:
https://ku.bz/pqRFQdXmz

➖➖➖➖➖➖➖➖
👑 @DevOps_Labdon

GitHub

GitHub - NVIDIA/dcgm-exporter: NVIDIA GPU metrics exporter for Prometheus leveraging DCGM

NVIDIA GPU metrics exporter for Prometheus leveraging DCGM - NVIDIA/dcgm-exporter

36 views05:30

About

Blog

Apps

Platform