🔵 عنوان مقاله
How to run AI model inference with GPUs on Amazon EKS Auto Mode
🟢 خلاصه مقاله:
اجرای استنتاج مدلهای هوش مصنوعی روی GPU در Amazon EKS Auto Mode با اعلام نیازمندیها در سطح Pod ساده میشود و خودکار ظرفیت GPU را فراهم و مقیاس میدهد. کافی است سرور استنتاج (مثل TensorFlow Serving، TorchServe یا NVIDIA Triton Inference Server) را با CUDA/cuDNN و NVIDIA Container Toolkit در یک ایمیج آماده کنید، در Deployment منابع nvidia.com/gpu و CPU/Memory را درخواست دهید، و با نصب NVIDIA device plugin امکان شناسایی GPU را فراهم کنید. Auto Mode براساس این درخواستها نودهای GPU مناسب را در EC2 تأمین و زمانبندی را تسریع میکند. برای مقیاسپذیری از HPA و اتوسکیلینگ کلاستر استفاده کنید و با تکنیکهایی مثل dynamic batching و multi-model throughput را بالا ببرید؛ برای مدیریت هزینه، right-sizing، استفاده هدفمند از Spot و scale-to-zero را در نظر بگیرید. امنیت و شبکه با VPC CNI، Security Group و IAM Roles for Service Accounts و مشاهدهپذیری با Prometheus/Grafana، DCGM و CloudWatch تکمیل میشوند. در نهایت، با CI/CD و Amazon ECR و الگوهای انتشار امن (blue/green یا canary) استقرار بهصورت قابل تکرار و پایدار از توسعه تا تولید انجام میشود.
#AmazonEKS #Kubernetes #GPU #MLOps #AWS #Inference #AutoScaling #NVIDIA
🟣لینک مقاله:
https://ku.bz/jyGr1NGBX
➖➖➖➖➖➖➖➖
👑 @DevOps_Labdon
How to run AI model inference with GPUs on Amazon EKS Auto Mode
🟢 خلاصه مقاله:
اجرای استنتاج مدلهای هوش مصنوعی روی GPU در Amazon EKS Auto Mode با اعلام نیازمندیها در سطح Pod ساده میشود و خودکار ظرفیت GPU را فراهم و مقیاس میدهد. کافی است سرور استنتاج (مثل TensorFlow Serving، TorchServe یا NVIDIA Triton Inference Server) را با CUDA/cuDNN و NVIDIA Container Toolkit در یک ایمیج آماده کنید، در Deployment منابع nvidia.com/gpu و CPU/Memory را درخواست دهید، و با نصب NVIDIA device plugin امکان شناسایی GPU را فراهم کنید. Auto Mode براساس این درخواستها نودهای GPU مناسب را در EC2 تأمین و زمانبندی را تسریع میکند. برای مقیاسپذیری از HPA و اتوسکیلینگ کلاستر استفاده کنید و با تکنیکهایی مثل dynamic batching و multi-model throughput را بالا ببرید؛ برای مدیریت هزینه، right-sizing، استفاده هدفمند از Spot و scale-to-zero را در نظر بگیرید. امنیت و شبکه با VPC CNI، Security Group و IAM Roles for Service Accounts و مشاهدهپذیری با Prometheus/Grafana، DCGM و CloudWatch تکمیل میشوند. در نهایت، با CI/CD و Amazon ECR و الگوهای انتشار امن (blue/green یا canary) استقرار بهصورت قابل تکرار و پایدار از توسعه تا تولید انجام میشود.
#AmazonEKS #Kubernetes #GPU #MLOps #AWS #Inference #AutoScaling #NVIDIA
🟣لینک مقاله:
https://ku.bz/jyGr1NGBX
➖➖➖➖➖➖➖➖
👑 @DevOps_Labdon
Amazon
How to run AI model inference with GPUs on Amazon EKS Auto Mode | Amazon Web Services
In this post, we show you how to swiftly deploy inference workloads on EKS Auto Mode and demonstrate key features that streamline GPU management. We walk through a practical example by deploying open weight models from OpenAI using vLLM, while showing best…
🔵 عنوان مقاله
GPU sharing with MPS and OKE
🟢 خلاصه مقاله:
این آموزش نشان میدهد چگونه با استفاده از NVIDIA MPS در Oracle Kubernetes Engine (OKE) اشتراکگذاری GPU را فعال کنیم تا چندین پردازه CUDA بهطور همزمان از یک GPU بهره ببرند. مراحل اصلی شامل ایجاد یک GPU node pool اختصاصی، سفارشیسازی cloud-init برای فعالسازی و پایدارسازی MPS روی نودها، استقرار NVIDIA device-plugin با Helm و سپس آزمایش دسترسی اشتراکی با اجرای یک بارکاری نمونه در قالب ۱۰ replica است. در پایان با ابزارهایی مانند nvidia-smi میزان همزمانی و بهرهوری بررسی میشود. نکات مهم: نیاز به سازگاری نسخههای CUDA و درایور، نبود ایزولیشن سخت حافظه در MPS، و مقایسه با گزینههایی مثل MIG برای سناریوهای نیازمند ایزولیشن قویتر.
#NVIDIA #MPS #GPUSharing #Kubernetes #OKE #OracleCloud #CUDA #Helm
🟣لینک مقاله:
https://ku.bz/Hd9QMtTXf
➖➖➖➖➖➖➖➖
👑 @DevOps_Labdon
GPU sharing with MPS and OKE
🟢 خلاصه مقاله:
این آموزش نشان میدهد چگونه با استفاده از NVIDIA MPS در Oracle Kubernetes Engine (OKE) اشتراکگذاری GPU را فعال کنیم تا چندین پردازه CUDA بهطور همزمان از یک GPU بهره ببرند. مراحل اصلی شامل ایجاد یک GPU node pool اختصاصی، سفارشیسازی cloud-init برای فعالسازی و پایدارسازی MPS روی نودها، استقرار NVIDIA device-plugin با Helm و سپس آزمایش دسترسی اشتراکی با اجرای یک بارکاری نمونه در قالب ۱۰ replica است. در پایان با ابزارهایی مانند nvidia-smi میزان همزمانی و بهرهوری بررسی میشود. نکات مهم: نیاز به سازگاری نسخههای CUDA و درایور، نبود ایزولیشن سخت حافظه در MPS، و مقایسه با گزینههایی مثل MIG برای سناریوهای نیازمند ایزولیشن قویتر.
#NVIDIA #MPS #GPUSharing #Kubernetes #OKE #OracleCloud #CUDA #Helm
🟣لینک مقاله:
https://ku.bz/Hd9QMtTXf
➖➖➖➖➖➖➖➖
👑 @DevOps_Labdon
Medium
GPU sharing with MPS and OKE
Though I’ve been working with Kubernetes since 2018, only very recently I had the opportunity to learn a bit more about GPU-based worker…
❤1
🔵 عنوان مقاله
DCGM-Exporter – NVIDIA GPU Metrics Exporter
🟢 خلاصه مقاله:
DCGM-Exporter یک ابزار قدرتمند است که برای جمعآوری و انتقال دادههای مربوط به عملکرد کارتهای گرافیک NVIDIA طراحی شده است. این ابزار با بهرهگیری از APIهای مخصوص، اطلاعات دقیقی درباره سلامت، دما، مصرف انرژی و سایر پارامترهای مهم کارتهای گرافیک NVIDIA را فراهم میکند. این دادهها برای مدیران سیستمها و توسعهدهندگان اهمیت زیادی دارند؛ چرا که کمک میکنند تا عملکرد GPU بهصورت لحظهای نظارت شده و در صورت بروز مشکل، سریعاً واکنش نشان داده شود.
این ابزار در برنامههای پایش و مدیریت عملکرد GPU بهکار میرود و توانایی انتقال دادهها به سیستمهای مانیتورینگ مانند Prometheus را دارد. با استفاده از DCGM-Exporter، میتوان به راحتی وضعیت کارتهای گرافیک در دیتاسنترها و مراکز محاسبات ابری را کنترل کرد و اطمینان حاصل نمود که هر کارت در حالت بهینه قرار دارد. این موضوع به ویژه در تمرکز بر راندمان، نگهداری پیشرفته و کاهش downtime اهمیت پیدا میکند.
در نتیجه، استفاده از DCGM-Exporter برای سازمانهایی که از GPUهای NVIDIA در بسترهای ابری یا مراکز دادههای بزرگ بهره میبرند، بسیار مفید است. این ابزار نقش حیاتی در بهبود مدیریت و پایش سلامت سیستمهای گرافیکی داراست و به تیمهای فناوری اطلاعات این امکان را میدهد تا بهرهوری سیستمها را افزایش دهند و هزینههای نگهداری را کاهش دهند.
#پایش_GPU #نظارت_سیستم #NVIDIA #مدیریت_مراکز
🟣لینک مقاله:
https://ku.bz/pqRFQdXmz
➖➖➖➖➖➖➖➖
👑 @DevOps_Labdon
DCGM-Exporter – NVIDIA GPU Metrics Exporter
🟢 خلاصه مقاله:
DCGM-Exporter یک ابزار قدرتمند است که برای جمعآوری و انتقال دادههای مربوط به عملکرد کارتهای گرافیک NVIDIA طراحی شده است. این ابزار با بهرهگیری از APIهای مخصوص، اطلاعات دقیقی درباره سلامت، دما، مصرف انرژی و سایر پارامترهای مهم کارتهای گرافیک NVIDIA را فراهم میکند. این دادهها برای مدیران سیستمها و توسعهدهندگان اهمیت زیادی دارند؛ چرا که کمک میکنند تا عملکرد GPU بهصورت لحظهای نظارت شده و در صورت بروز مشکل، سریعاً واکنش نشان داده شود.
این ابزار در برنامههای پایش و مدیریت عملکرد GPU بهکار میرود و توانایی انتقال دادهها به سیستمهای مانیتورینگ مانند Prometheus را دارد. با استفاده از DCGM-Exporter، میتوان به راحتی وضعیت کارتهای گرافیک در دیتاسنترها و مراکز محاسبات ابری را کنترل کرد و اطمینان حاصل نمود که هر کارت در حالت بهینه قرار دارد. این موضوع به ویژه در تمرکز بر راندمان، نگهداری پیشرفته و کاهش downtime اهمیت پیدا میکند.
در نتیجه، استفاده از DCGM-Exporter برای سازمانهایی که از GPUهای NVIDIA در بسترهای ابری یا مراکز دادههای بزرگ بهره میبرند، بسیار مفید است. این ابزار نقش حیاتی در بهبود مدیریت و پایش سلامت سیستمهای گرافیکی داراست و به تیمهای فناوری اطلاعات این امکان را میدهد تا بهرهوری سیستمها را افزایش دهند و هزینههای نگهداری را کاهش دهند.
#پایش_GPU #نظارت_سیستم #NVIDIA #مدیریت_مراکز
🟣لینک مقاله:
https://ku.bz/pqRFQdXmz
➖➖➖➖➖➖➖➖
👑 @DevOps_Labdon
GitHub
GitHub - NVIDIA/dcgm-exporter: NVIDIA GPU metrics exporter for Prometheus leveraging DCGM
NVIDIA GPU metrics exporter for Prometheus leveraging DCGM - NVIDIA/dcgm-exporter