В Kubernetes-кластере у некоторых Pod’ов часто происходят рестарты с причиной OOMKilled, хотя лимиты памяти выставлены. Как вы будете искать и решать проблему?
Проверить метрики памяти Pod’а и контейнера (Prometheus, kubectl top), убедиться, что лимиты выставлены корректно. Проанализировать логи и профилирование приложения на предмет утечек памяти. При необходимости — оптимизировать код, использовать requests/limits более сбалансированно, а для критичных сервисов — вынести часть нагрузки в sidecar или вынести тяжёлые вычисления за пределы Pod’а.
Библиотека собеса по DevOps
Библиотека собеса по DevOps
👍1