Библиотека собеса по DevOps | вопросы с собеседований
3.11K subscribers
147 photos
6 videos
2 files
322 links
Вопросы с собеседований по DevOps и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/d7e18893

Для обратной связи: @proglibrary_feeedback_bot
Download Telegram
Вы разворачиваете продакшн-инфраструктуру для AI-агентов (LLM, ML inference) в контейнерах Docker. В процессе эксплуатации замечаете проблемы: непредсказуемое потребление GPU/CPU, медленный cold start контейнеров и рост задержек при масштабировании. Как вы будете искать и устранять эти проблемы?

Сначала соберу метрики (Prometheus, NVIDIA DCGM, cAdvisor) для анализа загрузки CPU/GPU/памяти. Проверю, что контейнеры используют правильные runtime (например, nvidia-docker2 или --gpus all). Для cold start оптимизирую образы (multi-stage build, минимальные base image, preloading моделей в volume или кеш), а для масштабирования — внедрю оркестрацию (Kubernetes + GPU scheduler, autoscaler) и подготовлю warm-pool контейнеров.

Кстати, у нас скоро стартует курс AI-агенты для
DS-специалистов
:
https://proglib.academy/ai-agents

Библиотека собеса по DevOps
Иногда реально ощущение, что нас держат в Матрице.

Большинство сидит, читает статьи про ML, смотрит ролики «как это работает» — и всё.

Сегодня последний день промокода Lastcall (−5000 ₽).
Уже завтра стартует первый вебинар по Машинному обучению — полный набор для выхода из Матрицы.

Кто готов вырваться из симуляции и ворваться в сезон найма?

👾 — я уже в команде Нео
👍 — хочу красную таблетку
🤔 — пока думаю, но интересно

Забирай полный комплект для ML-разработки: Python + Математика + Машинное обучение.
🔥 Скидка 30% действует только до 9 сентября → забираем себе
В CI/CD пайплайне деплой в Kubernetes часто занимает больше времени, чем ожидалось. Pod’ы создаются, но приложение не готово обслуживать трафик, и пользователи видят ошибки. Как вы будете искать и устранять проблему?

Проверю стратегию деплоя (например, RollingUpdate), наличие корректных readinessProbe и livenessProbe, а также настройки maxUnavailable и maxSurge. Проанализирую логи Pod’ов и события кластера. Для решения — настрою health-check’и, добавлю preStop hook для graceful shutdown и оптимизирую пайплайн так, чтобы трафик шёл только на готовые Pod’ы.

Библиотека собеса по DevOps
Какие стратегии деплоя поддерживает Kubernetes и когда ты применял каждую из них?

RollingUpdate — по умолчанию, постепенно заменяет поды без даунтайма (чаще всего применяю).
Recreate — останавливает все поды и потом поднимает новые (редко, если несовместимые изменения).
Blue/Green, Canary — через отдельные Deployment/Service или с помощью Istio/Argo Rollouts, использовал для тестирования новых фич с ограниченной аудиторией.


Библиотека собеса по DevOps