Библиотека собеса по DevOps | вопросы с собеседований

Вы разворачиваете продакшн-инфраструктуру для AI-агентов (LLM, ML inference) в контейнерах Docker. В процессе эксплуатации замечаете проблемы: непредсказуемое потребление GPU/CPU, медленный cold start контейнеров и рост задержек при масштабировании. Как вы будете искать и устранять эти проблемы?

Сначала соберу метрики (Prometheus, NVIDIA DCGM, cAdvisor) для анализа загрузки CPU/GPU/памяти. Проверю, что контейнеры используют правильные runtime (например, nvidia-docker2 или --gpus all). Для cold start оптимизирую образы (multi-stage build, минимальные base image, preloading моделей в volume или кеш), а для масштабирования — внедрю оркестрацию (Kubernetes + GPU scheduler, autoscaler) и подготовлю warm-pool контейнеров.

Кстати, у нас скоро стартует курс AI-агенты для
DS-специалистов:

https://proglib.academy/ai-agents

Библиотека собеса по DevOps

657 views18:04

Библиотека собеса по DevOps | вопросы с собеседований

Иногда реально ощущение, что нас держат в Матрице.

Большинство сидит, читает статьи про ML, смотрит ролики «как это работает» — и всё.

❗ Сегодня последний день промокода Lastcall (−5000 ₽).
Уже завтра стартует первый вебинар по Машинному обучению — полный набор для выхода из Матрицы.

Кто готов вырваться из симуляции и ворваться в сезон найма?

👾 — я уже в команде Нео
👍 — хочу красную таблетку
🤔 — пока думаю, но интересно

Забирай полный комплект для ML-разработки: Python + Математика + Машинное обучение.
🔥 Скидка 30% действует только до 9 сентября → забираем себе

718 views19:00

Библиотека собеса по DevOps | вопросы с собеседований

В CI/CD пайплайне деплой в Kubernetes часто занимает больше времени, чем ожидалось. Pod’ы создаются, но приложение не готово обслуживать трафик, и пользователи видят ошибки. Как вы будете искать и устранять проблему?

Проверю стратегию деплоя (например, RollingUpdate), наличие корректных readinessProbe и livenessProbe, а также настройки maxUnavailable и maxSurge. Проанализирую логи Pod’ов и события кластера. Для решения — настрою health-check’и, добавлю preStop hook для graceful shutdown и оптимизирую пайплайн так, чтобы трафик шёл только на готовые Pod’ы.

Библиотека собеса по DevOps

798 views20:43

Библиотека собеса по DevOps | вопросы с собеседований

Какие стратегии деплоя поддерживает Kubernetes и когда ты применял каждую из них?

RollingUpdate — по умолчанию, постепенно заменяет поды без даунтайма (чаще всего применяю).
Recreate — останавливает все поды и потом поднимает новые (редко, если несовместимые изменения).
Blue/Green, Canary — через отдельные Deployment/Service или с помощью Istio/Argo Rollouts, использовал для тестирования новых фич с ограниченной аудиторией.

Библиотека собеса по DevOps

768 views19:02

Библиотека собеса по DevOps | вопросы с собеседований

Что такое Immutable Infrastructure и какие преимущества она даёт?

Immutable Infrastructure — подход, при котором серверы/контейнеры не изменяются после деплоя: при апдейте создаётся новый инстанс, а старый удаляется.
Плюсы: предсказуемость окружений, отсутствие "дрейфа конфигурации", простота отката и высокая надёжность.

Библиотека собеса по DevOps

👍1

685 views20:20

Библиотека собеса по DevOps | вопросы с собеседований

Нужно выкатывать ломающее изменение схемы БД для микросервиса в Kubernetes без простоя. Деплой — RollingUpdate, трафик критичный. Как спланировать и выполнить релиз, чтобы избежать даунтайма и иметь безопасный откат?

Применить стратегию expand → migrate → contract:

Expand: сначала деплой приложения, совместимого со старой и новой схемой (feature-flag, двусторонняя совместимость чтения/записи).

Migrate: выполнить онлайн-миграцию как Kubernetes Job (идемпотентная, с контролем lock timeout), порционно/батчами, с мониторингом SLO. Для MySQL — gh-ost/pt-online-schema-change, для Postgres — pg_repack.

Contract: после валидации и прогрева трафика — удалить устаревшие поля/индексы.
Параллельно — canary/blue-green, readinessProbe по версии схемы, бэкап/снэпшот, план отката (down-миграции/флаг отката), и блокировка релиза при нарушении error budget.

Библиотека собеса по DevOps

640 views19:53

Библиотека собеса по DevOps | вопросы с собеседований

🔥 Последняя неделя перед стартом курса по AI-агентам

Старт курса уже 15го числа! Если вы планировали вписаться — сейчас ПОСЛЕДНИЙ шанс забронировать место

На курсе:
— разложим LLM по косточкам: токенизация, SFT, PEFT, инференс
— соберём RAG и научимся оценивать его адекватно
— построим настоящую мультиагентную систему — архитектуру, которая умеет расти
— разберём CoPilot, сломаем через prompt injection (спасибо Максу)
— и наконец, посмотрим, как это работает в MCP и реальных кейсах

📍 Это 5 живых вебинаров + раздатка + домашки + чат с преподавателями

И главное — возможность реально разобраться, как проектировать системы на LLM, а не просто «поиграться с API»

Промокод на 5.000₽: LASTCALL

👉 Курс здесь

739 views15:14

Библиотека собеса по DevOps | вопросы с собеседований

У вас критичный API в Kubernetes. Нужно выкатывать версии без простоя и с возможностью быстрого отката. Какой подход выберете (rolling, blue-green, canary), чем его обоснуете и как реализуете (Ingress/Service переключение, health-checks, метрики/автооткат, миграции БД)?

Canary через Argo Rollouts/Flagger с взвешенным трафиком, автооткат по SLO (5xx/p95), корректные пробы/preStop; миграции БД по схеме expand → migrate → contract.

Библиотека собеса по DevOps

740 views19:13

Библиотека собеса по DevOps | вопросы с собеседований

Что такое публичный IP-адрес? В каких сценариях/проектах систем его следует использовать?

Публичный IP-адрес — это общедоступный IP-адрес. Если вы размещали игровой сервер, к которому вы хотите, чтобы ваши друзья присоединились, вы дадите своим друзьям свой общедоступный IP-адрес, чтобы их компьютеры могли идентифицировать и определить местонахождение вашей сети и сервера для установления соединения. Единственный момент , когда вам не понадобится использовать общедоступный IP-адрес, это если вы играете с друзьями, которые были подключены к той же сети, что и вы, и в этом случае вы будете использовать частный IP-адрес. Чтобы кто-то мог подключиться к вашему внутреннему серверу, вам необходимо настроить переадресацию порта, чтобы сообщить маршрутизатору, что он разрешает трафик из общедоступного домена в вашу сеть и наоборот.

Библиотека собеса по DevOps

785 views17:59

Библиотека собеса по DevOps | вопросы с собеседований

Нужно выстроить end-to-end software supply chain для деплоя в Kubernetes: запрет неподписанных образов, проверка SBOM и уязвимостей, защита от дрейфа манифестов при GitOps. Как это реализовать от коммита до admission?

Подписываем артефакты и коммиты (OIDC → Cosign/Sigstore), в CI собираем образ, генерируем SBOM (Syft) и аттестации (provenance), ставим vuln-gates (Trivy/Grype). Публикуем в immutable-registry, пин по digest. На кластере — Kyverno/OPA: verifyImages + проверка аттестаций/SBOM, allowlist registry, non-root/seccomp/capDrop. Деплой через Argo CD c верификацией подписи манифестов, drift-detection и policy-as-code; для аварий — контролируемый break-glass.

Библиотека собеса по DevOps

846 views19:00

Библиотека собеса по DevOps | вопросы с собеседований

Началось

748 views19:00

Библиотека собеса по DevOps | вопросы с собеседований

Что такое role/clusterRole?

Роли определяют права с помощью наборов правил, которые включают:

— Группы API, описанные в

официальной документации по apiGroups

и выводимые командой kubectl api-resources;
— Ресурсы (например, pod, namespace, deployment и другие);
— Глаголы (например, set, update и другие);
— Имена ресурсов (resourceNames), которые используются в случае необходимости предоставления доступа к определенному ресурсу, а не ко всем ресурсам данного типа.

Библиотека собеса по DevOps

847 views20:27

Библиотека собеса по DevOps | вопросы с собеседований

Чем отличается COPY от ADD в Dockerfile?

Инструкция COPY копируют файлы и директории с хостовой машины внутрь контейнера, инструкция ADD копирует файлы и директории с хостовой машины внутрь контейнера и может распаковывать .tar архивы.

Библиотека собеса по DevOps

781 views19:02

Библиотека собеса по DevOps | вопросы с собеседований

В многоарендном Kubernetes-кластере один «шумный сосед» периодически выедает CPU/IO и ломает SLA остальных сервисов. Как обеспечить изоляцию и предсказуемое качество без избыточного оверпровижининга?

Дать критичным сервисам QoS Guaranteed (requests=limits), ввести LimitRange/ResourceQuota по namespace, приоритизацию через PriorityClass и развести пулы нод с taints/tolerations. Включить HPA/VPA + Cluster Autoscaler, задать корректные PDB и параметры RollingUpdate. Для «шумного» сервиса — жёсткие лимиты (CPU CFS), контроль IO/ephemeral-storage и при необходимости — вынести в отдельный node pool.

Библиотека собеса по DevOps

694 views17:35

Библиотека собеса по DevOps | вопросы с собеседований

Какова цель операторов?

В Kubernetes управление приложениями не такое простое, как поддержка приложений без сохранения состояния, где каждая реплика достигает требуемого статуса, а обновления выполняются одинаково. Из-за состояния приложений с сохранением состояния обновление каждой реплики может потребовать особого подхода. В результате управление приложениями с сохранением состояния часто требует использования оператора-человека. Именно здесь полезен Kubernetes Operator.

Kubernetes Operators — это программные расширения, которые автоматизируют управление сложными приложениями в кластерах Kubernetes. Операторы разработаны с учетом высокой степени настраиваемости и адаптации к потребностям конкретных приложений. Они могут выполнять такие задачи, как мониторинг работоспособности приложения, выполнение резервного копирования и восстановления, обновление или откат версий, масштабирование ресурсов вверх или вниз и многое другое.

Библиотека собеса по DevOps

612 views16:25

Библиотека собеса по DevOps | вопросы с собеседований

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

📅 24 сентября в 19:00 МСК — бесплатный вебинар с Максимом Шаланкиным.

Тема: «ИИ-агенты: новая фаза развития искусственного интеллекта».

🔹 Почему все говорят про ИИ-агентов и куда вливаются миллиарды инвестиций.
🔹 Чем они отличаются от ChatGPT и обычных ботов.
🔹 Как работает цикл агента: восприятие → планирование → действие → обучение.
🔹 Живое демо простого агента.
🔹 Потенциал для бизнеса: автоматизация процессов и ROI до 80%.

Не придёшь — будешь потом рассказывать, что «агенты — это как чат-боты», и ловить косые взгляды от коллег 😏

👉 Регистрируйтесь через форму на лендинге

594 views19:00

Библиотека собеса по DevOps | вопросы с собеседований

1:01

⚡️ Бесплатный вебинар — ИИ-агенты: новая фаза развития AI

24 сентября в 19:00 МСК состоится бесплатный вебинар с Максимом Шаланкиным — Data Science Team Lead в финтех-команде MWS, а познакомиться с ним ближе можно в его тг-канале.

Тема:

«ИИ-агенты: новая фаза развития искусственного интеллекта».

На вебинаре разберёмся, почему агенты — это следующий шаг после ChatGPT, чем они отличаются от обычных моделей и как уже приносят бизнесу ROI до 80%. А дальше я покажу, как эта тема ложится в наш курс по ИИ-агентам, который разработан под руководством Никиты Зелинского.

Подробности рассказываем в гс выше — включай, чтобы не пропустить.

599 views14:42

Библиотека собеса по DevOps | вопросы с собеседований

Что содержится в статусе ноды?

Статус узла содержит адрес, состояние, емкость и информацию. Он определяет состояние узлов в системе.

Адрес: использование зависит от вашего облачного провайдера или конфигурации bare metal.

Состояние: описывает состояние или условия всех работающих узлов.

Емкость: этот блок сообщает об общих ресурсах, обработанных узлом.

Информация: описывает общую информацию об узле, такую как версия Kubernetes, версия ядра, сведения о среде выполнения контейнера и текущая операционная система, которую использует узел.

Библиотека собеса по DevOps

❤1🔥1🤩1

695 views19:03

Библиотека собеса по DevOps | вопросы с собеседований

Сервис держит долгие HTTP/GRPC-соединения. При деплоях клиенты теряют коннекты. Как добиться graceful shutdown без обрывов?

Обработать SIGTERM в приложении (перестать принимать новые, завершить активные), добавить preStop hook с drain (например, /ready=false), увеличить terminationGracePeriodSeconds, проверять readinessProbe (после перевода в not-ready трафик уйдёт), на входе — корректный LB/ingress timeouts. Для gRPC — GOAWAY перед закрытием.

Библиотека собеса по DevOps

679 viewsedited 18:52

Библиотека собеса по DevOps | вопросы с собеседований

Как в Kubernetes реализовать безопасную ротацию секретов без даунтайма: чтобы сервисы подхватывали новые креды/ключи без ручных рестартов и «мигающих» ошибок?

Хранить секреты вне кластера (KMS/Secret Manager) и подтягивать через External Secrets / CSI Secrets Store, монтируя как файл (а не env) — тогда обновления приходят «на лету». В приложении — hot-reload (watch файла, SIGHUP, sidecar-reloader). Для несовместимых ротаций — двухключевой период (старый+новый), фича-флаг переключения и постепенное отключение старого. Для критичных потоков — поэтапный rollout и health-checks, чтобы трафик шёл только на инстансы с новым секретом.

Библиотека собеса по DevOps

665 views17:02

About

Blog

Apps

Platform