DevOpsConf Channel
1.81K subscribers
717 photos
38 videos
10 files
813 links
Информационный канал профессиональной конференции по интеграции процессов разработки, тестирования и эксплуатации DevOpsConf

https://devopsconf.io


Чат @DevOpsConfTalks
Download Telegram
Десятки, а иногда и сотни тысяч событий в день. Каждое — потенциальная авария, а может, просто шум. L1-инженеру нужно решить: добавить событие к инциденту? Создать новый? А может, это часть уже закрытого? Или всё серьёзнее — и перед нами экосистемный сбой, затрагивающий десятки сервисов?

Раньше в МТС это классифицировали вручную. Но при таком объёме и разнообразии инфраструктуры быстро поняли, что нужна автоматизация. Слишком велик риск пропустить важное, не найти корень проблемы, потратить драгоценные минуты в критический момент.

В этой статье — Михаил Копытин, руководитель команды разработки, и Евгений Лачугин, руководитель экосистемной команды поддержки в МТС Web Services – расскажут, как построили автоматизацию, какие архитектурные решения приняли, какие грабли собрали и как достигли точности разметки выше 80%.
Если на ваших проектах SLA часто превращаются из полезного инструмента в головную боль, эта статья поможет изменить подход и начать строить платформы с гарантированной надежностью.

Мы разберем, как перейти от «красивых на бумаге» метрик к реально работающим SLA, основанным на архитектуре системы. Посмотрим, почему классические SLI вроде Latency и доступности прокси не всегда полезны. Разберем, как анализ компонентов платформы помогает связать метрики с алертами и построить адекватный план SLA.

О непростых технических компромиссах и ошибках, которые превратились в ценный опыт, расскажет инженерный менеджер с 13 годами опыта Игорь Цупко.
2🔥1
Сеньоры, признавайтесь, было?

😁 — да
😎 — нет
🎉 — я не сеньор

#DevOps_мем
😁11😎5🎉4❤‍🔥2