DevOpsConf Channel

Десятки, а иногда и сотни тысяч событий в день. Каждое — потенциальная авария, а может, просто шум. L1-инженеру нужно решить: добавить событие к инциденту? Создать новый? А может, это часть уже закрытого? Или всё серьёзнее — и перед нами экосистемный сбой, затрагивающий десятки сервисов?

Раньше в МТС это классифицировали вручную. Но при таком объёме и разнообразии инфраструктуры быстро поняли, что нужна автоматизация. Слишком велик риск пропустить важное, не найти корень проблемы, потратить драгоценные минуты в критический момент.

В этой статье — Михаил Копытин, руководитель команды разработки, и Евгений Лачугин, руководитель экосистемной команды поддержки в МТС Web Services – расскажут, как построили автоматизацию, какие архитектурные решения приняли, какие грабли собрали и как достигли точности разметки выше 80%.

Хабр

Как мы научили ML группировать 50 000 событий в инциденты

904 views09:00

DevOpsConf Channel

Если на ваших проектах SLA часто превращаются из полезного инструмента в головную боль, эта статья поможет изменить подход и начать строить платформы с гарантированной надежностью.

Мы разберем, как перейти от «красивых на бумаге» метрик к реально работающим SLA, основанным на архитектуре системы. Посмотрим, почему классические SLI вроде Latency и доступности прокси не всегда полезны. Разберем, как анализ компонентов платформы помогает связать метрики с алертами и построить адекватный план SLA.

О непростых технических компромиссах и ошибках, которые превратились в ценный опыт, расскажет инженерный менеджер с 13 годами опыта Игорь Цупко.

Хабр

Как не потерять миллионы на SLA: архитектурный подход к управлению ожиданиями

Нарушение SLA — это условность, которую придумали поверх технических проблем. В IT-инфраструктуре любая техническая проблема быстро превращается в убытки, особенно если не умеешь правильно управлять...

❤2🔥1

2.18K views09:28

DevOpsConf Channel

Сеньоры, признавайтесь, было?

😁 — да
😎 — нет
🎉 — я не сеньор

#DevOps_мем

😁11😎5🎉4❤‍🔥2

307 views12:50

About

Blog

Apps

Platform