Десятки, а иногда и сотни тысяч событий в день. Каждое — потенциальная авария, а может, просто шум. L1-инженеру нужно решить: добавить событие к инциденту? Создать новый? А может, это часть уже закрытого? Или всё серьёзнее — и перед нами экосистемный сбой, затрагивающий десятки сервисов?
Раньше в МТС это классифицировали вручную. Но при таком объёме и разнообразии инфраструктуры быстро поняли, что нужна автоматизация. Слишком велик риск пропустить важное, не найти корень проблемы, потратить драгоценные минуты в критический момент.
В этой статье — Михаил Копытин, руководитель команды разработки, и Евгений Лачугин, руководитель экосистемной команды поддержки в МТС Web Services – расскажут, как построили автоматизацию, какие архитектурные решения приняли, какие грабли собрали и как достигли точности разметки выше 80%.
Раньше в МТС это классифицировали вручную. Но при таком объёме и разнообразии инфраструктуры быстро поняли, что нужна автоматизация. Слишком велик риск пропустить важное, не найти корень проблемы, потратить драгоценные минуты в критический момент.
В этой статье — Михаил Копытин, руководитель команды разработки, и Евгений Лачугин, руководитель экосистемной команды поддержки в МТС Web Services – расскажут, как построили автоматизацию, какие архитектурные решения приняли, какие грабли собрали и как достигли точности разметки выше 80%.
Хабр
Как мы научили ML группировать 50 000 событий в инциденты
Десятки, а иногда и сотни тысяч событий в день. Каждое — потенциальная авария, а может, просто шум. L1-инженеру нужно решить: добавить событие к инциденту? Создать новый? А может, это часть уже...
Если на ваших проектах SLA часто превращаются из полезного инструмента в головную боль, эта статья поможет изменить подход и начать строить платформы с гарантированной надежностью.
Мы разберем, как перейти от «красивых на бумаге» метрик к реально работающим SLA, основанным на архитектуре системы. Посмотрим, почему классические SLI вроде Latency и доступности прокси не всегда полезны. Разберем, как анализ компонентов платформы помогает связать метрики с алертами и построить адекватный план SLA.
О непростых технических компромиссах и ошибках, которые превратились в ценный опыт, расскажет инженерный менеджер с 13 годами опыта Игорь Цупко.
Мы разберем, как перейти от «красивых на бумаге» метрик к реально работающим SLA, основанным на архитектуре системы. Посмотрим, почему классические SLI вроде Latency и доступности прокси не всегда полезны. Разберем, как анализ компонентов платформы помогает связать метрики с алертами и построить адекватный план SLA.
О непростых технических компромиссах и ошибках, которые превратились в ценный опыт, расскажет инженерный менеджер с 13 годами опыта Игорь Цупко.
Хабр
Как не потерять миллионы на SLA: архитектурный подход к управлению ожиданиями
Нарушение SLA — это условность, которую придумали поверх технических проблем. В IT-инфраструктуре любая техническая проблема быстро превращается в убытки, особенно если не умеешь правильно управлять...
❤2🔥1