Мониторим ИТ – Telegram

Мониторим ИТ

8.09K subscribers

210 photos

2 files

1.54K links

Канал о наблюдаемости (Monitoring & Observability): логи, трейсы, метрики.

Реклама: @gals_ad_bot
Вопросы: @antoniusfirst

@usr_bin_linux — Linux, Kubernetes, Docker, Terraform, etc.

@zabbix_ru — только Zabbix

@elasticstack_ru — ElasticSearch/OpenSearch

Download Telegram

About

Blog

Apps

Platform

Мониторим ИТ

8.09K subscribers

Мониторим ИТ

Есть такой зверь Customer Impact Assessment (CIA), на русский переводится как оценка влияния на пользователя. Думаю, вам уже понятно, что контексте предоставления ИТ-сервиса этот процесс может оказаться очень полезен. Это ретроспектива (обычно недельная) всех зафиксированных событий/инцидентов. Если вы сейчас скажете:"да хрена лысого я смогу все свои события за неделю просмотреть, мне на это жизни не хватит", значит что-то с вашим мониторингом не то. И это дополнительный повод проводить такую оценку, потому что так вы добьётесь снижения количества ложных/шумовых событий, выявите пару-тройку причинно-следственных связей возникших инцидентов и со спокойной душой передадите это разработчикам. После нескольких таких итераций нагрузка на колл-центр/техподдержку снизится сама собой.

441 viewsedited 05:30

Мониторим ИТ

В книге Site Reliability Engeneering Google рассказывает о 4 золотых сигналах (или метриках), на которые они рекомендуют ориентироваться в мониторинге приложений. Инженеры Google считают фундаментальными метрики: время задержки (latency), трафик (traffic), количество ошибок (errors) и насыщенность (saturation). Ниже расскажу подробнее.

1. Время задержки (latency). Время, затрачиваемое на обработку запроса, с уделением особого внимания различию между задержкой выполнения успешных запросов и задержкой выполнения неудачных запросов.

2. Трафик (traffic) Метрика уровня спроса на услугу — количества запросов к сервису. Например, количество HTTP-запросов в секунду в случае мониторинга HTTP REST API.

3. Количество ошибок (errors) Количество неудачных запросов. Ошибки могут быть явными (например, ошибки HTTP 500) или неявными (например, HTTP 200 OK с телом ответа, имеющим слишком мало элементов).

4. Насыщенность (saturation) Метрика уровня нагруженности сервиса. Показатель использования системы с упором на ресурсы, которые наиболее ограничены (например, утилизация памяти, диска или процессора). По мере приближения к высокой нагрузке качество сервиса ухудшается.

Будьте как Google — контролируйте эти метрики!

703 viewsedited 16:25

Мониторим ИТ

Ниже мой небольшой инсайт. Может быть вам полезен, если занимаетесь пресейлами и/или продажами ИТ-продуктов. Поставьте, лайк, если материал был полезен.

Интервью — обязательная часть пресейловых активностей по продвижению решений мониторинга. (конечно, не только мониторинга, но мы тут только об этом). Как ещё узнаешь о болях клиента? Если вы интегратор (или вендор) — ваша задача решить проблему клиента, если клиент — задача опять-таки решить проблему. Получается, задачи обоих сторон идентичны. Customer Development — методика эффективного интервью для выявления реальных потребностей клиента. Если правильно её применять, можно заметно повысить КПД интервью для обоих сторон: продающая сторона будет решать реальную проблему, а покупающая лучше разберётся в своих задачах. Как следствие: не нужно встречаться повторно, созваниваться и вести дополнительную переписку для уточнения деталей. Как видите, сплошной win-win. И ничего сложного. Что нужно же делать? А вот что.

1. Гипотеза

Перед встречей сформулируйте несколько гипотез, которые позволят выявить проблемы клиента, о которых он мог и не догадываться. Перечень гипотез подскажет только прошлый опыт. Например:
- у вас дофига событий, вам они не досаждают?
- у вас дофига консолей мониторинга, ваша дежурная смена ещё не обзавелась фасеточным зрением как мухи?
- насколько быстро удаётся решать проблемы при наличии текущих систем мониторинга?
- и так далее.

Все свои гипотезы нужно оставить на время, когда клиент уже расскажет о своих проблемах, чтобы не сбивать его с мысли.

2. Процедура интервью

Во время интервью (и это показывает опыт) важно:
- не продавать
- задавать открытые вопросы
- искать причину мотивации собеседника
- спрашивать про прошлое и настоящее
- просить привести примеры конкретных ситуаций
- занимать нейтральную позицию, не учить жизни

2. Подготовленный гайд

Сделанная заранее домашка (вопросы) поможет узнать всё что хотелось и ни о чём не забыть. В гайд входят также и гипотезы. А вопросы могут быть такими:

- как сейчас вырешаете задачу мониторинга? — вопрос про реальный опыт.
- почему вас беспокоит текущий подход к мониторингу? — открытый вопрос, вопрос про реальные мотивы приглашения вас как экспертов
- каковы последствия этой ситуации? — поможет оценить важность проблемы для клиента.
- расскажите подробнее, что произошло в последний раз? — выявит подробности о ситуации и причинах появления проблемы.
- что ещё пытались сделать? — поможет понять серьезность немерений клиента при решении проблемы.
- как решаете проблему сейчас? — открытый вопрос для выявления текущих альтернативы для сравнения вашего предложения с потенциальными конкурентами
- с кем ещё стоит поговорить об этом? — поможет приобрести новый контакт. Если вас порекомендовали, значит вы попали в целевую аудиторию и верно нащупали боли.

2. Правильные люди

У интервьюируемого должно быть правильное представление о текущей ситуации. Желательно, чтобы на встрече были не только люди из ИТ, но и присутствовал бизнес, чтобы вы могли услышать две точки зрения (бывает очень полезно). В общем, главное найти людей, у которых есть полное представление о ситуации.

Кроме всего сказанного, разумеется нужно: иметь позитивный настрой, быть доброжелательным и улыбаться 🙂

618 viewsedited 17:22

Мониторим ИТ

Я тут задумался: а почему Kubernetes иногда ещё называют K8s? Вы не поверите! Цифра 8 означает всего лишь количество букв между k и s. Век живи — век гугли. 👍 — если знали, 👎 — если не знали, 👀 — если не знали что такое Kubernetes.

603 viewsedited 17:59

👍 15 👎 21 👀 5

Мониторим ИТ

Если вы долго хотели, но никак не могли начать чтение Site Reliability Engineering (SRE) от Google, то вот сейчас неплохой момент начать знакомство. По ссылке перевод 6 главы о мониторинге распределённых систем. В статье есть ссылка на полную электронную версию книги в оригинале. Кто не знает, в этой книге Google описывает свои подходы к обеспечению доступности веб-сервисов.

Мониторинг распределённых систем — опыт Google

Это перевод Главы 6 Monitoring Distributed Systems книги Site Reliability Engineering от Google. Специально для телеграм-канала…

3.74K viewsedited 14:55

Мониторим ИТ

Написал на Хабр пост про 9 инструментов для трекинга кода приложений. Комментарии можно оставить там.

761 viewsedited 18:16

Мониторим ИТ

А не пора ли выкатить перевод новой главы из книги Site Reliability Engineering (SRE) от Google? Наверное, пора! В этот раз драматическая история о правильном выборе SLO, SLA, SLI и рассказ об их отличиях. По ссылке Глава 4 Service Level Objectives (SLO) или Цели Уровня Обслуживания с точки зрения Google.

Цели уровня обслуживания — опыт Google

Перевод Главы 4 Service Level Objectives книги Site Reliability Engineering от Google. Специально для телеграм-канала @monitorim_it.

2.96K viewsedited 17:30

Мониторим ИТ

Я уже как-то писал в канале об интересных лекция с конференции Мониторама, где только и говорят, что про DevOps. Понятно, что одной Мониторамой сыт не будешь и в процессе поиска полезных выступлений с разных выступлений, я собрал шорт-лист из 16 DevOps конференций, о которых написал на Хабре. Ссылки на записи там прилагаются.

665 viewsedited 05:00

Мониторим ИТ

О проблемах, которые нужно учитывать при миграции монолита на распределённую систему от консультанта по ИТ Джефа Ходжеса. Статья была написана 5 лет назад, но не потеряет актуальности до тех пор, пока в мире останется хотя бы одна монолитная система. Статья на английском, если что. https://bit.ly/2MctGep

643 viewsedited 05:00

Мониторим ИТ

А вот издательство Питер выкатило перевод книги Site Reliability Engineering. По ссылке статья на Хабре о книге и промо-код на бумажное издание.

Книга «Site Reliability Engineering. Надежность и безотказность как в Google»

Вот уже почти 20 лет компания Google обеспечивает работу невообразимо сложных и масштабных систем, которые чутко реагируют на запросы пользователей. Поисковик Google находит ответ на любые вопросы за...

773 views15:01

Мониторим ИТ

Мониторинг Kubernetes в Prometheus. Как устроен Kubernetes (оркестратор для контейнеров), как с ним работает Prometheus (система мониторинга), как это всё отображается в Grafana (система визуализации метрик) рассказыват на RootConf Дмитрий Столяров CTO компании Флант. Много полезной информации для понимания принципов микросервисной архитектуры. https://youtu.be/zj6SlzzBRaA

Мониторинг и Kubernetes (Дмитрий Столяров, Флант, RootConf 2018)

Доклад Дмитрия Столярова, технического директора компании «Флант» (https://flant.ru/), на конференции RootConf 2018 в рамках фестиваля РИТ++ (28 мая 2018). Рассказывается об опыте настройки мониторинга с Prometheus, который был получен в результате эксплуатации…

693 views18:00

Мониторим ИТ

Есть такое API для мониторинга — называется OpenTracing. Умеет профилировать вызовы между компонентами приложения. На основе этого API работают как бесплатные так и коммерческие инструменты для мониторинга распределённых приложений. Один из бесплатных инструментов, созданный в Uber, является Jaeger. Кто-то знает, а кто-то нет, но штука на самом деле мощная и её при желании можно интегрировать с инструментами визулизации. Почитайте интересную статью о том, как это работает.

OpenTracing: Jaeger as Distributed Tracer - Sematext

Find out about Jaeger as distributed tracing system: another distributed tracing system that’s in process of massive adoption. Its architecture is built with scalability and parallelism in mind. The backend is implemented in Go language and it has support…

831 viewsedited 15:43

Мониторим ИТ

Прямо в точку (почти). Пост на Хабре от представителя Сбербанка (-теха). Его советы, конечно же, расширяются на любой проект по мониторингу (не только для инфраструктуры) и при некоторой модификации на проекты внедрения вообще любого софта.

📌1. НЕ внедряйте инструмент мониторинга
📌2. Интегратор НЕ сделает за вас всей работы
📌3. НЕ путайте мониторинг и администрирование ИТ-инфраструктуры
📌4. НЕ рассчитывайте, что ваши подчиненные будут использовать мониторинг, если вы сами этого не делаете
📌5. НЕ заставляйте сотрудников работать с системой мониторинга
📌6. НЕ концентрируйтесь на проверке функциональности системы мониторинга во время ее испытаний
📌7. Мониторинг НЕ начнет приносить пользу, пока вы не начнете работать с ним и адаптировать его под свои потребности

Особенно близким оказался для меня п.7. Очень часто, когда с начала и до конца проекта у заказчика нет понимания «а кто же будет пользоваться системой», проекты заканичваются внедрением системы, которой никто не будет пользоваться. А деньги потрачены. Лол.

Семь «НЕ» мониторинга ИТ-инфраструктуры

На протяжении своей работы я периодически наблюдал ситуации, когда внедрение мониторинга в компании не приносило ожидаемых результатов. Мониторинг работал плохо или не работал вообще. Анализируя такие...

815 viewsedited 16:01

Мониторим ИТ

Опубликовал новую статью на Хабре. Теперь-то будет понятно куда смотреть

Присматриваемся к инструментам для мониторинга распределенных приложений

Когда приложение было монолитным и вдруг, раз, стало распределённым, в формулу вычисления доступности добавляется ещё одна неизвестная — сетевая. Из-за проблем...

826 viewsedited 05:00

Мониторим ИТ

К вопросу о полноте мониторинга.

748 viewsedited 06:29

👍 17 👎 1 👀

Мониторим ИТ

«DevOps — это не просто автоматизация пайплайна по доставке софта, это доставка ценности конечному пользователю. Если ценность не доставлена, значит ваш DevOps 💩». Donovan Brown. Это одно из определений DevOps, но на самом деле никто не знает точного определения, даже те, кто пишет этот набор букв в своём резюме. Попробуйте-ка спросите у них.

675 viewsedited 16:00

👍 12 👎 1 👀 2

Мониторим ИТ

По-моему картинка идеально подходит к неправильно настроенной системе мониторинга.

763 viewsedited 07:00

👍 19 👎👀

Мониторим ИТ

А вы знали, что есть целый класс софта для отрисовки customer journey? С аналитикой и прочими фичами. Данные из DEM-систем (DEM — Digital Experience Monitoring) могут стать основой для такой карты. Ну, конечно, наравне с данными из системы аналитики — Яндекс Метрики или Google Analytics. С DEM можно выявить влияние производительности кода на пользовательское поведение.

Подготовил несколько полезных ссылок по теме:
Статья на cossa.ru
Статья на vc.ru с реальными кейсами использования customer journey tool
20 приложений для создания customer journey map

👍знаю про customer journey tools, использую
👎знаю про customer journey tools, не использую
👀не знаю, не использую

634 viewsedited 18:01

👍👎 1 👀 11

Мониторим ИТ

По следам вчерашнего поста о Customer Journey. Как оказалось, ему даже обучают и даже в Москве. Если у кого-то есть желание изучить вопрос глубже — сходите на обучение. Это не реклама.

Как справедливо заметили некоторые читатели вчерашего поста, к сожалению, перечисленные в ссылках инструменты customer journey не позволяют на основе внешних данных строить карты в автоматическом режиме. Если вы вдруг знаете такие инструменты, напишите мне пжл в личку.

658 views16:31

Мониторим ИТ

Написал колонку про идеальный дашборд. Перечислил 5 разных видов дашбордов, укажите сколько вы используете в своих системах мониторинга.

1️⃣,2️⃣,3️⃣,4️⃣ или все 5️⃣.

Можно ли сделать идеальный дашборд для мониторинга

Мне тут же вспомнилась статья в Тинькофф журнале «Как заработать на квартиру в пределах Мкада. Имея зарплату 100–200 тысяч рублей и не…

5.19K viewsedited 08:36

1️⃣ 2 2️⃣ 1 3️⃣ 2 4️⃣ 2 5️⃣ 7

Мониторим ИТ

Шаблоны дашбордов на ангуляр и бутстрап.

649 viewsedited 05:30