Why Alert Fatigue is a Major Challenge in Observability
В этом видео Марк Чипурас (руководитель новых продуктов Grafana Labs) разбирает основные принципы работы с усталостью от событий и рассказывает как Grafana помогает бороться с этим явлением.
В этом видео Марк Чипурас (руководитель новых продуктов Grafana Labs) разбирает основные принципы работы с усталостью от событий и рассказывает как Grafana помогает бороться с этим явлением.
👍5🔥3
Автор этих статей задумывался по поводу смены ОС на Arch Linux, но отложил эту затею в долгий ящик. Смотрел различные ролики на YouTube и заметил, что многие пользователи ставят себе Polybar, в котором можно легко настраивать информацию, выводимую на нечто похожее на Панель задач в Windows. Тогда он подумал "А почему бы не сделать такое в винде?!" и сразу начал гуглить что к чему. Попытался найти готовые аналоги, но ничего не впечатлило, поэтому решил написать свою программу на C++.
Мониторинг CPU и RAM на панели задач C++
Мониторинг CPU + RAM в трее. Часть 2
Мониторинг CPU и RAM на панели задач C++
Мониторинг CPU + RAM в трее. Часть 2
👍6🔥2🤔1
What's new in ClickStack. August '25
Каждый месяц разработчики ClickStack делятся последними обновлениями по всему стеку. В августе был добавлен облачный HyperDX, более интеллектуальный поиск, динамическая визуализация, новые SQL-функции и поддержка инвертированных индексов в ClickHouse, что делает наблюдение в ClickHouse быстрее, понятнее и мощнее. Подробнее в блоге.
Каждый месяц разработчики ClickStack делятся последними обновлениями по всему стеку. В августе был добавлен облачный HyperDX, более интеллектуальный поиск, динамическая визуализация, новые SQL-функции и поддержка инвертированных индексов в ClickHouse, что делает наблюдение в ClickHouse быстрее, понятнее и мощнее. Подробнее в блоге.
🔥3👍1
Monitoring FastAPI with Grafana + Prometheus: A 5-Minute Guide
В этой статье рассмотрено как отслеживать работу приложения Python FastAPI с помощью Prometheus и Grafana, работающих локально с Docker Compose. В результате у вас будет дашборд, отображающий частоту запросов, задержку и использование системных ресурсов — все это будет работать локально с помощью Docker Compose. Читать дальше.
❗️Статья на medium.com
В этой статье рассмотрено как отслеживать работу приложения Python FastAPI с помощью Prometheus и Grafana, работающих локально с Docker Compose. В результате у вас будет дашборд, отображающий частоту запросов, задержку и использование системных ресурсов — все это будет работать локально с помощью Docker Compose. Читать дальше.
❗️Статья на medium.com
👍7🔥1
Gonzo
Мощный терминальный клиент для анализа логов в реальном времени, вдохновлённый k9s. Вы сможете анализировать потоки логов с помощью красивых диаграмм, аналитики на основе ИИ и расширенной фильтрации — всё прямо в терминале.
Репыч на Гитхабе
@monitorim_it
Мощный терминальный клиент для анализа логов в реальном времени, вдохновлённый k9s. Вы сможете анализировать потоки логов с помощью красивых диаграмм, аналитики на основе ИИ и расширенной фильтрации — всё прямо в терминале.
Репыч на Гитхабе
@monitorim_it
👍10🔥5❤2
Alerting Best Practices
Алерт подобен звонку в дверь: требует немедленного внимания, отрывая от всего остального. Он требует сосредоточенности и быстрой реакции.
Представьте, что вы живёте в квартире, где дверной звонок звонит без умолку. Вы можете надеть беруши, чтобы заглушить шум, но это лишь замаскирует проблему, а не решит её.
С другой стороны, полное отключение дверного звонка тоже не выход. Вам всё равно хочется знать, когда прибудет ваша еда или посылка.
Дверной звонок, который всегда молчит или постоянно звонит, одинаково бесполезен. Цель — найти правильный баланс, различая, что действительно важно, а что нет.
В этой статье в блоге VM рассматриваются хорошие практики настройки правил оповещения.
Алерт подобен звонку в дверь: требует немедленного внимания, отрывая от всего остального. Он требует сосредоточенности и быстрой реакции.
Представьте, что вы живёте в квартире, где дверной звонок звонит без умолку. Вы можете надеть беруши, чтобы заглушить шум, но это лишь замаскирует проблему, а не решит её.
С другой стороны, полное отключение дверного звонка тоже не выход. Вам всё равно хочется знать, когда прибудет ваша еда или посылка.
Дверной звонок, который всегда молчит или постоянно звонит, одинаково бесполезен. Цель — найти правильный баланс, различая, что действительно важно, а что нет.
В этой статье в блоге VM рассматриваются хорошие практики настройки правил оповещения.
❤9👍4🔥1
Мониторинг Kubernetes с помощью ClickStack
В этом видео рассматривается мониторинг Kubernetes с помощью ClickStack, а также показан процесс: от развёртывания ClickStack с помощью Helm до настройки сбора данных и изучения пользовательского интерфейса HyperDX. А ещё вы увидите как настроить сбор метрик Kubernetes с помощью OpenTelemetry, что даст полное представление о производительности кластера.
В этом видео рассматривается мониторинг Kubernetes с помощью ClickStack, а также показан процесс: от развёртывания ClickStack с помощью Helm до настройки сбора данных и изучения пользовательского интерфейса HyperDX. А ещё вы увидите как настроить сбор метрик Kubernetes с помощью OpenTelemetry, что даст полное представление о производительности кластера.
🔥4👍2
Как я перестал бояться алертов и полюбил дежурства
Статья о том, как причесать мониторинг, чтобы он не отвлекал по пустякам. Опыт автора.
Это вторая часть. Первая была Как я перестал тушить пожары и начал говорить с бизнесом на языке SLO.
Статья о том, как причесать мониторинг, чтобы он не отвлекал по пустякам. Опыт автора.
Это вторая часть. Первая была Как я перестал тушить пожары и начал говорить с бизнесом на языке SLO.
🔥9👍3
VictoriaLogs: What if logs management became simple and performant?
В то время как метрики позволяют наблюдать за развитием событий с течением времени, а трассировки позволяют отслеживать перемещение запроса платформе, логи предоставляют подробный контекст , важный для понимания событий. Статья о том как приручить VicrtoriaLogs.
В то время как метрики позволяют наблюдать за развитием событий с течением времени, а трассировки позволяют отслеживать перемещение запроса платформе, логи предоставляют подробный контекст , важный для понимания событий. Статья о том как приручить VicrtoriaLogs.
🔥7👍2
How should Prometheus handle OpenTelemetry resource attributes?
В OpenTelemetry (OTel) есть так называемые атрибуты ресурсов , которые представляют собой дополнительную информацию об источнике метрики, например, о службе, хосте или среде, которые ее сгенерировали.
Prometheus, будучи базой данных временных рядов, использует метки для идентификации и запроса метрик. Преобразование атрибутов ресурсов в метки может привести к так называемому «взрыву метрик», то есть к созданию слишком большого количества уникальных комбинаций, которые перегружают систему. Обычно это происходит, если атрибуты часто меняются или содержат много уникальных значений, таких как идентификаторы пользователей или имена подов. Подробнее о способах решения этой проблемы в статье в блоге Grafana.
В OpenTelemetry (OTel) есть так называемые атрибуты ресурсов , которые представляют собой дополнительную информацию об источнике метрики, например, о службе, хосте или среде, которые ее сгенерировали.
Prometheus, будучи базой данных временных рядов, использует метки для идентификации и запроса метрик. Преобразование атрибутов ресурсов в метки может привести к так называемому «взрыву метрик», то есть к созданию слишком большого количества уникальных комбинаций, которые перегружают систему. Обычно это происходит, если атрибуты часто меняются или содержат много уникальных значений, таких как идентификаторы пользователей или имена подов. Подробнее о способах решения этой проблемы в статье в блоге Grafana.
👍2❤1🔥1
Как мониторить сотни инстансов PostgreSQL и не сойти с ума
Если вы инженер в крупной компании, а особенно если ваша организация поставляет свои услуги в виде SaaS-решений, то вам так или иначе придется решать задачу мониторинга работы всех ваших баз PostgreSQL. На них часто бывает завязан функционал, важный для компании с точки зрения финансовых рисков, поэтому крайне желательно организовать не только мониторинг, но и получение уведомлений, когда что-то идет не по плану (или пойдет в ближайшем будущем). В этой статье рассмотрено несколько способов, как это можно сделать:
🚀 «Все сам» на Prometheus + Grafana (странно, что в списке нет Zabbix)
🚀 Готовые решения open-source (как ни странно это Percona Monitoring and Management и pgAdmin 4)
🚀 Платные решения (pganalyze, Tantor (это авторы этой статьи, поэтому странно, если бы их не было в этом списке)
✍️ Напишите в комментах, что вы используете для мониторинга ваших экземпляров PostgreSQL.
Если вы инженер в крупной компании, а особенно если ваша организация поставляет свои услуги в виде SaaS-решений, то вам так или иначе придется решать задачу мониторинга работы всех ваших баз PostgreSQL. На них часто бывает завязан функционал, важный для компании с точки зрения финансовых рисков, поэтому крайне желательно организовать не только мониторинг, но и получение уведомлений, когда что-то идет не по плану (или пойдет в ближайшем будущем). В этой статье рассмотрено несколько способов, как это можно сделать:
🚀 «Все сам» на Prometheus + Grafana (странно, что в списке нет Zabbix)
🚀 Готовые решения open-source (как ни странно это Percona Monitoring and Management и pgAdmin 4)
🚀 Платные решения (pganalyze, Tantor (это авторы этой статьи, поэтому странно, если бы их не было в этом списке)
✍️ Напишите в комментах, что вы используете для мониторинга ваших экземпляров PostgreSQL.
👍4🔥2
Why VictoriaMetrics? A Practical Guide to Scalable and Faster Monitoring Than Prometheus
Если вы используете Prometheus для мониторинга и сталкиваетесь с проблемой высокого использования оперативной памяти, больших объемов данных, проблемами масштабируемости и низкой скоростью запросов , пришло время прочитать эту статью и рассмотреть возможность использования VictoriaMetrics.
✍️ Напишите в комментах какие проблемы испытываете с Prometheus и есть ли в планах миграция на другое решение.
❗️статья на medium.com
Если вы используете Prometheus для мониторинга и сталкиваетесь с проблемой высокого использования оперативной памяти, больших объемов данных, проблемами масштабируемости и низкой скоростью запросов , пришло время прочитать эту статью и рассмотреть возможность использования VictoriaMetrics.
✍️ Напишите в комментах какие проблемы испытываете с Prometheus и есть ли в планах миграция на другое решение.
❗️статья на medium.com
❤4👍1🔥1
Oracle Database Metrics Exporter
Метрики OpenTelemetry для мониторинга СУБД Oracle (если она у вас, конечно, есть).
Метрики OpenTelemetry для мониторинга СУБД Oracle (если она у вас, конечно, есть).
👍5🔥2
Grafana по-русски, или «Графиня» де ля Форк
Тут за «Штурвалом» приехала «Графиня» — первый российский аналог Open-Source-платформы Grafana😐
Разработчики заявляют, что это не шильдик, и решение вообще не использует код Grafana.
Что еще известно:
- Платформа включена в состав системы мониторинга IT‑инфраструктуры «Пульт».
- Технологический стек: фронтенд: TypeScript + React 18, бэкенд: TypeScript + Node.js, база данных: MongoDB, плагины: Java.
- Источники данных: «Пульт», Zabbix, VictoriaMetrics, Prometheus, PostgreSQL и CSV.
- Производитель обещает: обновления, которые не ломают существующие дашборды (привет, Grafana!), нормальную ролевку из коробки, многоуровневое кэширование и универсальные API-контракты.
Запросить демо системы можно пока только через форму обратной связи 😁
Реклама ООО «Лаборатория Числитель» ИНН 9731042193 erid: 2W5zFGtXwhS
Тут за «Штурвалом» приехала «Графиня» — первый российский аналог Open-Source-платформы Grafana
Разработчики заявляют, что это не шильдик, и решение вообще не использует код Grafana.
Что еще известно:
- Платформа включена в состав системы мониторинга IT‑инфраструктуры «Пульт».
- Технологический стек: фронтенд: TypeScript + React 18, бэкенд: TypeScript + Node.js, база данных: MongoDB, плагины: Java.
- Источники данных: «Пульт», Zabbix, VictoriaMetrics, Prometheus, PostgreSQL и CSV.
- Производитель обещает: обновления, которые не ломают существующие дашборды (привет, Grafana!), нормальную ролевку из коробки, многоуровневое кэширование и универсальные API-контракты.
Запросить демо системы можно пока только через форму обратной связи 😁
Реклама ООО «Лаборатория Числитель» ИНН 9731042193 erid: 2W5zFGtXwhS
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Российский аналог Grafana, или «Графиня» де ля Форк: что же там под «платьем»
Хабр, привет! На связи Дима Унтила, product owner «Пульта» и «Графини», и Паша Мирошин, ведущий разработчик в «Лаборатории Числитель». Несколько недель назад мы объявили о выпуске «Графини» —...
👍29👎23❤4🔥3🤔2
Проценты использования процессора — это ложная метрика
По работе автор этой статьи постоянно имеет дело с серверами; при этом их владельцы всегда хотят знать, когда серверы используют свои ресурсы максимально. Вроде бы, это простая задача? Достаточно настроить top или другой инструмент мониторинга системы, посмотреть на процент использования сети, памяти и CPU, и наибольшее значение покажет, насколько близко сервер находится к пределу своих возможностей.
Однако когда владельцы пытаются реально проецировать эти значения, то оказывается. что процент использования CPU на самом деле растёт не совсем линейно. Но насколько непрямой может быть зависимость?
Чтобы ответить на этот вопрос, автор выполнил кучу стресс-тестов, мониторя при этом объём выполняемых ими работы и отображаемый системой уровень использования CPU, а затем по результатам построил графики. Читать дальше.
По работе автор этой статьи постоянно имеет дело с серверами; при этом их владельцы всегда хотят знать, когда серверы используют свои ресурсы максимально. Вроде бы, это простая задача? Достаточно настроить top или другой инструмент мониторинга системы, посмотреть на процент использования сети, памяти и CPU, и наибольшее значение покажет, насколько близко сервер находится к пределу своих возможностей.
Однако когда владельцы пытаются реально проецировать эти значения, то оказывается. что процент использования CPU на самом деле растёт не совсем линейно. Но насколько непрямой может быть зависимость?
Чтобы ответить на этот вопрос, автор выполнил кучу стресс-тестов, мониторя при этом объём выполняемых ими работы и отображаемый системой уровень использования CPU, а затем по результатам построил графики. Читать дальше.
👍4❤2🔥2
Мониторинг и SLA на фронтенде: где брать метрики и как не высасывать из пальца SLI
Купер входит в топ-3 на рынке e-grocery. У них больше 100 тыс. уникальных пользователей в сутки. До 10 тыс. RPS в обычный день, в несколько раз больше — в дни высокой нагрузки. Из 10 тыс. порядка 1,5 тыс. приходится на сервисы фронта. В этой статье разобрано:
🚀 Как мониторится фронтенд в Купере
🚀 Что выбирается в качестве SLI
🚀 Какие клиентские метрики используются в качестве SLI
Купер входит в топ-3 на рынке e-grocery. У них больше 100 тыс. уникальных пользователей в сутки. До 10 тыс. RPS в обычный день, в несколько раз больше — в дни высокой нагрузки. Из 10 тыс. порядка 1,5 тыс. приходится на сервисы фронта. В этой статье разобрано:
🚀 Как мониторится фронтенд в Купере
🚀 Что выбирается в качестве SLI
🚀 Какие клиентские метрики используются в качестве SLI
👍2🔥2
Мониторинг Celery. Pull-модель
В этой статье рассмотрена возможность получения метрик Celery непосредственно от самих воркеров, хитрости, на которые придётся пойти, чтобы решить эту задачу, и, самое главное, какие преимущества от этого можно получить по сравнению с классическим подходом к мониторингу Celery. Также продемонстрирую небольшой Django-проект и пример его конфигурации. Особое внимание будет уделено режиму мультипроцессинга и тому, как та или иная конфигурация запуска Celery будет влиять на сложность решения.
В этой статье рассмотрена возможность получения метрик Celery непосредственно от самих воркеров, хитрости, на которые придётся пойти, чтобы решить эту задачу, и, самое главное, какие преимущества от этого можно получить по сравнению с классическим подходом к мониторингу Celery. Также продемонстрирую небольшой Django-проект и пример его конфигурации. Особое внимание будет уделено режиму мультипроцессинга и тому, как та или иная конфигурация запуска Celery будет влиять на сложность решения.
👍2🔥1
OpenTelemetry Tracing on the JVM
В этой статье автор сравнивает различные подходы OpenTelemetry при мониторинге JVM, охватывая наиболее распространённые платформы:
🚀 Spring Boot with Micrometer Tracing
🚀 Spring Boot with the OpenTelemetry Agent
🚀 OpenTelemetry Spring Boot Starter
🚀 Quarkus
🚀 Quarkus with the OpenTelemetry Agent
В этой статье автор сравнивает различные подходы OpenTelemetry при мониторинге JVM, охватывая наиболее распространённые платформы:
🚀 Spring Boot with Micrometer Tracing
🚀 Spring Boot with the OpenTelemetry Agent
🚀 OpenTelemetry Spring Boot Starter
🚀 Quarkus
🚀 Quarkus with the OpenTelemetry Agent
🔥2👍1
Grafana Mimir: 3 reasons to run the TSDB for Prometheus on bare metal
Mimir — это горизонтально масштабируемая, высокодоступная, многопользовательская СУБД TSDB от Grafana Labs для долгосрочного хранения показателей Prometheus. В этой статье автор рассказывает о трех причинах, по которым вам может потребоваться запустить ее на виртуальных машинах и/или на bare-metal (так-то Grafana Mimir часто разворачивается на базе Kubernetes).
Mimir — это горизонтально масштабируемая, высокодоступная, многопользовательская СУБД TSDB от Grafana Labs для долгосрочного хранения показателей Prometheus. В этой статье автор рассказывает о трех причинах, по которым вам может потребоваться запустить ее на виртуальных машинах и/или на bare-metal (так-то Grafana Mimir часто разворачивается на базе Kubernetes).
SLI Evolution Stages
Статья-ответ на вопрос «Как измерить уровень обслуживания?». Alex Ewerlöf делится у себя в блоге своим опытом.
Статья-ответ на вопрос «Как измерить уровень обслуживания?». Alex Ewerlöf делится у себя в блоге своим опытом.
👍3🔥1