Мониторим ИТ

Свой мини-«мониторинг как сервис»: Python-демон + Next.js-дашборд

В какой-то момент автор этой статьи поймал себя на том, что в третий раз пишет похожий набор проверок (API, страницы, базы, очереди, TLS, Docker…) и снова открывает это все в голых логах или простых HTML-страничках. В итоге он сел и сделал отдельный проект — мониторинг-демон на Python + Next.js-дашборд. Подробности в статье.

Репыч на Гитхабе

@monitorim_it

👍7🔥2👎1

2.27K views06:57

Мониторим ИТ

RUM на Prometheus: пишем за вечер свой простой и надёжный фронтенд-мониторинг

В разработке давно привыкли смотреть на потребление процессора и памяти, на ошибки и бизнес-метрики, но метрики скорости фронтенда почему-то до сих пор игнорируют даже в крупных компаниях. В этой статье автор рассказывает, как решить эту задачу, сделав свой RUM поверх Prometheus. Читать дальше на Хабре.

@monitorim_it

🔥13👍4❤1

2.3K views13:21

Мониторим ИТ

Observability все дороже и дороже

В очередной раз натолкнулся на статью с предложением снизить расходы на Observability-платформу. На этот раз статья от ClickHouse (ClickStack).

Представим, что мы средняя компания с несколькими сотнями сервисов, контейнеров и виртуалок. Мы хотим мониторить всё: метрики, логи, трейсы, пользовательские события. Давайте-ка теперь прикинем в формате пол-палец-потолок какие у нас будут расходы на хранение, например, логов.

Предположим, что у нас 200 нод/контейнеров/host-объектов, которые генерят
ingest ~ по 2 TB сырых логов, метрик и трейсов в месяц. Хранить для простоты мы будем эти данные 30 дней.

А теперь при помощи опыта, чатгпт и простого поиска в интернете разложим как эти данные ложатся в архитектуры Elasticsearch, LGTM, Victoria (Metrics/Logs/Traces), Thanos, Prometheus.

🚀 ElasticSearch

Логи: расжатие 1.2×–1.6×, ~1,5× в среднем (~3 Тб). Рост дают инвертированные индексы.
Метрики: ~0.9 Б/сэмпл (при хранении в формате TSDS) ~115 ГБ
Трейсы: расжатие 1.5×–2,5×, ~2× в среднем (~4 Тб).

🚀 Clickhouse

Логи: сжатие 10×-30×, ~20× в среднем (~100 Гб)
Метрики: 0.5–1.6 Б/сэмпл ~100 ГБ
Трейсы: сжатие 7×-18×, ~10× в среднем (~200 Гб)

🚀 Victoria

(Logs) Логи: сжатие 10×-20×, ~15× в среднем (~133 Гб)
(Metrics) Метрики: ≈1 Б/сэмпл ~125 ГБ
(Traces) Трейсы: сжатие 8×-15×, ~11,5× в среднем (~170 Гб)

🚀 Grafana

(Loki) Логи: сжатие 3×-10×, ~5× в среднем (~400 Гб)
(Mimir) Метрики: ~1.3 Б/сэмпл~160 ГБ
(Tempo) Трейсы: расжатие 0,8×-1,5×, ~1× в среднем (~2000 Гб)

🚀 Thanos

Метрики: ~1-2 Б/сэмпл + 20% оверхед на метаданные и индексы ~225 ГБ

🚀 Prometheus

Метрики: ~1-2 Б/сэмпл (среднее 1,5 Б/сэмпл) ~190 ГБ

По итогу логи/метрики/трейсы займут места в:

ElasticSearch ~7115 Гб
ClickHouse ~400 Гб
Victoria ~428 Гб
LGTM ~2560 Гб

Путем математических вычислений теперь можно посчитать сколько вам нужно заплатить или за хранение в облаке этих данных или за хранение во внутреннем контуре. Также очевидно, что чем больше данных вы храните тем большая инфраструктура это все должна обслуживать (кластера, ноды и т.д.). А ещё ведь резервные копии нужны. Уф.

В общем, правильный выбор стека сэкономит вам практически всё: деньги, человекочасы и нервы.

🚀 Напишите в комментариях какой стек используете в своих observability-системах и чем довольны/не довольны. Обменяемся опытом.

@monitorim_it

🔥14👍6❤2

2.15K views06:10

Мониторим ИТ

Приглашаем на ЮMoneyDay — бесплатную онлайн-конференцию про финтех и IT 🔥

На протяжении двух дней будем общаться с разработчиками, инженерами, тестировщиками, продактами, дизайнерами и другими специалистами из ЮMoney. Они расскажут про свой опыт работы в большом финансовом продукте, поделятся лайфхаками и секретами.

Будут доклады по 16 направлениям:

🟣 Будущее финтеха
🟣 Бэкенд
🟣 Фронтенд
🟣 Тестирование
🟣 Python
🟣 Менеджмент проектов
🟣 Менеджмент продуктов
🟣 Системный анализ
🟣 SQL
🟣 UX
🟣 ИИ
🟣 Архитектура IT-решений
🟣 Внутренние системы
🟣 Мобильная разработка
🟣 Инфраструктура
🟣 О компании

Встречаемся онлайн 5 и 6 декабря в 11:00 мск. Чтобы участвовать, зарегистрируйтесь на сайте конференции ✅

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6👍3

2.08K views10:04

Мониторим ИТ

Deprecating Zipkin Exporter

Проанализировав особенности использования в различных языковых экосистемах, мы отметили, что сообщество всё больше склоняется к OTLP, при этом экспортёры Zipkin получили ограниченное распространение — на некоторых языках, даже меньшее, чем уже устаревший экспортёр Jaeger. Учитывая минимальное участие пользователей в решении связанных вопросов и наличие альтернатив, мы считаем, что сейчас самое время прекратить поддержку экспортёров Zipkin в SDK OTel.

Больше подробностей в блоге OTEL.

@monitorim_it

👍5🔥5

2.11K views13:11

Мониторим ИТ

Zabbix Meetup уже завтра!

Уже завтра состоится наш совместный с Zabbix митап, где я также буду выступать. Приходите, чтобы узнать много интересного и просто поддержать🙏

🔥 На вебинаре выступит Алексей Владышев — СЕО Zabbix и расскажет о планируемых нововведениях в Zabbix 8.0.

Зарегистрируйтесь, чтобы не пропустить

Zabbix

Zabbix Meetup Kazakhstan - 3 December, 2025

🔥9⚡3👍3

2.03K views14:04

Мониторим ИТ

Я сделал Log Bull — простую open source альтернативу ELK, Loki и Graylog для сбора логов из кода (Python, Go, JS и т.д.)

За последние ~5 лет я много раз сталкивался с задачей собирать логи: обычно из маленьких или средних по размеру кодовой базы проектов. Отправлять логи из кода не проблема, у Java и Go для этого есть библиотеки практически из коробки. А вот разворачивать что-то для их сбора — головняк. Понятно, что решаемый (ещё до ChatGPT, а сейчас так тем более), но всё же.

Запуск ELK для меня каждый раз испытание: куча настроек, нетривиальный деплой, а при заходе в UI разбегаются глаза от вкладок. С Loki и Graylog — немного проще, но всё равно функций сильно больше, чем мне нужно. При этом разделять логи между проектами, добавлять других пользователей в систему так, чтобы они не видели лишнего — тоже не самый очевидный процесс.

Поэтому примерно год назад я решил, что сделаю свою систему для сбора логов для себя: максимально простую в использовании и запуске. Чтобы разворачивалась на сервере одной командой, вообще без настроек и без лишних вкладок в интерфейсе. Собственно, так появился и теперь вышел в open source Log Bull: система для сбора логов для разработчиков с проектами middle-sized размера.

Читать статью на Хабре

❓Вопрос к читателям канала! Есть ли смысл в 2к25 пилить свою собственную систему логирования или все же есть уже готовые достойные варианты?

@monitorim_it

🔥11👎9👍7🤔1

2.18K views06:31

Мониторим ИТ

10 лучших open source инструментов Observability 2025

В этом году инструменты observability с открытым исходным кодом вышли за рамки простого мониторинга. Теперь они конкурируют, а зачастую и превосходят коммерческие SaaS‑платформы по масштабируемости, гибкости и совместимости. Команды из разных отраслей внедряют стеки решений наблюдения с открытым исходным кодом, чтобы избежать привязки к одному поставщику, обеспечения сквозной прозрачности (логи, метрики, трассировки), экономии на лицензиях и много другого.

В этой статье мы рассмотрим 10 лучших инструментов наблюдения с открытым исходным кодом 2025 года, изучив их сильные стороны, недостатки и наилучшие варианты использования для современных DevOps‑ и SRE‑команд.

Читать статью на Хабре

@monitorim_it

👎10🔥7👍3

2.48K views13:16

Мониторим ИТ

How to pair Grafana Drilldown with Loki for faster logging insights

Никто не хочет тратить время на просмотр бесконечных строк логов, поэтому мы продолжаем развивать Grafana Logs Drilldown как инструмент, который поможет вам быстрее находить нужную информацию. С Logs Drilldown вы можете легко фильтровать логи, анализировать данные глубже, используя шаблоны, получать автоматические визуализации и находить связанные логи — и всё это без необходимости писать запросы.

В блоге Grafana рассказывают про подход Grafana Logs Drilldown. Вы узнаете как эффективно искать по логам, если используете Loki.

@monitorim_it

🔥7👍3

2.34K viewsedited 06:56

Мониторим ИТ

Мониторинг SSSD через D-Bus: создаем собственный Ansible-модуль вместо sssctl

Сегодня хочу поделиться опытом того, как я отказался от стандартного пакета sssd-tools для мониторинга службы SSSD в пользу прямого общения с демоном через D-Bus и создал свой первый Ansible-модуль.

D-Bus (сокращенно от «Desktop Bus») — это система межпроцессного взаимодействия (IPC), которая позволяет приложениям на одном компьютере общаться друг с другом, обмениваясь сообщениями. Она действует как «шина сообщений», через которую один процесс может отправлять запросы, сигналы и данные другим процессам.

Подробности в статье на Хабре →

@monitorim_it

🔥9👍1

2.38K viewsedited 13:45

Мониторим ИТ

Мониторим ESB и анализируем нагрузку через Nginx в Zabbix, когда «из коробки» не работает

Рассказываю, как наша команда реализовала мониторинг состояния шины и аналитику запросов к ней через обратный прокси. Пришлось повозиться, ведь Zabbix из коробки не очень успешно с этим взаимодействует.

В сложных интеграционных системах мониторинг является неотъемлемым инструментом как для инженера, так и для бизнеса. Zabbix показал себя надёжной и гибкой системой, которая позволяет строить понятные дашборды. Но я, как тимлид команды поддержки, столкнулся с тем, что шину Red Hat JBoss Fuse так просто к Zabbix не подключить. Шина работает на JVM, а значит, нужен мониторинг по JMX.

Подробности в статье на Хабре →

🔥7👍4❤1

2.35K views06:26

Мониторим ИТ

What's new in ClickStack. November '25

ClickStack — это открытый observability-инструмент к которому я последние месяц-полтора активно присматриваюсь. Здесь и хранилище и UI в одном решении. Ниже привел наиболее интересные нововведения.

🚀 Service Map

В последнем релизе ClickStack обзавелся важным атрибутом observability-системы — Картой сервисов (Service Map). Пока что в бете, но этот функционал точно со временем перейдет в GA.

🚀 Фильтрация корневых операций

Исторически ClickStack возвращал все соответствующие запросу операции в результатах поиска, будь то корневая или дочерняя операция. Это означает, что одна и та же операция может отображаться несколько раз, если запросу соответствуют несколько результатов запроса. Для пользователей, работающих с большими объемами трейсов, это часто усложняло просмотр и сортировку. В последней версии появилась возможность фильтровать результаты поиска только по корневым операциям.

🚀 Подсветка атрибутов трейсов

Появилась возможность отображения определённых атрибутов непосредственно в результатах поиска.

🚀 Поиск по трейсам

В последней версии возможности поиска расширены за счёт добавления полноценных возможностей поиска Lucene непосредственно в представлении каскада трассировок. Поскольку каскад содержит как операции так и логи, часто поступающие из разных источников, в ClickStack предоставлены отдельные поля поиска для каждого источника.

🚀 Сравнение графиков

Появилось сравнение периодов для графиков. С помощью этой функции пользователи могут построить график для выбранного временного диапазона, а затем включить переключатель, чтобы наложить предыдущий период.

Подробнее читайте в блоге ClickHouse

👍5🔥5

1.69K viewsedited 16:03

Мониторим ИТ

A Complete Guide to OpenTelemetry Logs and Data Model

Логи всегда играли ключевую роль в понимании поведения программного обеспечения. Они регистрируют события, ошибки и изменения состояния, раскрывая, что происходило внутри системы в определённый момент времени.

Но по мере перехода архитектур к микросервисам и распределённым системам работать со старой моделью разрозненных логов свободных форматов стало невозможно. Поскольку каждый сервис использует свой собственный формат логирования, устранение неполадок подобно чтению книги, каждая страница которой написана на разном языке.

OpenTelemetry был создан именно для решения проблемы фрагментации такого рода. Благодаря определению общей модели данных логов, а также нейтральных к языку программирования API и SDK, OTel предоставляет стандартный способ представления, обработки и экспорта журналов.

Цель состоит не в том, чтобы заменить существующие библиотеки журналирования, а в том, чтобы сделать их выходные данные совместимыми, последовательными и обогащенными той же контекстной информацией, которая используется для трассировок и метрик.

Эта унификация имеет важные последствия. После того, как логи будут представлены в модели OpenTelemetry, их можно будет обрабатывать в тех же конвейерах, что и метрики и трассировки, дополнять согласованными метаданными ресурсов и коррелировать с распределёнными трассировками. Вместо изолированных фрагментов текста логи становятся структурированными событиями, участвующими в полной истории наблюдения.

В этой статье подробно рассматривается подход OpenTelemetry к логированию, от модели данных и SDK до важнейшей роли мостов логов. Также показано, почему тесная корреляция между журналами и трассировками имеет решающее значение для отладки сложных взаимодействий сервисов.

🔥10👍2

1.64K views07:21

Мониторим ИТ

Мой легковесный помощник: как я создал монитор системы, который не тормозит

Работая за компьютером по 10-12 часов в день, я постоянно ловил себя на том, что проверяю диспетчер задач. То процессор грузится, то память подыхает, то диск трещит по швам. Стандартные инструменты Windows работают, но постоянно переключаться между окнами — то еще удовольствие.

Попробовал разные программы — одни слишком навороченные, другие жрут память как не в себя, третьи выглядят так, будто их делали в 2005 году. В какой-то момент мне это надоело, и я подумал: "А почему бы не сделать свой монитор? Простой, удобный и легкий".

Aether Monitor+ — это как раз та утилита, которой мне не хватало. Она висит поверх всех окон маленьким виджетом и показывает самое важное: загрузку процессора, использование памяти, свободное место на диске и температуру. Всё это в реальном времени, без лишних деталей.

Статья с описанием решения на Хабре

Репыч на Гитхаб

👎7🔥6👍1

1.67K views11:50

Мониторим ИТ

Выложили запись Zabbix Meetup

3 декабря мы провели совместно с Zabbix уже наш второй онлайн-митап. На митапе выступил Алексей Владышев, CEO и основатель Zabbix, и рассказал о том, что ждет пользователей в Zabbix 8.0.

Полную запись с таймкодами можно найти на ютуб-канале Gals Software. Буду вам благодарен за подписки на канал и лайки этому видео.

P.S. Ссылки на слайды презентаций с этого митапа есть под видео.

🔥10👍7

1.59K views07:20

Мониторим ИТ

What's new in the Grafana Image Renderer: higher-quality results, security enhancements, and more

Grafana Image Renderer, являясь серверной частью для Grafana OSS, Grafana Enterprise и Grafana Cloud, позволяет использовать Grafana для различных сценариев, связанных с генерацией и обменом изображениями из Grafana. К ним относятся:

🚀 Экспорт дашбордов в форматы PDF и PNG.

🚀 Включение изображений в уведомления об оповещениях

🚀 Обмен отрендеренными изображениями по прямым ссылкам.

🚀 Создание изображений для экспорта в PDF и запланированных отчетов (доступно в Grafana Cloud и Grafana Enterprise)

Долгое время можно было выбрать между установкой Image Renderer в качестве плагина для Grafana или развертыванием его как сервиса. Плагин был объявлен устаревшим в сентябре 2025 года, и теперь Image Renderer существует только как сервис, который можно развернуть отдельно вместе с Grafana; он не входит в стандартную комплектацию Grafana.

В этой статье из блога Grafana об улучшениях Image Renderer

@monitorim_it

🔥4👍3

1.48K views10:11

Мониторим ИТ

🚀 Разгоняем kube-prometheus-stack: секретный ингредиент Observability

🔥 16 декабря в 20:00 мск — бесплатный вебинар от OTUS.
Мониторинг — это сердце инфраструктуры. Но что делать, если именно он начинает проседать под нагрузкой? На вебинаре разберём, как выжать максимум из kube-prometheus-stack, ускорить работу Grafana, разгрузить Prometheus и сделать observability-инфру устойчивой даже во время инцидентов.

Что разберём:
– как повысить отзывчивость Grafana при больших объёмах данных;
– как настроить Prometheus для быстрой обработки метрик;
– как сократить сетевой трафик мониторинга без потери данных;
– архитектурные подходы, которые помогут не «уронить» мониторинг при пиковых нагрузках.

👉 Регистрируйтесь здесь: https://otus.pw/jzvM/?erid=2W5zFJVTfdJ

Занятие приурочено к старту курса «Observability: мониторинг, логирование, трейсинг», где вы научитесь проектировать отказоустойчивые observability-системы.

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

🔥3👍2👎1

1.51K views11:31

Мониторим ИТ

VictoriaLogs single server k8s setup gotchas

Полезные советы по деплою VictoriaLogs для приема логов от k8s.

Краткие рекомендации о деплое Helm-чарта VictoriaLogs для одного сервера в боевой среде:

🚀 Для сервера VictoriaLogs используйте выделенный узел (предпочтительно NVMe), чтобы избежать влияния соседних приложений.

🚀 Настройте параметры хранения и сохранения данных в соответствии с объемом ваших логов; VictoriaLogs хорошо сжимает данные, но хранение все равно требует затрат.

🚀 Если вы используете Vector в качестве сборщика логов, ограничьте обогащение метаданных, чтобы уменьшить количество записей и потребление ресурсов.

🚀 Включите дашборды и собирайте метрики Vector с помощью VMPodScrape для обеспечения оперативной прозрачности.

🚀 Запустите выделенный экземпляр VMAlert для VictoriaLogs и настройте правила с селекторами.

🚀 Следуйте рекомендациям LogsQL (уменьшите количество меток, избегайте ресурсоемких регулярных выражений, ограничьте временные диапазоны).

Детальное описание пунктов выше читайте в статье.

@monitorim_it

👍5🔥3

1.56K views13:07

Мониторим ИТ

hl

Высокопроизводительная утилита для просмотра и обработки логов, преобразующая логи в форматах JSON и logfmt в удобочитаемый вывод. Она обеспечивает быструю обработку и анализ больших файлов логов с минимальными накладными расходами.

Репыч на Гитхаб

@monitorim_it

🔥7👍5

1.46K views06:03

Мониторим ИТ

openobserve

А сколько жмет ~~от груди~~ ваша Observability-платформа? OpenObserve делает это в 140 раз лучше, чем ElasticSearch. А еще они пишут, что ваш CFO позже признается вам в любви❤️

OpenObserve простой (запускается из одного бинарника) и уже имеет UI на борту. Данные хранятся в формате parquet (это бинарный, неизменяемый, колоночно-ориентированный формат хранения данных).

Система выглядит интересно и заслуживает внимания. Пока что не совсем понятно на сколько она production-ready, но customer stories на сайте у них есть.

Репыч на Гитхаб

Описание архитектуры решения

❓ Если кто-то разворачивал, напишите в комментариях о ваших впечатлениях.

UPD: в комментарии пришел реальный пользователь. Интересный опыт.

👍8❤3🔥2

1.27K viewsedited 09:07

About

Blog

Apps

Platform