Мониторим ИТ
8.1K subscribers
215 photos
2 files
1.54K links
Канал о наблюдаемости (Monitoring & Observability): логи, трейсы, метрики.

Реклама: @gals_ad_bot
Вопросы: @antoniusfirst

@usr_bin_linux — Linux, Kubernetes, Docker, Terraform, etc.

@zabbix_ru — только Zabbix

@elasticstack_ru — ElasticSearch/OpenSearch
Download Telegram
Для линукс-админов. Петя Зайцев на конференции Fosdem 2020 рассказывает о важных аппаратных метриках производительности Linux, которые он настоятельно рекомендует собирать. Петя Зайцев — CEO в Percona.
Сегодня в 11 часов МСК Quest и Мерлион проведут совместный вебинар по системе мониторинга Spotlight. Spotlight — легковесная система мониторинга БД SQL Server и Oracle вместе с метриками соответствующих операционных систем. Прямо в интерфейсе при наведении на проблемную метрику Spotlight выдаёт рекомендации как эту проблему пофиксить. У Spotlight есть облачная версия и мобильное приложение.

Рега по ссылке в конце поста.
Если всё думаете как подступиться к Elastic Stack, то вот неплохая вводная статья. Здесь в основном про использования его в качестве движка для поиска, но раскрывается много архитектурных деталей.
Новый релиз плагина DevOpsProdigy KubeGraf для Grafana, который умеет визуализировать приложения в kubernetes.

⚡️интеграция с k8s-api для построения карты ваших приложений, сгруппированных по неймспейсам / нодам-кластера + привязка к конкретным pod’ам/сервисам;
⚡️сводная страница со всеми ошибками / предупреждениями о работе нод и приложений кластера;
⚡️возможность инсталляции плагина с облачными k8s-провайдерами через авторизацию с помощью bearer-tokena.
Мониторинг подключения новых устройств к сети при помощи snmptrapd и Zabbix запустится гораздо быстрее, если прочитать эту статью на Хабре. Автор рассказывает о настройке устройств Cisco, демона snmptrapd и zabbix-sender.
Презентация с Promcon 2019 о PromQL, Prometheus и Alertmanager. Julien Pivotto рассказывает о собственных подходах к описаниям алертинга в YAML-файлах.
Одна из основных функций языка PromQL — агрегирование данных временных рядов в режиме реального времени. Эндрю Ньюдигейт, инженер в команде по инфраструктуре GitLab, рассказывает как этот язык можно использовать для обнаружения аномалий во временных рядах. А здесь можно посмотреть слайды презентации.
Всем тем, кто использует у себя SCOM, но хочет красоты. Две статьи Антона Мосягина об интеграции SCOM с Grafana. С таблицами и SQL-запросами — всё по хардкору.

Такая интеграция может быть полезна когда пользуетесь чем-то вроде SCOM для мониторинга окружения Microsoft, Zabbix для окружения Linux и хотите видеть всю картину происходящего в одном месте. Zabbix уже долго и упорно дружит с Grafana (есть стандартная интеграция), а вот SCOM приходится заставлять дружить.

Часть 1: System Center Operations Manager и Grafana: рисуем графики

Часть 2: SCOM и Grafana: рисуем графики — часть 2: Drill Down, Data Warehouse и docker
Завтра, 15 апреля пройдёт второе онлайн мероприятие от сообщества Monhouse.tech.

Программа:

10:00 - Free Talk, круглый стол со спикерами «Коронавирус, новые тренды, новые компоненты технологического стека, прогнозы».
11:00 - Илья Аблеев, представитель Zabbix Russian Community.
11:40 - Кирилл Малеванов, технический директор, Selectel, «Мониторинг электронагрузки в серверных стойках».
12:20 - Экспертная сессия PRTG, Вячеслав Милованов, системный инженер.
13:00 - Экспертная сессия Grafana Labs, Александр Зобнин, разработчик.
13:40 - Завершение.

Регистрация по ссылке. Конференция также будет транслироваться на YouTube канале сообщества.
Мониторим ИТ pinned «Завтра, 15 апреля пройдёт второе онлайн мероприятие от сообщества Monhouse.tech. Программа: 10:00 - Free Talk, круглый стол со спикерами «Коронавирус, новые тренды, новые компоненты технологического стека, прогнозы». 11:00 - Илья Аблеев, представитель Zabbix…»
Псс, бесплатные обучающие вебинары от Elastic нужны? Для всех тех, кто понимает, что решение вроде бы может быть где-то полезно, но пока не поняли где. По ссылке 11 обучающих вебинаров по разным прикладным задачам, для которых может использоваться Elastic (речь обо всём их софте, который они в последнее время начали очень активно штамповать).
В мире сумасшедшее количество систем мониторинга. Постоянно появляются новые и все они чем-то да и отличаются. Но есть одна характеристика, которая свойственна любой системе мониторинга — место установки: облачная или локальная. Я сейчас про коммерческие системы. Извечный спор: какая лучше? Иногда (но не всегда) эти два подхода можно комбинировать и создать гибридного монстра. Однозначный совет или рекомендацию по выбору сложно дать. Могу поделиться одним наблюдением: если у вас есть локальная среда, это не значит, что нужно применять локальное решение для мониторинга. Очевидная вещь, правда, звучит странновато.

Серьёзное сомнение, которое может обуревать — а как же чувствительные данные, которые могут утечь к какой-то матери за пределы какого-то контура PCI DSS? Обычно, в облачной системе мониторинга предусмотрены такие сценарии, поэтому все чувствительные данные маскируются на уровне агента-сборщика и за пределы организации ни за что не попадут.

Все остальные сомнения касаются безопасности передачи и хранения данных мониторинга. Их можно рассеять рассказами о шифровании, многократном резервировании в датацентре с ядром такой системы и т.д. и т.п. У каждого такого облачного провайдера обычно есть специальная страница с такой информацией.


А теперь резко перейдём к преимуществам. Они, в целом, понятны, но всё же вот:

Стоимость. SaaS предлагает гораздо более низкую совокупную стоимость владения, за счёт времени, затрачиваемого на установку, обслуживание и модернизацию локальных решений для мониторинга.

Масштабирование. Локальные решения не всегда могут быстро и эффективно масштабироваться, чтобы справиться с чёрными пятницами и другими периодами пиковых нагрузок. Использование локальных решений означает избыточную мощность инфраструктуры в непиковые периоды и трату денег на это.

Быстрота разворачивания. SaaS разворачивается за часы или минуты в отличии от времени на настройку локального решения.

Обновления без даунтайма и изысканий. Когда у SaaS-решения появляется новый функционал, он тут становится доступным для использования. Локальные решения по мониторингу требуют тщательной подготовки к обновлению, времени на само обновление и дальнейший контроль в стиле «как бы чего не отвалилось».


Если будет нужен совет с выбором системы мониторинга — пишите в личку.
New Relic уже знает, что их объявили лидером квадранта Gartner по APM-решениям в 2020 году и 8 год подряд. Эту картинку они разместили вчера в своём фиде в линкедине. На сайте Gartner квадрант пока не опубликован, но, подозреваю, это будет сделано в ближайшую неделю.

Предлагаю вашему вниманию мой прошлогодний бриф на Хабре о квадранте APM за 2019 год. Среди лидеров 2019 года оказались Appdynamics, Dynatrace, New Relic и Broadcom (бывший CA). Последний почему-то не очень избалован вниманием на российском рынке.

А теперь вопрос: как изменится сектор с лидерами в этом году?

— ничего не изменится.
— добавится ещё один (или несколько) лидер.
— один из лидеров 2019 года перестанет быть лидером в 2020 году.
🤷‍♂️ — я пользуюсь другим коммерческим/бесплатным решением и мне до 🔦 эти ваши APM.
Чё там в линуксе за 60 секунд

Статья в техблоге Нетфликс о командах, которые дадут наиболее полное представление о состоянии линукс-сервера. Говорят, что выполняют их для диагностики непосредственно на сервере в результате получения алерта и утверждают, что весь список можно осмысленно пройти за 60 секунд. Попробуете?

Полный список 60-секундных команд:

uptime
dmesg | tail
vmstat 1
mpstat -P ALL 1
pidstat 1
iostat -xz 1
free -m
sar -n DEV 1
sar -n TCP,ETCP 1
top

👍 — успел за 60 секунд

👎 — не успел за 60 секунд

👀 — метрики в моём мониторинге мне и так всё скажут, заходить на сервер для диагностики смысла не вижу
Кир Шатров в своём блоге рассказывает о подходе к повышению информативности трейса запросов в MySQL с помощью добавления метаданных к запросу.

Было: SELECT * FROM users WHERE id=?

Станет: SELECT * FROM users WHERE id=? /* controller:users,action:show,method:find_user,api_client_id:42 */
Теперь (хоть и временно) бесплатно

Некоторые вендоры запустили специальные программы, которые позволяют пользоваться бесплатно их решениями длительное время. Если хотели попробовать и не хотелось размениваться на 14 дней, то вот сейчас самое время.

BigPanda — облачное AIOps решение для корреляции событий и автоматизации обработки инцидентов. Дают 90 дней полной версии (со всеми доступными интеграциями) по программе «IT Ops from home». Сюда же включена вендорская техническая поддержка нп этот период и бесплатный онлайн-тренинг. Регистрация в программе.

Appdynamics — инструмент для мониторинга производительности приложений (APM). В рамках программы «COVID-19 Assist Program» даёт пользоваться облачной версией своей платформы абсолютно бесплатно до 15 июля 2020 года. Кроме этого они предоставляют доступ к AppDynamics Premium University до 31 мая 2020 года. Неплохя возможность поближе узнать продукт. Работает только для новых пользователей. Регистрация в программе.

Dynatrace — инструмент для мониторинга производительности приложений (APM). Вендор включил «COVID-19 Continuity Support» и даёт свои продукты в бесплатное пользование до 19 мая 2020. Регистрация в программе.
К 2025 году 50% новых облачных приложений мониторинга будут использовать инструментарий с открытым исходным кодом вместо вендорских агентов, для повышения совместимости, по сравнению с 5% в 2019 году.

И, действительно, большинство вендоров коммерческих решений постепенно добавляют поддержку открытых решений. Опубликовал на Хабре краткое описание основных моментов в свежем отчёте Gartner 2020 года по APM-системам.
Выступление Goutham Veeramachaneni на PromCon EU 2019 в Мюнхене. Рассказывает о союзе Промитиуса и Егеря, который как бы случился на небесах (тема выступления Prometheus and Jaeger: A Match Made in Heaven!). Рассказывает о том как они проверяют влияние на приложение после выкатывания релиза, используя Jaeger и Prometheus, об использование метаданных для дальнейшей фильтрации трассировок и обо многом другом. По ссылке видео и слайды.