Для линукс-админов. Петя Зайцев на конференции Fosdem 2020 рассказывает о важных аппаратных метриках производительности Linux, которые он настоятельно рекомендует собирать. Петя Зайцев — CEO в Percona.
Сегодня в 11 часов МСК Quest и Мерлион проведут совместный вебинар по системе мониторинга Spotlight. Spotlight — легковесная система мониторинга БД SQL Server и Oracle вместе с метриками соответствующих операционных систем. Прямо в интерфейсе при наведении на проблемную метрику Spotlight выдаёт рекомендации как эту проблему пофиксить. У Spotlight есть облачная версия и мобильное приложение.
Рега по ссылке в конце поста.
Рега по ссылке в конце поста.
Если всё думаете как подступиться к Elastic Stack, то вот неплохая вводная статья. Здесь в основном про использования его в качестве движка для поиска, но раскрывается много архитектурных деталей.
Новый релиз плагина DevOpsProdigy KubeGraf для Grafana, который умеет визуализировать приложения в kubernetes.
⚡️интеграция с k8s-api для построения карты ваших приложений, сгруппированных по неймспейсам / нодам-кластера + привязка к конкретным pod’ам/сервисам;
⚡️сводная страница со всеми ошибками / предупреждениями о работе нод и приложений кластера;
⚡️возможность инсталляции плагина с облачными k8s-провайдерами через авторизацию с помощью bearer-tokena.
⚡️интеграция с k8s-api для построения карты ваших приложений, сгруппированных по неймспейсам / нодам-кластера + привязка к конкретным pod’ам/сервисам;
⚡️сводная страница со всеми ошибками / предупреждениями о работе нод и приложений кластера;
⚡️возможность инсталляции плагина с облачными k8s-провайдерами через авторизацию с помощью bearer-tokena.
Мониторинг подключения новых устройств к сети при помощи snmptrapd и Zabbix запустится гораздо быстрее, если прочитать эту статью на Хабре. Автор рассказывает о настройке устройств Cisco, демона snmptrapd и zabbix-sender.
Презентация с Promcon 2019 о PromQL, Prometheus и Alertmanager. Julien Pivotto рассказывает о собственных подходах к описаниям алертинга в YAML-файлах.
Одна из основных функций языка PromQL — агрегирование данных временных рядов в режиме реального времени. Эндрю Ньюдигейт, инженер в команде по инфраструктуре GitLab, рассказывает как этот язык можно использовать для обнаружения аномалий во временных рядах. А здесь можно посмотреть слайды презентации.
Всем тем, кто использует у себя SCOM, но хочет красоты. Две статьи Антона Мосягина об интеграции SCOM с Grafana. С таблицами и SQL-запросами — всё по хардкору.
Такая интеграция может быть полезна когда пользуетесь чем-то вроде SCOM для мониторинга окружения Microsoft, Zabbix для окружения Linux и хотите видеть всю картину происходящего в одном месте. Zabbix уже долго и упорно дружит с Grafana (есть стандартная интеграция), а вот SCOM приходится заставлять дружить.
Часть 1: System Center Operations Manager и Grafana: рисуем графики
Часть 2: SCOM и Grafana: рисуем графики — часть 2: Drill Down, Data Warehouse и docker
Такая интеграция может быть полезна когда пользуетесь чем-то вроде SCOM для мониторинга окружения Microsoft, Zabbix для окружения Linux и хотите видеть всю картину происходящего в одном месте. Zabbix уже долго и упорно дружит с Grafana (есть стандартная интеграция), а вот SCOM приходится заставлять дружить.
Часть 1: System Center Operations Manager и Grafana: рисуем графики
Часть 2: SCOM и Grafana: рисуем графики — часть 2: Drill Down, Data Warehouse и docker
Завтра, 15 апреля пройдёт второе онлайн мероприятие от сообщества Monhouse.tech.
Программа:
10:00 - Free Talk, круглый стол со спикерами «Коронавирус, новые тренды, новые компоненты технологического стека, прогнозы».
11:00 - Илья Аблеев, представитель Zabbix Russian Community.
11:40 - Кирилл Малеванов, технический директор, Selectel, «Мониторинг электронагрузки в серверных стойках».
12:20 - Экспертная сессия PRTG, Вячеслав Милованов, системный инженер.
13:00 - Экспертная сессия Grafana Labs, Александр Зобнин, разработчик.
13:40 - Завершение.
Регистрация по ссылке. Конференция также будет транслироваться на YouTube канале сообщества.
Программа:
10:00 - Free Talk, круглый стол со спикерами «Коронавирус, новые тренды, новые компоненты технологического стека, прогнозы».
11:00 - Илья Аблеев, представитель Zabbix Russian Community.
11:40 - Кирилл Малеванов, технический директор, Selectel, «Мониторинг электронагрузки в серверных стойках».
12:20 - Экспертная сессия PRTG, Вячеслав Милованов, системный инженер.
13:00 - Экспертная сессия Grafana Labs, Александр Зобнин, разработчик.
13:40 - Завершение.
Регистрация по ссылке. Конференция также будет транслироваться на YouTube канале сообщества.
eventuer.timepad.ru
Online Monitoring Day / События на TimePad.ru
Online Monitoring Day — online мероприятие, объединяющее людей из разных компаний, работающих на разных позициях, имеющих разный опыт работы, придерживающихся разных взглядов и мнений, но жаждущих новых знаний в сфере мониторинга ИКТ инфраструктуры.
Мониторим ИТ pinned «Завтра, 15 апреля пройдёт второе онлайн мероприятие от сообщества Monhouse.tech. Программа: 10:00 - Free Talk, круглый стол со спикерами «Коронавирус, новые тренды, новые компоненты технологического стека, прогнозы». 11:00 - Илья Аблеев, представитель Zabbix…»
Псс, бесплатные обучающие вебинары от Elastic нужны? Для всех тех, кто понимает, что решение вроде бы может быть где-то полезно, но пока не поняли где. По ссылке 11 обучающих вебинаров по разным прикладным задачам, для которых может использоваться Elastic (речь обо всём их софте, который они в последнее время начали очень активно штамповать).
www.elastic.co
Quickly Get Started with Elastic
The Elastic Platform is the only platform that enables you to search, observe, protect and secure your environment, end-to-end in real time....
В мире сумасшедшее количество систем мониторинга. Постоянно появляются новые и все они чем-то да и отличаются. Но есть одна характеристика, которая свойственна любой системе мониторинга — место установки: облачная или локальная. Я сейчас про коммерческие системы. Извечный спор: какая лучше? Иногда (но не всегда) эти два подхода можно комбинировать и создать гибридного монстра. Однозначный совет или рекомендацию по выбору сложно дать. Могу поделиться одним наблюдением: если у вас есть локальная среда, это не значит, что нужно применять локальное решение для мониторинга. Очевидная вещь, правда, звучит странновато.
Серьёзное сомнение, которое может обуревать — а как же чувствительные данные, которые могут утечь к какой-то матери за пределы какого-то контура PCI DSS? Обычно, в облачной системе мониторинга предусмотрены такие сценарии, поэтому все чувствительные данные маскируются на уровне агента-сборщика и за пределы организации ни за что не попадут.
Все остальные сомнения касаются безопасности передачи и хранения данных мониторинга. Их можно рассеять рассказами о шифровании, многократном резервировании в датацентре с ядром такой системы и т.д. и т.п. У каждого такого облачного провайдера обычно есть специальная страница с такой информацией.
А теперь резко перейдём к преимуществам. Они, в целом, понятны, но всё же вот:
Стоимость. SaaS предлагает гораздо более низкую совокупную стоимость владения, за счёт времени, затрачиваемого на установку, обслуживание и модернизацию локальных решений для мониторинга.
Масштабирование. Локальные решения не всегда могут быстро и эффективно масштабироваться, чтобы справиться с чёрными пятницами и другими периодами пиковых нагрузок. Использование локальных решений означает избыточную мощность инфраструктуры в непиковые периоды и трату денег на это.
Быстрота разворачивания. SaaS разворачивается за часы или минуты в отличии от времени на настройку локального решения.
Обновления без даунтайма и изысканий. Когда у SaaS-решения появляется новый функционал, он тут становится доступным для использования. Локальные решения по мониторингу требуют тщательной подготовки к обновлению, времени на само обновление и дальнейший контроль в стиле «как бы чего не отвалилось».
Если будет нужен совет с выбором системы мониторинга — пишите в личку.
Серьёзное сомнение, которое может обуревать — а как же чувствительные данные, которые могут утечь к какой-то матери за пределы какого-то контура PCI DSS? Обычно, в облачной системе мониторинга предусмотрены такие сценарии, поэтому все чувствительные данные маскируются на уровне агента-сборщика и за пределы организации ни за что не попадут.
Все остальные сомнения касаются безопасности передачи и хранения данных мониторинга. Их можно рассеять рассказами о шифровании, многократном резервировании в датацентре с ядром такой системы и т.д. и т.п. У каждого такого облачного провайдера обычно есть специальная страница с такой информацией.
А теперь резко перейдём к преимуществам. Они, в целом, понятны, но всё же вот:
Стоимость. SaaS предлагает гораздо более низкую совокупную стоимость владения, за счёт времени, затрачиваемого на установку, обслуживание и модернизацию локальных решений для мониторинга.
Масштабирование. Локальные решения не всегда могут быстро и эффективно масштабироваться, чтобы справиться с чёрными пятницами и другими периодами пиковых нагрузок. Использование локальных решений означает избыточную мощность инфраструктуры в непиковые периоды и трату денег на это.
Быстрота разворачивания. SaaS разворачивается за часы или минуты в отличии от времени на настройку локального решения.
Обновления без даунтайма и изысканий. Когда у SaaS-решения появляется новый функционал, он тут становится доступным для использования. Локальные решения по мониторингу требуют тщательной подготовки к обновлению, времени на само обновление и дальнейший контроль в стиле «как бы чего не отвалилось».
Если будет нужен совет с выбором системы мониторинга — пишите в личку.
New Relic уже знает, что их объявили лидером квадранта Gartner по APM-решениям в 2020 году и 8 год подряд. Эту картинку они разместили вчера в своём фиде в линкедине. На сайте Gartner квадрант пока не опубликован, но, подозреваю, это будет сделано в ближайшую неделю.
Предлагаю вашему вниманию мой прошлогодний бриф на Хабре о квадранте APM за 2019 год. Среди лидеров 2019 года оказались Appdynamics, Dynatrace, New Relic и Broadcom (бывший CA). Последний почему-то не очень избалован вниманием на российском рынке.
А теперь вопрос: как изменится сектор с лидерами в этом году?
♾ — ничего не изменится.
➕ — добавится ещё один (или несколько) лидер.
➖ — один из лидеров 2019 года перестанет быть лидером в 2020 году.
🤷♂️ — я пользуюсь другим коммерческим/бесплатным решением и мне до 🔦 эти ваши APM.
Предлагаю вашему вниманию мой прошлогодний бриф на Хабре о квадранте APM за 2019 год. Среди лидеров 2019 года оказались Appdynamics, Dynatrace, New Relic и Broadcom (бывший CA). Последний почему-то не очень избалован вниманием на российском рынке.
А теперь вопрос: как изменится сектор с лидерами в этом году?
♾ — ничего не изменится.
➕ — добавится ещё один (или несколько) лидер.
➖ — один из лидеров 2019 года перестанет быть лидером в 2020 году.
🤷♂️ — я пользуюсь другим коммерческим/бесплатным решением и мне до 🔦 эти ваши APM.
Чё там в линуксе за 60 секунд
Статья в техблоге Нетфликс о командах, которые дадут наиболее полное представление о состоянии линукс-сервера. Говорят, что выполняют их для диагностики непосредственно на сервере в результате получения алерта и утверждают, что весь список можно осмысленно пройти за 60 секунд. Попробуете?
Полный список 60-секундных команд:
uptime
dmesg | tail
vmstat 1
mpstat -P ALL 1
pidstat 1
iostat -xz 1
free -m
sar -n DEV 1
sar -n TCP,ETCP 1
top
👍 — успел за 60 секунд
👎 — не успел за 60 секунд
👀 — метрики в моём мониторинге мне и так всё скажут, заходить на сервер для диагностики смысла не вижу
Статья в техблоге Нетфликс о командах, которые дадут наиболее полное представление о состоянии линукс-сервера. Говорят, что выполняют их для диагностики непосредственно на сервере в результате получения алерта и утверждают, что весь список можно осмысленно пройти за 60 секунд. Попробуете?
Полный список 60-секундных команд:
uptime
dmesg | tail
vmstat 1
mpstat -P ALL 1
pidstat 1
iostat -xz 1
free -m
sar -n DEV 1
sar -n TCP,ETCP 1
top
👍 — успел за 60 секунд
👎 — не успел за 60 секунд
👀 — метрики в моём мониторинге мне и так всё скажут, заходить на сервер для диагностики смысла не вижу
Medium
Linux Performance Analysis in 60,000 Milliseconds
You log in to a Linux server with a performance issue: what do you check in the first minute?
Кир Шатров в своём блоге рассказывает о подходе к повышению информативности трейса запросов в MySQL с помощью добавления метаданных к запросу.
Было: SELECT * FROM users WHERE id=?
Станет: SELECT * FROM users WHERE id=? /* controller:users,action:show,method:find_user,api_client_id:42 */
Было: SELECT * FROM users WHERE id=?
Станет: SELECT * FROM users WHERE id=? /* controller:users,action:show,method:find_user,api_client_id:42 */
Kir Shatrov
Scaling MySQL stack, ep. 3: Observability
I’ve spent a good part of last year collaborating with different people at work on the theme of scaling our MySQL stack to the next level. For background, like many other companies founded in the mid-2000s (Facebook, YouTube, GitHub, Basecamp), Shopify is…
Теперь (хоть и временно) бесплатно
Некоторые вендоры запустили специальные программы, которые позволяют пользоваться бесплатно их решениями длительное время. Если хотели попробовать и не хотелось размениваться на 14 дней, то вот сейчас самое время.
BigPanda — облачное AIOps решение для корреляции событий и автоматизации обработки инцидентов. Дают 90 дней полной версии (со всеми доступными интеграциями) по программе «IT Ops from home». Сюда же включена вендорская техническая поддержка нп этот период и бесплатный онлайн-тренинг. Регистрация в программе.
Appdynamics — инструмент для мониторинга производительности приложений (APM). В рамках программы «COVID-19 Assist Program» даёт пользоваться облачной версией своей платформы абсолютно бесплатно до 15 июля 2020 года. Кроме этого они предоставляют доступ к AppDynamics Premium University до 31 мая 2020 года. Неплохя возможность поближе узнать продукт. Работает только для новых пользователей. Регистрация в программе.
Dynatrace — инструмент для мониторинга производительности приложений (APM). Вендор включил «COVID-19 Continuity Support» и даёт свои продукты в бесплатное пользование до 19 мая 2020. Регистрация в программе.
Некоторые вендоры запустили специальные программы, которые позволяют пользоваться бесплатно их решениями длительное время. Если хотели попробовать и не хотелось размениваться на 14 дней, то вот сейчас самое время.
BigPanda — облачное AIOps решение для корреляции событий и автоматизации обработки инцидентов. Дают 90 дней полной версии (со всеми доступными интеграциями) по программе «IT Ops from home». Сюда же включена вендорская техническая поддержка нп этот период и бесплатный онлайн-тренинг. Регистрация в программе.
Appdynamics — инструмент для мониторинга производительности приложений (APM). В рамках программы «COVID-19 Assist Program» даёт пользоваться облачной версией своей платформы абсолютно бесплатно до 15 июля 2020 года. Кроме этого они предоставляют доступ к AppDynamics Premium University до 31 мая 2020 года. Неплохя возможность поближе узнать продукт. Работает только для новых пользователей. Регистрация в программе.
Dynatrace — инструмент для мониторинга производительности приложений (APM). Вендор включил «COVID-19 Continuity Support» и даёт свои продукты в бесплатное пользование до 19 мая 2020. Регистрация в программе.
9 платных, условно-бесплатных и бесплатных программ для трекинга кода приложений. Публиковал эту статью почти 2 года назад, а список по-прежнему актуален.
Хабр
9 платных, условно-бесплатных и бесплатных программ для трекинга кода приложений
Трекинг кода must-have в среде разработки. Но вот насколько нужен этот же инструмент в продуктиве? Тот, кто лишь кропотливо собирает логи скажет «ну его нафиг, мой ELK меня не подводит» и будет...
❤1
Статья с готовым рецептом приготовления мониторинга MySQL в Grafana
Мониторинг производительности MySQL для Grafana на изичах за 20 минут.
Мониторинг производительности MySQL для Grafana на изичах за 20 минут.
О том, как организовать оперативный мониторинг ошибок и событий появляющихся в журнале PostgreSQL используя Prometheus и экспортер метрик grok_exporter.
Мониторинг ошибок и событий в журнале PostgreSQL (grok_exporter).
Мониторинг ошибок и событий в журнале PostgreSQL (grok_exporter).
Хабр
Мониторинг ошибок и событий в журнале PostgreSQL (grok_exporter)
Доброго дня, коллеги и хаброчитатели! Сегодня, хотел бы поделиться с Вами небольшой заметкой о том, как можно организовать оперативный мониторинг ошибок и событи...
К 2025 году 50% новых облачных приложений мониторинга будут использовать инструментарий с открытым исходным кодом вместо вендорских агентов, для повышения совместимости, по сравнению с 5% в 2019 году.
И, действительно, большинство вендоров коммерческих решений постепенно добавляют поддержку открытых решений. Опубликовал на Хабре краткое описание основных моментов в свежем отчёте Gartner 2020 года по APM-системам.
И, действительно, большинство вендоров коммерческих решений постепенно добавляют поддержку открытых решений. Опубликовал на Хабре краткое описание основных моментов в свежем отчёте Gartner 2020 года по APM-системам.
Хабр
Квадрант Gartner 2020 года по решениям для мониторинга приложений (APM)
Несколько дней назад Gartner опубликовал новый отчёт по APM-системам (Application Performance Management). У себя в телеграм-канале я задавал вопрос подписчикам об их прогнозах по лидерам этого...
Выступление Goutham Veeramachaneni на PromCon EU 2019 в Мюнхене. Рассказывает о союзе Промитиуса и Егеря, который как бы случился на небесах (тема выступления Prometheus and Jaeger: A Match Made in Heaven!). Рассказывает о том как они проверяют влияние на приложение после выкатывания релиза, используя Jaeger и Prometheus, об использование метаданных для дальнейшей фильтрации трассировок и обо многом другом. По ссылке видео и слайды.