Scaling Observability: Why TiDB Moved from Prometheus to VictoriaMetrics
С самого начала Prometheus служил основным инструментом для сбора, хранения, выполнения запросов и наблюдения за метриками производительности в режиме реального времени в компании TiDB. По мере масштабирования развёртываний росли и сложности использования Prometheus. В этой статье рассмотрены эти трудности и причины, по которым TiDB в конечном итоге перешли на VictoriaMetrics — высокопроизводительную базу данных временных рядов и решение для мониторинга с открытым исходным кодом. Читать дальше.
С самого начала Prometheus служил основным инструментом для сбора, хранения, выполнения запросов и наблюдения за метриками производительности в режиме реального времени в компании TiDB. По мере масштабирования развёртываний росли и сложности использования Prometheus. В этой статье рассмотрены эти трудности и причины, по которым TiDB в конечном итоге перешли на VictoriaMetrics — высокопроизводительную базу данных временных рядов и решение для мониторинга с открытым исходным кодом. Читать дальше.
❤6👎2🔥2👍1
Проблемы с производительностью веб-сервисов: как находить и устранять
Производительность — это базовое требование в разработке. Однако не всегда о базово высокой производительности говорят на этапе обсуждения проекта. Заказчик вряд ли скажет: «Сделайте так, чтобы сайт отвечал за Х мс», но он точно удивится и расстроится, если все будет грузиться медленно. В команде тоже мало кто рад: проект сдан, а теперь приходится выяснять, что тормозит и почему.
Эта статья — для тех, кто хочет понять, где обычно прячутся проблемы с производительностью, как их не пропустить и устранить.
Производительность — это базовое требование в разработке. Однако не всегда о базово высокой производительности говорят на этапе обсуждения проекта. Заказчик вряд ли скажет: «Сделайте так, чтобы сайт отвечал за Х мс», но он точно удивится и расстроится, если все будет грузиться медленно. В команде тоже мало кто рад: проект сдан, а теперь приходится выяснять, что тормозит и почему.
Эта статья — для тех, кто хочет понять, где обычно прячутся проблемы с производительностью, как их не пропустить и устранить.
👍5👎3❤2
Использование метрик для мониторинга облачных баз данных на примере PostgreSQL
Если вы работаете с базами данных, то вам определенно стоит иметь понимание о производительности кластера СУБД. Для этого можно использовать базовые метрики. А можно — метрики от DBaaS в сочетании с Grafana. Они позволяют строить кастомные графики, которые могут быть полезны в той или иной ситуации.
В этой статье DevOps-инженер Selectel Рамиль Адильбеков показывает, как можно настроить базовый стек Prometheus/Grafana, подключить метрики от кластера облачных баз данных и загрузить дашборд.
Если вы работаете с базами данных, то вам определенно стоит иметь понимание о производительности кластера СУБД. Для этого можно использовать базовые метрики. А можно — метрики от DBaaS в сочетании с Grafana. Они позволяют строить кастомные графики, которые могут быть полезны в той или иной ситуации.
В этой статье DevOps-инженер Selectel Рамиль Адильбеков показывает, как можно настроить базовый стек Prometheus/Grafana, подключить метрики от кластера облачных баз данных и загрузить дашборд.
❤4👍1👎1🔥1
Three Mighty Alerts Supporting Hugging Face’s Production Infrastructure
В этой статье техническая команда компании Hugging Face по инфраструктуре делится закулисным взглядом на внутреннюю работу боевой инфраструктуры Hugging Face. В этой статье подробно рассматривают три важных оповещения, которые играют уникальную роль в поддержке инфраструктуры, и выясняют, как они помогли поддерживать высокий уровень производительности и бесперебойной работы.
В этой статье техническая команда компании Hugging Face по инфраструктуре делится закулисным взглядом на внутреннюю работу боевой инфраструктуры Hugging Face. В этой статье подробно рассматривают три важных оповещения, которые играют уникальную роль в поддержке инфраструктуры, и выясняют, как они помогли поддерживать высокий уровень производительности и бесперебойной работы.
❤1
Setting Up OpenTelemetry on the Frontend Because I Hate Myself
Представьте себе: у вас прекрасный день, вы приготовили вкусный ужин, прогулялись по окрестностям и чувствуете себя превосходно. Ну, так просто не получится. Прекрасно? У автора этой статьи есть идеальное решение — настройка OpenTelemetry в фронтенд-проекте на ReactJS. Это идеальное решение, когда вы в хорошем настроении и нужно вернуть себе хмурое выражение лица в понедельник утром. В статье разбираются тонкости настройки OpenTelemetry.
Представьте себе: у вас прекрасный день, вы приготовили вкусный ужин, прогулялись по окрестностям и чувствуете себя превосходно. Ну, так просто не получится. Прекрасно? У автора этой статьи есть идеальное решение — настройка OpenTelemetry в фронтенд-проекте на ReactJS. Это идеальное решение, когда вы в хорошем настроении и нужно вернуть себе хмурое выражение лица в понедельник утром. В статье разбираются тонкости настройки OpenTelemetry.
👍4🔥2
Как мы сократили потребление памяти мониторингом на 75%, мигрируя с Prometheus на VictoriaMetrics Agent в OKD-кластерах
В этой статье автор рассказывает про то, как устроен мониторинг в OKD-кластерах, какие у него есть минусы и как они их побороли, мигрируя основную функциональность на VictoriaMetrics Agent.
В этой статье автор рассказывает про то, как устроен мониторинг в OKD-кластерах, какие у него есть минусы и как они их побороли, мигрируя основную функциональность на VictoriaMetrics Agent.
👍7👎1🔥1
Как Dropbox восстановил свой стек журналов с помощью Grafana Loki после отключения центра обработки данных
Два года назад из-за отключения электроэнергии центр обработки данных Dropbox был выведен из строя.
Это был не просто центр обработки данных. Это был единственный центр, где Dropbox размещал Grafana Loki , а это означало, что инженеры не могли получить доступ к данным журналов.
«Мы учитывали возможность сбоя в работе центра обработки данных, когда развёртывали Loki, но приоритет этой задачи так и не был достаточно высоким, чтобы внедрить её в несколько центров обработки данных», — сказал Крис Ходжес, инженер по инфраструктурному программному обеспечению в компании, занимающейся облачным хранением данных. «И теперь нам пришлось за это расплачиваться».
Этот инцидент стал переломным моментом для Dropbox, которая превратила единый распределённый кластер Loki в надёжную платформу логирования петабайтного масштаба, одновременно совмещая потребности разработчиков и операционные реалии. В результате Dropbox теперь может обрабатывать до 6 ГБ логов в секунду, имея в хранилище до 5 ПБ данных в любой момент времени в рамках своей расширенной 30-дневной политики хранения. Читать дальше в блоге Grafana.
Два года назад из-за отключения электроэнергии центр обработки данных Dropbox был выведен из строя.
Это был не просто центр обработки данных. Это был единственный центр, где Dropbox размещал Grafana Loki , а это означало, что инженеры не могли получить доступ к данным журналов.
«Мы учитывали возможность сбоя в работе центра обработки данных, когда развёртывали Loki, но приоритет этой задачи так и не был достаточно высоким, чтобы внедрить её в несколько центров обработки данных», — сказал Крис Ходжес, инженер по инфраструктурному программному обеспечению в компании, занимающейся облачным хранением данных. «И теперь нам пришлось за это расплачиваться».
Этот инцидент стал переломным моментом для Dropbox, которая превратила единый распределённый кластер Loki в надёжную платформу логирования петабайтного масштаба, одновременно совмещая потребности разработчиков и операционные реалии. В результате Dropbox теперь может обрабатывать до 6 ГБ логов в секунду, имея в хранилище до 5 ПБ данных в любой момент времени в рамках своей расширенной 30-дневной политики хранения. Читать дальше в блоге Grafana.
👍4❤2🔥1
Кто бы мог подумать несколько лет назад, что Grafana когда-то попадет в квадрант Гартнер по Observability-платформам.
Кстати, кто искал Appdynamics, они теперь выступают от лица Splunk.
Прочитать отчет полностью
Кстати, кто искал Appdynamics, они теперь выступают от лица Splunk.
Прочитать отчет полностью
👍4🔥2
15 лучших библиотек для визуализации данных, о которых должен знать каждый разработчик
Когда одной Grafana уже недостаточно. Читать перевод статьи на Хабре
Когда одной Grafana уже недостаточно. Читать перевод статьи на Хабре
🔥4👍1
Опыт эксплуатации Service Mesh в Авито
В этой статье рассказывают про Service Mesh, и показывают, что это, скорее, не конечная точка, где можно найти «серебряную пулю» от всех проблем, а путь, который, возможно, никогда не закончится: придется постоянно куда-то бежать и что-то дорабатывать. В статье также разбирается, как работает Service Mesh в Авито. Читать дальше.
В этой статье рассказывают про Service Mesh, и показывают, что это, скорее, не конечная точка, где можно найти «серебряную пулю» от всех проблем, а путь, который, возможно, никогда не закончится: придется постоянно куда-то бежать и что-то дорабатывать. В статье также разбирается, как работает Service Mesh в Авито. Читать дальше.
👍2
Почему мониторинг — это ещё не всё. История появления статус пейджей в Statuser
В этой статье автор рассказывает о собственной разработке Statuser — платформе для мониторинга доступности сайтов, приложений и серверов, о том как появилась функциональность, которая была в планах с самого начала — публичные страницы статуса. Читать дальше.
В этой статье автор рассказывает о собственной разработке Statuser — платформе для мониторинга доступности сайтов, приложений и серверов, о том как появилась функциональность, которая была в планах с самого начала — публичные страницы статуса. Читать дальше.
👍10🔥1
Production Kubernetes Logging-VictoriaLogs
В этой статье разбирают сбор логов Kubernetes (EKS) в VictoriaLogs.
❗️статья на medium.com
В этой статье разбирают сбор логов Kubernetes (EKS) в VictoriaLogs.
❗️статья на medium.com
👍4🔥4
Why I recommend native Prometheus instrumentation over OpenTelemetry
Учитывая хайп вокруг OpenTelemetry, у желающих замониторить свои приложения может возникнуть соблазн использовать OpenTelemetry и его SDK для всех задач инструментирования. Однако, когда дело доходит до генерации метрик в Prometheus, стоит дважды подумать, прежде чем полностью довериться OTel. Вы рискуете не только отказаться от некоторых основных функций, которые делают Prometheus системой мониторинга, но и столкнуться с неудобными проблемами преобразования метрик и обхода их, а также с другими недостатками и сложностями. Именно поэтому автор этой статьи рекомендует использовать собственные клиентские библиотеки инструментирования Prometheus вместо SDK OTel, если нужно получить наилучший опыт мониторинга Prometheus. В этой статье рассмотрены причины такого подхода.
Учитывая хайп вокруг OpenTelemetry, у желающих замониторить свои приложения может возникнуть соблазн использовать OpenTelemetry и его SDK для всех задач инструментирования. Однако, когда дело доходит до генерации метрик в Prometheus, стоит дважды подумать, прежде чем полностью довериться OTel. Вы рискуете не только отказаться от некоторых основных функций, которые делают Prometheus системой мониторинга, но и столкнуться с неудобными проблемами преобразования метрик и обхода их, а также с другими недостатками и сложностями. Именно поэтому автор этой статьи рекомендует использовать собственные клиентские библиотеки инструментирования Prometheus вместо SDK OTel, если нужно получить наилучший опыт мониторинга Prometheus. В этой статье рассмотрены причины такого подхода.
🔥3👍2❤1
Как развернуть простой Kubernetes-кластер с VictoriaMetrics? Пособие для начинающих
Развертывание Kubernetes-кластера и системы мониторинга часто воспринимается как сложная задача, которая требует глубоких знаний и значительных временных затрат. Однако современные инструменты автоматизации позволяют существенно упростить этот процесс, поэтому разобраться смогут и начинающие специалисты.
В этой статье мы подробно рассмотрено, как с помощью Kubespray быстро и эффективно развернуть работоспособный Kubernetes-кластер, а также интегрировать с ним систему мониторинга VictoriaMetrics. Этот подход особенно полезен, когда необходимо оперативно создать тестовое окружение или подготовить базовую инфраструктуру для дальнейшего развития. Читать дальше.
Развертывание Kubernetes-кластера и системы мониторинга часто воспринимается как сложная задача, которая требует глубоких знаний и значительных временных затрат. Однако современные инструменты автоматизации позволяют существенно упростить этот процесс, поэтому разобраться смогут и начинающие специалисты.
В этой статье мы подробно рассмотрено, как с помощью Kubespray быстро и эффективно развернуть работоспособный Kubernetes-кластер, а также интегрировать с ним систему мониторинга VictoriaMetrics. Этот подход особенно полезен, когда необходимо оперативно создать тестовое окружение или подготовить базовую инфраструктуру для дальнейшего развития. Читать дальше.
👎6👍3🔥1
How to use SQL to learn more about your Grafana usage
Grafana использует базу данных для хранения всех своих объектов: пользователи, дашборды и даже источники данных. Каждый раз, когда пользователь создаёт дашборд, в базе данных создаётся новая строка. Эта база данных поддерживает всё в Grafana, что делает её настоящим кладезем информации.
В статье рассказано как использовать этот источник информации для получении данных об использовании Grafana.
Grafana использует базу данных для хранения всех своих объектов: пользователи, дашборды и даже источники данных. Каждый раз, когда пользователь создаёт дашборд, в базе данных создаётся новая строка. Эта база данных поддерживает всё в Grafana, что делает её настоящим кладезем информации.
В статье рассказано как использовать этот источник информации для получении данных об использовании Grafana.
👍5🔥3
VictoriaLogs Practical Ingestion Guide for Message, Time and Streams
Эта статья в блоге VM поможет быстро разобраться в основных концепциях VictoriaLogs. В ней рассматриваются важные сведения из документации, а также распространённые случаи, выявленные в ходе устранения неполадок в реальных ситуациях.
Эта статья в блоге VM поможет быстро разобраться в основных концепциях VictoriaLogs. В ней рассматриваются важные сведения из документации, а также распространённые случаи, выявленные в ходе устранения неполадок в реальных ситуациях.
🔥3👍2👎1
19 августа состоится первый в истории онлайн-митап Zabbix в Казахстане!
Поговорим про планы Zabbix на будущее, траблшутинг проблем, мониторинг сервисов и об опыте построения SLA в банке.
Регистрация
Поговорим про планы Zabbix на будущее, траблшутинг проблем, мониторинг сервисов и об опыте построения SLA в банке.
Регистрация
🔥9👍4👎2🤔2
coroot
Инструмент наблюдаемости с открытым исходным кодом. Coroot превращает метрики, логи и трассировки в аналитические данные и строит карту сервисов.
Возможности
🚀 Наблюдаемость zero-instrumentation
🚀 Метрики, журналы и трассировки собираются автоматически с помощью eBPF
🚀 Coroot предоставляет вам карту сервисов, которая охватывает 100% приложения
🚀 Предустановленные проверки выполняют сбор данных по каждому приложению без какой-либо настройки
Репыч на Гитхабе
Лайв-демо
Сравнение версий (коммьюнити бесплатна навсегда)
Инструмент наблюдаемости с открытым исходным кодом. Coroot превращает метрики, логи и трассировки в аналитические данные и строит карту сервисов.
Возможности
🚀 Наблюдаемость zero-instrumentation
🚀 Метрики, журналы и трассировки собираются автоматически с помощью eBPF
🚀 Coroot предоставляет вам карту сервисов, которая охватывает 100% приложения
🚀 Предустановленные проверки выполняют сбор данных по каждому приложению без какой-либо настройки
Репыч на Гитхабе
Лайв-демо
Сравнение версий (коммьюнити бесплатна навсегда)
🔥9❤4👍3👎1
Kubernetes Monitoring — полное руководство
Это цикл из 10 статей, который объясняет принципы мониторинга кубера по всем канонам наблюдаемости.
Part 1: Architecture
Part 2: Instrumentation, Telemetry, Dashboarding, and Alerting
Part 3: Metrics using the victoria-metrics-k8s-stack
Part 4: Automatically extracting etcd certificates into a secret in Talos with VictoriaMetrics
Part 5: VictoriaMetrics Operator
Part 6: Visualizing with Grafana
Part 7: Alerting
Part 8: Logging with VictoriaLogs
Part 9: Talos Linux System Logs with VictoriaLogs and Vector
Part 10: Kubernetes Event Logging to VictoriaLogs
Сохраняйте в закладки!
❗️Цикл статей опубликован на платформе medium.com
@monitorim_it
Это цикл из 10 статей, который объясняет принципы мониторинга кубера по всем канонам наблюдаемости.
Part 1: Architecture
Part 2: Instrumentation, Telemetry, Dashboarding, and Alerting
Part 3: Metrics using the victoria-metrics-k8s-stack
Part 4: Automatically extracting etcd certificates into a secret in Talos with VictoriaMetrics
Part 5: VictoriaMetrics Operator
Part 6: Visualizing with Grafana
Part 7: Alerting
Part 8: Logging with VictoriaLogs
Part 9: Talos Linux System Logs with VictoriaLogs and Vector
Part 10: Kubernetes Event Logging to VictoriaLogs
Сохраняйте в закладки!
❗️Цикл статей опубликован на платформе medium.com
@monitorim_it
🔥13👍6❤3
Observability at Scale with ClickStack
Приходите 27 августа на вебинар-воркшоп по ClickStack. На этом практическом занятии вы развернуте полноценный стек решений для наблюдения с использованием ClickHouse, OpenTelemetry и HyperDX, будете собирать и сопоставлять журналы, метрики и данные приложений, а также изучать эффективные методы запросов с использованием синтаксиса SQL и Lucene в пользовательском интерфейсе.
Приходите 27 августа на вебинар-воркшоп по ClickStack. На этом практическом занятии вы развернуте полноценный стек решений для наблюдения с использованием ClickHouse, OpenTelemetry и HyperDX, будете собирать и сопоставлять журналы, метрики и данные приложений, а также изучать эффективные методы запросов с использованием синтаксиса SQL и Lucene в пользовательском интерфейсе.
ClickHouse
Observability at Scale with ClickStack
In this 2-hour, instructor-led workshop, you will deploy a complete observability stack using ClickHouse, OpenTelemetry, and HyperDX. You’ll ingest and correlate logs, metrics, and application data, and explore powerful querying techniques through both SQ
👍3🔥2👎1