How Meta keeps its AI hardware reliable
https://engineering.fb.com/2025/07/22/data-infrastructure/how-meta-keeps-its-ai-hardware-reliable
https://engineering.fb.com/2025/07/22/data-infrastructure/how-meta-keeps-its-ai-hardware-reliable
Мониторинг PostgreSQL в Zabbix
🚀 О чём этот урок?
PostgreSQL — надёжная и мощная СУБД, но без грамотного мониторинга она может преподнести неприятные сюрпризы. На этом уроке мы разберём, как выстроить мониторинг PostgreSQL в Zabbix так, чтобы вовремя замечать проблемы и поддерживать стабильность работы кластера.
Погрузимся в архитектуру PostgreSQL, рассмотрим ключевые метрики и процессы, влияющие на производительность, а также разберём, как отслеживать реплики и контролировать состояние бэкапов.
🎯 Что вы получите:
— Чёткое понимание, как организовать мониторинг PostgreSQL через Zabbix
— Навык настройки метрик и алертов для стабильной работы кластера
— Практику по отслеживанию репликации и состоянию резервных копий
— Уверенность в том, что база «не упадёт внезапно»
👉 Регистрация и подробности о курсе Observability: мониторинг, логирование, трейсинг: https://vk.cc/cP2lYA
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, erid: 2Vtzqv8GmpN
🚀 О чём этот урок?
PostgreSQL — надёжная и мощная СУБД, но без грамотного мониторинга она может преподнести неприятные сюрпризы. На этом уроке мы разберём, как выстроить мониторинг PostgreSQL в Zabbix так, чтобы вовремя замечать проблемы и поддерживать стабильность работы кластера.
Погрузимся в архитектуру PostgreSQL, рассмотрим ключевые метрики и процессы, влияющие на производительность, а также разберём, как отслеживать реплики и контролировать состояние бэкапов.
🎯 Что вы получите:
— Чёткое понимание, как организовать мониторинг PostgreSQL через Zabbix
— Навык настройки метрик и алертов для стабильной работы кластера
— Практику по отслеживанию репликации и состоянию резервных копий
— Уверенность в том, что база «не упадёт внезапно»
👉 Регистрация и подробности о курсе Observability: мониторинг, логирование, трейсинг: https://vk.cc/cP2lYA
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, erid: 2Vtzqv8GmpN
Achieving High Availability with distributed database on Kubernetes at Airbnb
https://medium.com/airbnb-engineering/achieving-high-availability-with-distributed-database-on-kubernetes-at-airbnb-58cc2e9856f4
We chose an innovative strategy of deploying a distributed database cluster across multiple Kubernetes clusters in a cloud environment. Although currently an uncommon design pattern due to its complexity, this strategy allowed us to achieve target system reliability and operability.
In this post, we’ll share how we overcame challenges and the best practices we’ve developed for this strategy and we believe these best practices should be applicable to any other strongly consistent, distributed storage systems.
https://medium.com/airbnb-engineering/achieving-high-availability-with-distributed-database-on-kubernetes-at-airbnb-58cc2e9856f4