Admin Guides | Сисадмин

Предсказание отказов HDD/SSD: как мониторить диски и избегать аварий

Жесткие диски и SSD рано или поздно выходят из строя, но их отказ редко бывает внезапным.

Зная, какие параметры мониторить, можно заранее выявить проблемы и заменить диск за недели до его полной поломки. В этом разберемся сегодня.

Какие параметры критичны?

Самый простой способ оценить состояние диска — анализ S.M.A.R.T.-атрибутов. Вот ключевые показатели, на которые стоит обратить внимание:

⏺

Reallocated Sectors Count – количество переназначенных секторов. Рост этого значения — первый тревожный сигнал.

⏺

Pending Sectors – секторы, ожидающие перераспределения. Если диск не может их исправить, он может скоро выйти из строя.

⏺

Uncorrectable Sectors – необратимо поврежденные сектора, которые диск не может ни исправить, ни перенести.

⏺

CRC Errors – ошибки интерфейса SATA/NVMe, указывают на проблемы с кабелем или контроллером.

⏺

Power-On Hours – возраст диска. HDD редко живут больше 5-7 лет, SSD – до 3-5 лет при высокой нагрузке.

⏺

SSD Wear Leveling Count – степень износа ячеек памяти у SSD. Если значение приближается к 100%, диск скоро выйдет из строя.

Эти параметры можно отслеживать вручную, но лучше автоматизировать процесс.

Мониторинг S.M.A.R.T. в Linux

Чтобы проверить диск вручную, можно использовать smartmontools:

smartctl -a /dev/sda

Но вручную это делать неудобно, поэтому подключаем мониторинг в Zabbix и Prometheus.

Автоматический мониторинг дисков в Zabbix

В Zabbix есть готовые шаблоны для S.M.A.R.T. Чтобы подключить мониторинг:

1️⃣

Устанавливаем Zabbix Agent (если он еще не установлен):

sudo apt install zabbix-agent

Для CentOS/RHEL:

sudo yum install zabbix-agent

2️⃣

Добавляем модуль для работы с S.M.A.R.T.

sudo apt install smartmontools

3️⃣

Настраиваем Zabbix Agent для сбора данных о дисках. Добавляем в /etc/zabbix/zabbix_agentd.conf:

UserParameter=smartctl.discovery, sudo /usr/local/bin/smartctl_discovery.sh
UserParameter=smartctl.info[*], sudo smartctl -A /dev/$1 | grep "$2" | awk '{print $10}'

4️⃣

Перезапускаем агент:

sudo systemctl restart zabbix-agent

5️⃣

Импортируем шаблон “SMART Monitoring” в Zabbix и привязываем к хосту.

Теперь Zabbix будет автоматически отслеживать состояние дисков и присылать алерты при критических изменениях.

В следующем посте продолжим!

Please open Telegram to view this post

VIEW IN TELEGRAM

👍28

3.03K views09:44