背景
业务发现 dmesg 中有大量/dev/sdu 的日志信息,怀疑 sdu 盘坏。本文记录硬盘状态查询和定位过程。
思路
- 通过 dmesg 查看告警信息
- 通过/sys/block/sd* 查看设备名和硬盘槽位对应信息
- 通过 raid 卡驱动查看硬盘健康状态
- 通过 raid 卡驱动开启硬盘定位灯,为维修更换做准备
1 | dmesg | grep sdu |
过程
1 | [root@localhost monitor]# dmesg | grep sdu | tail |
验证 dmesg 信息,确认有 medium error 告警。设备在总线上的识别号:0:0:23:0
1 | [root@localhost monitor]# ll /sys/block/sdu |
通过查看 /sys/block/中信息也可以确认。
1 | /opt/MegaRAID/storcli/storcli64 /c0 show |
DID 为设备 ID,对应 raid 卡槽位为 0:15
1 | [root@localhost monitor]# /opt/MegaRAID/storcli/storcli64 /c0/eall/s15 show all |
Media Error Count = 329 即为报错统计,一般过 10 就可以更换。
1 | [root@localhost monitor]# /opt/MegaRAID/storcli/storcli64 /c0/eall/s15 start locate |
开启 15 槽位定位灯,便于现场更换。
BMC 界面确定灯已开启。