1.故障形貌

&NBsp;       124盘的FP5280G2机械安装了63.84Tnvme固态盘,这6块盘的电源灯都是绿色正常,状态灯也都没有红色告警,然则通过lsPCi下令查看现实只识别到了5块盘。

2.排查历程

      由于raid卡不支持nvme协议的固态盘,以是无法通过点灯来缺失到底是谁人槽位的硬盘无法识别。这样就只能通过下令dd if=/dev/zero  of=/dev/nvme1pn1向每个磁盘中写入数据,然后考察闪灼的磁盘状态灯,逐一排查,最终来确定是22槽位的盘没有被识别。

  定位到了没有被识别到的nvme固态盘,此时也不能确定该盘是好的照样坏的,需要通过将该块盘与其他槽位正常识别到的盘交换位置,然后再次通过dd下令逐一直每块磁盘写入数据,考察磁盘的状态灯,来确定。最后考察发现,没有被识别的22槽位磁盘放到0槽位是可以被识别到的,而那块正常的盘放到22槽位也不能被识别到。此时可以证实,之前22槽位的盘是好的。

  既然22槽位的盘是好的,那么问题可能就是背板、riser卡、oculink线损坏导致的22槽位硬盘不能被识别,以是我先对调了一下oculink线,发现照样无法识别硬盘。那么就排除了oculink损坏的可能。局限进一步缩小到了背板和riser卡上,这时我又把背板给替换掉了,最终22槽位的硬盘被识别到了。此时可以确定是背板损坏了导致22槽位nvme固态盘无法被识别。

3.解决方法

替换背板。