近期处理了几个NetApp FAS存储控制器宕机的案例,其中部分有代表性的就是其实控制器并没有物理故障,问题是控制器里面的boot device的SSD盘出现了问题。这里给大家share一下如何确定系统是否成功识别到了boot device设备。
对于很多非专业人士来说,看到NetApp的一个控制器take over了另外一个控制器,马上就得出了结论,控制器挂了,要求更换控制器。其实很多情况不是这样的情况,任何软件系统的panic都可能导致控制器宕机,另外一个接管。控制器里面的一些部件故障也可能导致控制器宕机。最典型的就是boot device,就是系统启动盘如果出现问题也可能导致系统宕机。
对于不同的FAS存储系统,boot device是不同的,从最老的compact flash卡,到9针的电子盘,还有最新的m.2 SATA盘。下面是一些图片供参考,不是很全,但有些代表性。
下面是1GB的CompactFlash卡,主要用在FAS3000和FAS31设备上,现在还有客户在使用。
下面是2GB的电子盘,主要用在FAS32和FAS62设备上。
下面是8GB的电子盘,主要用于FAS8000 和FAS25系列上
下面是比较新的120G的m.2 SATA,主要用于FAS26, 27, 8200等上面。
下面我们重点来看看如何在loader模式下确定系统是否成功识别到了上面这些boot device设备?
LOADER-A> show devices -a
有些平台 -a 会报错,就直接输入 show devices
使用下面的表格来确定不同平台的boot device的名字
设备型号 | Boot device的设备名称和描述 |
AFF A250 FAS500F | rd0.0 Raw disk 0 (AHCI:SHM2S86Q120GLM22NP), Capacity: 114473 MB |
AFF A320, AFF A800, and AFF A900 FAS9500 | rd0.0 Raw disk 0 (NVME:0X331111900329B0SAM000PM9830001T00025000), Capacity: 915715 MB |
AFF A400 FAS8300 and FAS8700 | rd0.0 Raw disk 0 (AHCI:Micron_5100_MTFDDAV480TCB), Capacity: 457862 MB |
AFF A200, AFF A220, AFF A300, AFF C190, and AFF A700 FAS2620, FAS2650, FAS2720, FAS2750, FAS8200, and FAS9000 | rd0.0 Raw disk 1 (AHCI:ATP SATA III mSATA AF120GSMHI-NT2), Capacity: 114473 MB |
AFF A700s | rd0.0 Raw disk 0 (NVME:SAMSUNG MZVLW128HEGR-00000), Capacity: 122104 MB rd1.0 Raw disk 1 (NVME:SAMSUNG MZVLW128HEGR-00000), Capacity: 122104 MB Note: there are two boot devices |
FAS/AFF8020, FAS/AFF8040, FAS/AFF8060, FAS8080 EX, and AFF8080 EX | u0a.0 DATA_ONTAP (MICRON eUSB DISK), Capacity: 7147 MB Free: 6490 MB |
FAS2554, FAS2552, FAS2520 |
确定了boot device设备系统可以正常识别到,但还是无法boot OS,可以和wechat:StorageExpert联系进一步进行故障的诊断分析。