故障存储:
西数WD121EJRX
12TB*2/管理系统:大华DSS PRO/文件系统:大华嵌入式CQFS
故障现象:
客户描述一台大华视频存储服务器,逻辑上分出多组阵列,其中一组阵列由于硬盘离线导致阵列崩溃,在出现问题后把两块盘从存储柜中取出。由于此存储服务器维护人员新老交接,所以无法提供阵列的详细情况,仅有一张比较模糊的阵列崩溃前的磁盘使用情况照片(图1)。在故障盘移出后,又接入三块磁盘重新组建阵列并融入DSS PRO管理平台。需要恢复此阵列上的所有视频数据!
图1:阵列正常前的情况
故障分析:
由于是存储服务器中的一组阵列,两块盘的话如果开启阵列可能的方式仅有RAID1和RAID0,但是也不排除可能是三盘的RAID5,比如一块盘早期离线取出,毕竟后期上线的是三块新盘。所以根据阵列对磁盘数量的最低要求可选的三种RAID方式就是0,1,5,而从那种截图可以得出结论,不太可能是RAID1(RAID1双盘镜像仅有一块磁盘的容量),那么就只剩下两盘RAID0或者三盘RAID5两种可能了。
故障处理:
本例中在开始分析数据前需要先解决阵列重组的问题,因为底层数据全部是建立在阵列基础之上。所以分两步走:1、分析阵列
2、分析数据。
1、分析阵列
RAID0和RAID5最大的区别就在于校验P块,RAID0只做分块没有安全冗余所以也就没有校验块了,鉴于此开始分析,分析发现大华DSS还是使用了其独创的大华视频块结构,由于特征明显所以很快就确定了原始阵列应该是三盘RAID5,由于RAID5的安全冗余其最大缺盘数为1,而不见踪影的那块盘肯定是最先“离线”的,然后阵列一直处于“降级”运行的模式下,一般而言这种模式下存储服务器肯定会有各种提示(如闪灯或者在阵列界面提示添加新盘),对这些提示的无视才最终导致阵列崩溃!
对于RAID5来说重组成功的三大条件就是物理盘顺序、块大小、条带的走向(图2),通过对两块盘中大华视频块的分析解决了RAID5重组所有问题(图3)。
图2:三盘RAID5的原理


