曙光(Sugon)天阔服务器阵列崩溃恢复方法-CHS数据实验室

您现在的位置：CHS数据实验室 > 使用方法 > 曙光(Sugon)天阔服务器阵列崩溃恢复方法

曙光(Sugon)天阔服务器阵列崩溃恢复方法

作者：管理员发布于：2026-05-12 20:13:11 文字：【大】【中】【小】

摘要：服务器可以24 小时稳定运行，并对外提供存储、计算、网络、管理等服务，是互联网和企业系统的 “心脏”。也就是因为其“稳定”的原因，有时候很容易让人忽略它的存在，甚至连阵列“降级”都未能察觉，从而引发阵列崩溃、业务停滞的安全事件！今天我们来看看，曙光(Sugon)天阔1620-G10服务器RAID5阵列崩溃后的恢复方法。

故障存储:

服务器型号:曙光(Sugon)天阔1620-G10

硬盘型号:希捷ST300MM006*3

故障现象:

客户描述服务器为某业务平台提供支持，已运行近10年，由3块希捷ST300MM006硬盘组成RAID5阵列。某日突然发现业务无法运行，经过排查发现此服务器0、1、2号磁盘闪红灯，阵列卡管理程序显示三块盘 “OFFLine”,RAID5阵列彻底崩溃。

微信图片_20260506154852_285_4

图1：曙光(Sugon)天阔1620-G10

故障分析:

由于服务器正常，所以直接查看了下其日志，发现0号盘在约1年多前就已经离线了，也就是此服务器一直运行于“降级状态”下，直到近期1号盘和2号盘先后离线导致整个RAID5阵列 “分崩离析”！

RAID 5（独立磁盘冗余阵列 5 级）是一种分布式奇偶校验的磁盘阵列方案，核心是条带化数据 + 分布式奇偶校验（XOR），在性能、容量利用率、单盘容错之间取得极佳平衡，是企业与服务器最主流的 RAID 级别。

基本条件：

最少硬盘数：3 块（N ≥ 3）

容量计算：总可用容量 = (硬盘数 − 1) × 最小单盘容量

例：3 块 2TB 硬盘 → 可用 4TB（1 块盘容量用于校验）

4 块 2TB 硬盘 → 可用 6TB

两大核心技术：

（1）数据条带化（Striping）

逻辑上连续的数据被分割成固定大小的数据块（Chunk，如 64KB/128KB）

这些数据块并行、轮循写入不同物理硬盘

效果：提升读取性能（多盘并发读）

（2）分布式奇偶校验（Distributed Parity）

对每一组横跨多盘的同条带数据块，通过异或（XOR）运算，生成 1 个奇偶校验块（P）

公式：P = D₁ XOR D₂ XOR D₃ ... XOR Dₙ₋₁

关键特性：校验块不固定在某一盘，而是循环、均匀分布在所有硬盘上

避免 RAID 4 的 “专用校验盘写入瓶颈”

每块盘：一部分存数据、一部分存校验

总结下，RAID5=条带+XOR校验，最大允许一块盘离线，当超过此数量整个阵列会崩溃（图2）。但是需要重点注意的是RAID5的“降级”，比如4块盘的RAID5阵列，当1块盘出现问题离线(OFFLINE)时,此时阵列会处于“降级状态”，即阵列并没有崩溃，只是运行于最小模式下，此时阵列卡会对离线的故障盘报“黄灯”。这种最小模式并不影响业务的继续，因为阵列还没有崩溃，如果此时找一块容量相同的盘上线，则阵列卡会重新同步，使整个阵列回到“冗余状态”。

个人认为，相对于大于1块盘的离线，实际上“降级状态”更不易让人察觉，因为终端的业务还在正常运行，如果不去机房，根本不会知道事情的严重性。

图2：RAID5原理图

微信图片_20260506155534_291_4

图3：最早离线的0号盘

故障处理:

RAID5阵列的恢复实际上就三点，1、块大小 2、盘序 3、条带走向，只要分析出来这三点就可

以通过各种软件重组阵列并恢复数据。块大小这个很好判断，就不在赘述，而盘序这个是知道的，最后

就是条带走向，这个通过前两点也能推测出来。

对于这种“降级状态”的RAID5阵列，最重要的是最后离线的硬盘，阵列数据的“新鲜度”离不开它。本例中最后离线的是2号盘，此盘的故障为电路板不加电，而1号盘也处于离线状态，经过检测存在少量坏扇区，而最早离线的0号盘则是坏扇区比较多。由于三块盘型号相同，所以电路板问题相对好解决。镜像1、2号盘，由于盘数较少，阵列参数直接通过“开盲盒”的方式就能猜出来（图4）。

经过核对数据发现基本上正常（图5），至此恢复工作完成！