服务器数据恢复环境:
HP EVA存储,6块SAS硬盘组建的raid5磁盘阵列。上层操作系统是WINDOWS SERVER。该存储为公司内部文件服务器使用。
服务器故障&分析:
在遭遇两次意外断电后,设备重启时raid提示“无法找到存储设备”。管理员尝试进入raid管理模块时死机,多次重启尝试后故障依旧。
这是一个典型的由于意外断电导致raid硬件模块损坏或者riad管理信息丢失等raid故障的情况。正常情况下,raid一旦创建完成,raid管理模块中的信息不会轻易更改,但是raid管理模块的信息是可修改的信息。一次或多次的意外断电是有可能导致raid管理模块中的信息被篡改或丢失,断电次数过多时甚至可能直接导致raid卡上的元器件损坏。该案例中的故障就是属于这种情况。
服务器数据恢复过程:
1、首先由硬件工程师检测故障存储中的所有硬盘的物理故障,所有硬盘读取正常,没有发现存在明显的物理故障。
2、将故障存储中所有磁盘以只读方式进行全盘镜像备份,后续的数据分析和数据恢复操作都基于镜像文件进行,避免对原始磁盘数据造成二次破坏。
3、北亚企安数据恢复工程师基于镜像文件分析底层数据,确定故障存储中6块磁盘的数据块大小、条带信息、盘序、校验方式等RAID信息,根据这些信息虚拟重建raid阵列。
4、逻辑校验重构RAID中的数据,在确认重构RAID各参数正确无误后,对所需要恢复的数据进行完全验证。
5、在数据恢复工程师验证没有发现问题后,交由用户方亲自验证。经过反复验证,用户方工程师确认恢复的数据完整可用,达到预期。
6、将数据迁移至用户方准备好的存储环境中,再次验证没有发现问题。
服务器数据安全Tips:
1、尽量保证机房供电稳定,减少供电异常对服务器和存储的影响。
2、为重要的服务器及存储配备UPS,在意外断电的情况下能让核心业务继续运行一段时间,为应急方案的实施赢得时间。
3、定期对服务时间长的服务器和存储进行安全状况检查,对这些老旧设备的整体运行状态进行评估,及时更换硬件和升级软件,将可能的隐患提前排除。
4、制定突发数据灾难的紧急处理方案,降低业务损失。