问题背景
近期处理了2起ASM添加磁盘出现的故障,问题现象类似,处理方式也类型。存在共性,所以整理了下相关故障信息,做了一些总结,希望能对大家带来一些参考意义。
故障分析与处理
案例一、某客户
1.1、问题分析
增加磁盘,日志中可以看到已经成功完成磁盘组中disk的添加
半个小时后,磁盘头异常:报ORA-15196错误,提示ASM块头无效。
Rebanlence过程中,突然asm磁盘头故障:
接着磁盘组dismount,磁盘被标记为“de-assignment”
通过查询官网,可以看到BUG造成。
增加磁盘出现问题
只能重建磁盘组恢复
1.2、问题处理
1.2、问题处理
切换dg(…过程略)
老生产禁用和停止相关服务,避免业务连接到老生产
srvctl disable scan_listener
srvctl disable scan
srvctl disable listener -n test1
srvctl disable listener -n test2
srvctl disable vip -n test1
srvctl disable vip -n test2
停scan监听
srvctl stop scan_listener
停scan vip
srvctl stop scan
关监听和VIP服务
srvctl stop listener -n rac1
srvctl stop vip -n rac1
srvctl stop listener -n rac2
srvctl stop vip -n rac2
检查ip地址,scan ip和vip是否下掉,并重启验证。
重建老库磁盘组
检查db磁盘组的磁盘,并dd掉对应的磁盘头
select * from v$asm_disk;
如:
dd if=/dev/zero of=/dev/asm-diskm bs=1024k count=100
重建磁盘组:
create diskgroup DB external redundancy disk ‘/dev/asm-diskl’,‘…’,‘/dev/asm-diskm’ attribute ‘compatible.asm’=‘11.2.0.0.0’;
单独启动db监听(…过程略)
搭建dg(…过程略)
案例二、某医院
客户数据库由于出现归档日志异常增长现象,导致asm磁盘组空间被撑满。应急处理删除部分归档,后续规划进行磁盘组扩容,计划晚上添加磁盘。
客户提供了2块1T共享盘,当晚完成了ASM扩容,扩容后客户反馈,业务出现了业务无法连接。排查发现实例宕了,DATA磁盘组无法mount。
2.1、问题分析
1、 ASM告警日志
问题时间出现告警,DATA磁盘组成员盘newdata03(DATA_0000)异常导致磁盘
组无法挂载。磁盘头异常:报ORA-15196错误,提示ASM块头无效,同时伴随其ORA报错。
2、 磁盘权限及磁盘报错au块检查
通过kfed检查磁盘权限正常。磁盘对应au块显示损坏
3、 系统磁盘检查
排查发现新增DATA磁盘组成员盘newdata03(DATA_0000),在系统上已经作为rman备份lv在使用。由此导致了DATA磁盘组的状态异常。