起初并没人关注的小问题,正常不过的虚机存储迁移操作,引起的延迟却引发一连串的变化。
环境
vsphere 6.7 + 华为集中式存储
开始
- 下午5:17
业务反馈,存在数据超时,频繁在1秒钟以内,正常在200ms。需运维排查虚机的状态与IO情况等硬件使用情况。 - 下午5:30
随手翻开zabbix 打开cpu idel 与avaliable memory ,均正常余量蛮大,这台为数据库cpu idel 最高不超过30%,排除cpu 内存问题。
同时数据库组同事给予意见:
从awr分析上看瞬时的io大,写入慢了假设后续硬件层面没法提高的情况下,建议对相关表改成分区表,再把数据库的几个数据文件分割到多个新挂载磁盘卷去。如果存储能提升来的会快一点。
以上在下班前算是给予一个比较好的解决方式,恰逢周五下班,无心排查期待后续没有其余问题。 - 晚上 21:47
业务反馈延迟在这几个小时内反反复复发生,告警一直反反复复。
此刻开始关注,调出vsphere 打开虚机IO延迟,查看在这段时间内IO正常,最大演出151。怀疑这个存储不行,立马决定热更换存储。 - 晚上 21:58
怀疑不是存储的问题,立马停止存储迁移。打开存储管理台查看当前lun的状态。并收集存储日志交给厂商进行定量分析。 - 晚上 23:30
经过仔细排查与操作记录回想,基本确认是在4:30-5:17进行的虚机整机迁移(包含存储的更换)导致的延迟增加。
1:分析存储性能数据,从16:35开始存储上ID为17的LUN