ORACLE ODA一体机存储节点电源故障的分析处理

server/2024/12/23 2:41:58/

近期,某用户的ORACLE ODA一体机在例行机房巡检时出现亮黄灯告警;用户反馈次问题后我们立刻通过远程方式,登陆ODA的控制台进行查看;

对于ODA一体机(2个计算节点+1个存储节点),计算节点可以通过ilom管理界面登陆进行详细的硬件信息查看和管理,当然通过命令行也可以。

对于存储节点,是没有图形界面可以看,可以通过ODA管理台(7093/mgmt/index.html)或者命令查看;

本次问题查看为存储节点的1个电源故障,由于双电源配置,系统仍然可以正常工作;并且电源的更好工作是可以在线进行的。

如下为排查分析过程:

1、故障灯及系统中查看故障原因

[root@TEST2 ~]# odaadmcli show enclosure

        NAME        SUBSYSTEM         STATUS      METRIC   

        _FAN0       Cooling           OK          4910 rpm 
        _FAN1       Cooling           OK          4540 rpm 
        _FAN2       Cooling           OK          4920 rpm 
        _FAN3       Cooling           OK          4530 rpm 
        _IOM0       Encl_Electronics  OK          -        
        _IOM1       Encl_Electronics  OK          -        
        _PSU0       Power_Supply      Critical    -       ===>>>显示故障    
        _PSU1       Power_Supply      OK          -        
        _TEMP0      Amb_Temp          OK          23 C     
        _TEMP1      Midplane_Temp     OK          22 C     
        _TEMP2      PCM0_Inlet_Temp   OK          30 C     
        _TEMP3      PCM0_Hotspot_Temp OK          24 C     
        _TEMP4      PCM1_Inlet_Temp   OK          42 C     
        _TEMP5      PCM1_Hotspot_Temp OK          39 C     
        _TEMP6      IOM0_Temp         OK          22 C     
        _TEMP7      IOM1_Temp         OK          22 C 

4 、更换电源(可以先尝试插拔电源线,电源线松动是可能的,插拔后也可能就恢复了)

更换的步骤MOS文档(How to confirm power supply status about storage shelf on ODA X7-2 (Doc ID 2419846.1),How To Replace an ODA (Oracle Database Appliance) X6-2HA, X7-2HA, X8-2HA, X9-2HA DE3-24C Power Supply/Cooling Unit [VCAP] (Doc ID 2960220.1))有视频和步骤,没有特殊的难度,参考如下:

WHAT ACTION DOES THE FIELD ENGINEER/ADMINISTRATOR NEED TO TAKE?:
1. Locate the PSU by amber LED

The following LEDs are lit when a power supply fault is detected:

* Front and rear Service Required LEDs
* Rear PS Failure LED on the bezel of the server
* Failure LED on the faulty power supply

2. Verify the PSU part number in the System Handbook and re-confirm.

3. Removing the PSU as follows.
3.1 Clear access to the PSU of any cables harnesses or assemblies.
3.2 Ensure the PSU  On/Off switch is in the 'Off' Position.
3.3 Disconnect the power cord tie strap from the power cord, and unplug the power cord from the PSU.
3.4 Remove installed PSU by, Grasping the PSU handle, push the release button and slide out PSU.

4. Installing the Power Supply as follows or use the "online" Help Guide.

4.1 On the replacement PSU verify that the Release button is open .
4.2 Align PSU with empty bay in chassis and slide in .
4.3 Push the lever fully closed until you hear or feel a click.
4.4 Connect AC power cord to new PSU. Use the power cord retaining clips.
4.4 If required , place cable harness or assemblies back into normal position.
4.5 Turn the On/OFF switch to the On position .

5. Verify the replacement by checking for Green LED

IMPORTANT NOTE :
PSUs have a 3 minute Service time limit . When you remove a PSU the
fans on the remaining PSU go to 100 % duty cycle . Testing has shown that
HDD temperatures can exceed their operating temperature when a PSU has
been removed for 3 minutes.

5、检查最终状态(注意次命令的输出,ODA 的2个计算节点的的输出是不一致的,简单说是检测到恢复正常是有时间差的,如节点1显示OK,节点2可能过几分钟才显示OK)

[root@TEST2 ~]# odaadmcli show enclosure

        NAME        SUBSYSTEM         STATUS      METRIC   

        _FAN0       Cooling           OK          4910 rpm 
        _FAN1       Cooling           OK          4540 rpm 
        _FAN2       Cooling           OK          4910 rpm 
        _FAN3       Cooling           OK          4540 rpm 
        _IOM0       Encl_Electronics  OK          -        
        _IOM1       Encl_Electronics  OK          -        
        _PSU0       Power_Supply      OK          -        
        _PSU1       Power_Supply      OK          -        
        _TEMP0      Amb_Temp          OK          23 C     
        _TEMP1      Midplane_Temp     OK          22 C     
        _TEMP2      PCM0_Inlet_Temp   OK          29 C     
        _TEMP3      PCM0_Hotspot_Temp OK          24 C     
        _TEMP4      PCM1_Inlet_Temp   OK          41 C     
        _TEMP5      PCM1_Hotspot_Temp OK          39 C     
        _TEMP6      IOM0_Temp         OK          22 C     
        _TEMP7      IOM1_Temp         OK          28 C  


http://www.ppmy.cn/server/39373.html

相关文章

【TypeScript类型兼容性简介以及使用方法】

TypeScript 的类型兼容性是指当一个类型被赋值给另一个类型时,是否满足赋值操作的条件。TypeScript 通过其结构化类型系统来进行类型兼容性的判断,即只要两个类型的结构相似,它们就是兼容的。 在判断两个类型是否兼容时,TypeScri…

JavaScript百炼成仙自学笔记——16

HTML: 是什么?HyperText Markup Language 既超文本标记语言(www的描述语言) 既平常上网时所看到的网页 为什么?把存放在一台计算机中的文本或是图形与另一台计算机中的文本或图形方便的联系在一起,形成…

Unreal Engine(虚幻引擎)的版本特点

Unreal Engine(虚幻引擎)是Epic Games开发的游戏引擎,广泛应用于游戏开发、影视制作、建筑设计、虚拟现实等领域。Unreal Engine版本指的是该引擎的发布版本,不同版本之间在功能、性能和稳定性等方面存在差异。北京木奇移动技术有…

公园景区剧本杀小程序系统开发搭建

公园景区剧本杀小程序系统开发搭建涉及以下步骤: 1. 项目规划:需要先进行需求分析和设计,确定系统的功能和界面设计。 2. 技术选型:根据项目需求和团队技术能力,选择合适的开发工具和技术栈,例如小程序框…

蓝桥杯 算法提高 ADV-1164 和谐宿舍 python AC

贪心&#xff0c;二分 同类型题&#xff1a;蓝桥杯 算法提高 ADV-1175 打包 def judge(x):wood 0max_val 0ans_len 0for i in ll:if i > x:return Falseelif max(max_val, i) * (ans_len 1) < x:max_val max(max_val, i)ans_len 1else:wood 1max_val ians_len …

[报错解决]SpringBoot子项目打jar包启动报 XXX--1.0-SNAPSHOT.jar中没有主清单属性

目录 报错信息解决原因原因分析解决方案 报错信息 解决 原因 在使用SpringBoot架构搭建父子工程时&#xff0c;使用IDEA可以正常启动&#xff0c;对子项目打成jar包后使用jar方式启动时&#xff0c;会报错xx.jar中没有主清单属性。 原因分析 原因主要是在使用jar方式启动时…

快速上手prometheaus grafana 监控

介绍 prometheaus 一个定时输出指标数据的巡检组件&#xff1f; grafana 一个读取指标&#xff0c;可视化的提供了好看界面的组件&#xff1f; 教程 如何和springboot项目集成 【IT老齐153】超级实用&#xff01;十分钟掌握Prometheus与Grafana监控SpringBoot应用_哔哩哔哩_…

idea 新建spring maven项目、ioc和依赖注入

文章目录 一、新建Spring-Maven项目二、在Spring-context使用IOC和依赖注入 一、新建Spring-Maven项目 在pom.xml文件中添加插件管理依赖 <build><plugins><plugin><artifactId>maven-compiler-plugin</artifactId><version>3.1</ver…