解决 Dell PowerEdge T630 增加第三方 PCIe 设备后制冷系统异常

devtools/2025/3/4 6:34:32/

博客地址:解决 Dell PowerEdge T630 增加第三方 PCIe 设备后制冷系统异常

配置

  • Device: Dell PowerEdge T630
  • CPU: Intel® Xeon® E5-2696 v4 x2
  • GPU 1: Matrox Electronics Systems Ltd. G200eR2
  • GPU 2: NVIDIA GeForce GTX 1060 3GB
  • OS: Proxmox VE bookworm 8.3.1 x86_64
  • iDRAC firmware: 2.86.86.86
  • BIOS: 2.19.0
  • PSU: 750W x1

注意

本文中提到的方案无论根据社区经验还是官方文档都不适用于本文使用的软件及硬件配置,但不知道因为什么原因它实际生效,故本文方案仅提供参考价值

无论使用哪种方案,请确保第三方 PCIe 设备能够获得足够的冷却,本文中使用 GTX 1060 显卡在禁用 默认冷却响应 后运行实际业务 1 小时后测得温度稳定在 48℃,若实际运行温度过高请尝试提高风扇转速或启用 默认冷却响应 来保证设备运行安全,或寻求调速以外的其他物理方案

为什么需要调速

Dell 服务器在添加了第三方 PCIe 设备后,会启用 默认冷却响应逻辑,以根据常见行业卡规范来提供气流。该策略目标为向 PCIe 区域提供最多 55℃ 的进气

基于 T630 风道设计,风扇组中 6 个风扇有 4 个用于 CPU 风道,只有剩余的 2 个风扇的部分风道用于 PCIe 区域散热,这就造成添加任何需要额外冷却的 PCIe 设备都会导致服务器风扇组处于 90% 以上的转速且不可控,这个声音非常吵且无任何必要性

本文中使用的配置不需要 PCIe 区域获得额外气流,并且由于新版本 iDRAC 中取消了手动配置风扇组转速的能力,所以需要借助 ipmitool 来手动控制冷却策略

手动控制

在社区方案中,提到了使用 ipmitool 写入指令的方式来手动调整风扇转速,该工具用于 IPMI 通信

在主机中安装 ipmitool

apt install ipmitool openipmi openipmi-tools

本文使用 -I open 选项,使用 OpenIPMI 驱动接口通过内核直接与 IPMI 交互

# 配置为手动控制
ipmitool -I open raw 0x30 0x30 0x01 0x00
# 调速固定为 30%
ipmitool -I open raw 0x30 0x30 0x02 0xff 0x1e

0x30 0x30 0x01 为手动模式/自动模式切换,手动模式值为 0x00,自动模式 0x01

0x30 0x30 0x02 为转速控制,其值控制脚本如下

# Usage: ./fan_speed.sh 30if [ "$1" != "" ]; thenfan=`printf "0x%x" $1`
elsefan=0x1e # 30%
fiipmitool -I open raw 0x30 0x30 0x02 0xff $fan

该方案根据社区反馈,在重启后需要重新配置

理论上新版本的 iDRAC 已经关闭了 IPMI 中制冷系统的手动模式控制接口,只有在非常老旧的版本中才允许使用手动控制,由于 iDRAC 降级必须保证连续版本降级,即 2.86.86.86 => 2.85.85.85 => 2.84.84.84 => …,实际操作降级可能会非常困难

在实际测试中,该方案仅调整了系统制冷系统中包含的风扇组,并不能控制 PSU 风扇转速

禁用第三方 PCIe 卡默认冷却响应

PowerEdge:如何在 PowerEdge 13G 服务器上禁用第三方 PCIe 卡默认冷却响应

Dell 官方知识库中,这篇文章提到了冷却策略的调整方式,虽然文档开头就注明了 本文不适用于 PowerEdge T630,但实际测试有效

# Enable
ipmitool -I open raw 0x30 0xce 0x00 0x16 0x05 0x00 0x00 0x00 0x05 0x00 0x00 0x00 0x00
# Disable
ipmitool -I open raw 0x30 0xce 0x00 0x16 0x05 0x00 0x00 0x00 0x05 0x00 0x01 0x00 0x00

0x30 0xce 0x00 0x16 0x05 0x00 0x00 0x00 用于控制冷却响应逻辑模式

0x30 0xce 0x01 0x16 0x05 0x00 0x00 0x00 用于获取冷却响应逻辑模式状态

0x05 0x00 0x00 0x00 0x00 启用 默认冷却响应逻辑

0x05 0x00 0x01 0x00 0x00 禁用 默认冷却响应逻辑

通过禁用 默认冷却响应逻辑 的方式来降低整机所有组件的制冷策略

理论上该方案仅适用于 Dell PowerEdge R 系列服务器


http://www.ppmy.cn/devtools/164391.html

相关文章

openinstall支持鸿蒙App Linking:赋能系统级深度链接能力

用户注意力稀缺是当下互联网服务的核心痛点之一,快速、精准地到达目标页面成为普遍需求,华为HarmonyOS推出的AppLinking功能,带来了强大的系统级无缝跳转能力。 作为深度链接技术及一键拉起服务的引领者,openinstall始终关注前沿…

Android中的四大组件及其生命周期

Android中的四大组件分别是Activity、Service、Content Provider和BroadcastReceiver,每个组件都有其特定的生命周期。以下是这些组件及其生命周期的详细介绍: 1. Activity 简介:Activity是用户操作的可视化界面,为用户提供了一个…

网络原理---HTTP/HTTPS

通过之前的网络编程,我们已经初步了解UDP和TCP的基本实现方法,接下来我们对其进一步的学习。 在网络编程中: 1.读和写数据通过Socket,通过Socket内置的InputStream和OutputStream(读写的基本单位都是字节)。2.当在编…

企业数据挖掘建模平台哪家好?

在企业数字化转型中,数据建模是实现数据驱动决策的重要步骤。选择一个强大的数据建模平台,能够帮助企业高效地整合和分析数据,提供深刻的业务洞察。泰迪Tipdm数据挖掘建模平台以其强大的功能和灵活性,受不少企业的青睐。 数据挖掘…

PostgreSQL 生产环境升级指南:pg_upgrade 快速完成版本升级!

前言 PostgreSQL 的版本号由主要版本号和次要版本号组成。例如,在 10.1 中,10 是主要版本,1 是次要版本。关于更多版本的规划,请参考 PostgreSQL 版本路线图。 版本号规则: PostgreSQL 10 及以后:版本号…

【Linux】进程替换(七)

目录 前言: 一、进程替换 二、execl函数 1.进程替换函数的返回值 2.多进程进行程序替换 三、execv函数 四、execlp函数 五、execvpe函数 六、新增环境变量 七、系统调用的函数 总结: 前言: 我们知道了进程退出信息,进程…

项目准备(flask+pyhon+MachineLearning)- 3

目录 1.商品信息 2. 商品销售预测 2.1 机器学习 2.2 预测功能 3. 模型评估 1.商品信息 app.route(/products) def products():"""商品分析页面"""data load_data()# 计算当前期间和上期间current_period data[data[成交时间] > data[成…

k8s新增Node节点 简单易上手 如何给k8s新添加node节点

1、集群环境初始化 机器数量: 1台、操作系统: CentosStream9 、分别设置主机名称为:no’de-3 [rootmaster app1]# kubectl get nodes NAME STATUS ROLES AGE VERSION node Ready control-plane 96d v1.28.2 node-1 Ready &…