概述
文档包括 “上线实施” —— 含布线规则、BIOS设置、部署流程,三个阶段针对资源池各机型的不同实施方法;
“故障类型及处理办法” —— 含整个生命周期中会出现的 8 类问题、5 种异常状态,对应 28 种故障类型和处理办法
布线规则
千兆网线
1G-1 电口连接带外交换机,交换机端口配置裸金属 PXE Vlan(如 203)
万兆光纤
分为 3 种情况
两张 10G 卡 A & B
网卡顺序按照 slot 号从小到大,集成网卡排前
A 10G-1, 10G-2 –> TOR1
B 10G-3, 10G-4 –> TOR2
接线示例如下
10G-1 接 10GE/1/0/21 | 10G-2 接 10GE/1/0/32
10G-3 接 10GE/2/0/21 | 10G-4 接 10GE/2/0/32
一张 10G 卡 A
A 10G-1 –> TOR1
A 10G-2 –> TOR2
示例如下
10G-1 接 10GE/1/0/21
10G-2 接 10GE/2/0/21
一张集成卡
例如华为 RH2288v5 搭载的 X722 网卡,需要注意电口 1G-1 是第三个网口,前两个口为光口
布线类似 ‘情况 2’
BIOS 设置
BIOS 设置涉及启动模式、启动顺序、特殊机型设置
普适规则
启动模式: Legacy 模式
启动顺序: 1G-1 -> 10G-1 -> 10G-2 -> Hard Disk
特殊设置
不同型号服务器各有一些特殊设置
惠普 HP
惠普机型在资源池中包括 DL360 DL380 DL560 DL580
需关闭该功能,否则单张网卡反复轮询多次,导致部署环节超时报错
Network Boot Retry Support --- [Disabled]
具体配置文档见 [ 惠普DL系列BIOS设置(裸金属).pdf ]
戴尔 DELL
戴尔机型在资源池中包括 R730 R930
在 IPMI 管理界面开启
iDRAC -> 网络 -> IPMI 设置 -> 启用 LAN 上的 IPMI [√]
华为 HUAWEI
华为机型在资源池中包括 RH2288Hv3 RH5288v3 RH5885v3 RH2288Hv5
需要在 RAID 配置中,指定系统 BOOT 设备
v3 与 v5 BIOS 版本不同,设置方式有差异
此外, v3 版本启动顺序为 PXE -> Hard Disk ,不能指定 PXE 内部顺序,v5 版本可以
浪潮 INSPUR
浪潮机型在资源池中包括 NF5280m5 NF5288m5
需要注意 x722 网卡的顺序配置
具体配置文档见 [ 浪潮 NF5288 BIOS 设置(裸金属).pdf ]
曙光 SUGON
曙光机型在资源池中包括 W580 W720
网卡顺序需要在 ‘Network Drive BBS Priorities’ 处设置,’Boot Option #1’ 默认置为其中第一项(1G-1)
部署流程
整个过程共 7 个阶段,可参照 [ 裸金属部署工作流例表.xlsx ] 逐项递进
安全阶段
收集信息
包括 主机名,IPMI IP&Username&Password,机型,1G-1 MAC,共 6 项
Create nodes
注册节点阶段,将节点的主机名、IPMI 地址和账号录入数据库,指令为
# ironic node-create ...
Register port
将 1G-1 MAC 与新增节点相匹配,指令为
# ironic port-create ...
易错阶段
Inspect nodes
检查阶段,通过 1G-1 PXE 电口,传输镜像至目标节点,收集网卡,磁盘,内存等一系列主机信息
核心指令为
# ironic node-set-provision-state NodeName inspect
此阶段可能出现故障 1, 2
*注: 故障类型见下文
Set ports pxe
从 Inspect 阶段收集的所有网口中,筛选含有 LLDP 信息的连接端口
核心指令为 ‘ironic port-update PxePort replace pxe_enabled=true’
此阶段产生的结果若有问题,会在下一 ‘Create portgroups’ 阶段检查报错
Create portgroups
根据 10G 光口收集到的交换机端口信息,两两绑定后将信息写入 Neutron
例如,四个 10GE 光口
10GE/1/0/21 10GE/1/0/32 10GE/2/0/21 10GE/2/0/32
绑定规则
10GE/1/0/21 BOND 10GE/2/0/21 | 10GE/1/0/32 BOND 10GE/2/0/32
此阶段可能出现故障 3, 4, 5
Provide nodes
预部署阶段,通过 10G 光口,传输部署初始化用镜像,执行磁盘清理工作
核心指令为
# ironic node-set-provision-state NodeName provide
此阶段可能出现故障 6, 7, 8
故障类型及处理办法
共 8 种故障,及 5 种异常状态,具体分为 28 种故障原因
1 - IPMI 联通故障
状态:
enroll
故障原因 - 服务器 IPMI 管理线断连
处理办法: 检修管理电口
故障原因 - IPMI 上连带外交换机配置有误
处理办法: 检修带外交换机管理端口配置
2 - Inspect 超时
状态:
inspect failed
故障原因 - 1G-1 启动项在硬盘启动之后
处理办法: BIOS 中将网络启动调整至第一位
故障原因 - 带外交换机 PXE 口配置有误
处理办法: 检查带外交换机 PXE 端口 Vlan 设置
故障原因 - 1G 电口断连
处理办法: 检查接线、网卡状态,确保亮灯
故障原因 - 插错电口
处理办法: 检查网卡 port 编号标记,避免误插 2 号电口
故障原因 - 戴尔服务器 ‘LAN 上的 IPMI’ 未启用
处理办法: 在 IPMI 设置界面勾选
3 - 缺少网口
状态:
manageable
故障原因 - 光口松动、光模块故障、光纤故障、网卡故障、架顶交换机故障
处理办法: 检查接线、硬件维修,确保亮灯,重新 Inspect
故障原因 - 10G 光纤上连架顶交换机端口 LLDP 关闭
处理办法: 打开对应端口 LLDP 功能,重新 Inspect
故障原因 - inspect 收集信息不全
处理办法: 删除旧数据,重新 Inspect
4 - 网口数为 0
状态:
manageable
故障原因 - 环境变量有误
处理办法: 查看 Openrc 文件,确保 API 变量与当前版本一致
故障原因 - 新机型 x722 网卡
处理办法: 使用已补充 x722 网卡驱动的专用镜像
5 - 网口数过多且为偶数
状态:
manageable
故障原因 - 电口插线过多
处理办法: 拔除多余电口网线,保留一根 1G-1 即可
6 - Provide 超时
状态:
clean failed
故障原因 - 10G 光纤布线错误
处理办法: 参照布线规则重新整理
故障原因 - 架顶交换机 10GE/1 与 10GE/2 配反
处理办法: 重新配置架顶交换机端口顺序
故障原因 - BIOS 启动顺序 10G PXE 在 Hard Disk 之后
处理办法: 将 10G PXE 调整到 1G-1 之后,Hard Disk 之前
故障原因 - 单张网卡轮询
处理办法: 关闭网卡多次轮询选项,避免超时
故障原因 - 光口松动、光模块故障、光纤故障、网卡故障、架顶交换机故障
处理办法: 检查接线、硬件维修,确保亮灯,删除节点,重新添加
故障原因 - 3008 阵列卡对大硬盘不支持快速格式化
处理办法: 拔出数据盘,待业务部署完成后插回
故障原因 - 清理磁盘时间过长超时
处理办法: 重新 provide
故障原因 - 10G 光口频繁启停,触发架顶交换机关闭连接端口
处理办法: 检查 inspect 镜像,检修光口,开启架顶交换机端口
故障原因 - Provide 镜像不支持华为最新 3508 阵列卡
处理办法: 暂无法解决,等待 Ubuntu 驱动支持
7 - Kernel Panic
状态:
clean wait
故障原因 - 磁盘清理出错
处理办法: 重新 provide
故障原因 - 清理镜像运行中,硬盘故障
处理办法: 检修硬盘
8 - Provide 卡死
状态:
clean wait
故障原因 - PXE 载入镜像阶段卡死
处理办法: 检修服务器网卡
故障原因 - 磁盘清理镜像持续运行,未能自动关机
处理办法: 检查镜像是否匹配,检查硬盘健康状态
故障原因 - 浪潮 NF5280M5 机型使用 CPU 做系统盘软 RAID
处理办法: 无法解决
故障原因 - Conductor 端信息不同步
处理办法: 将该节点在数据库中状态改为 manageable,重新执行