oracle 清理资源池,资源池裸金属实施管理手册

news/2024/11/15 1:59:45/

概述

文档包括 “上线实施” —— 含布线规则、BIOS设置、部署流程,三个阶段针对资源池各机型的不同实施方法;

“故障类型及处理办法” —— 含整个生命周期中会出现的 8 类问题、5 种异常状态,对应 28 种故障类型和处理办法

布线规则

千兆网线

1G-1 电口连接带外交换机,交换机端口配置裸金属 PXE Vlan(如 203)

万兆光纤

分为 3 种情况

两张 10G 卡 A & B

网卡顺序按照 slot 号从小到大,集成网卡排前

A 10G-1, 10G-2 –> TOR1

B 10G-3, 10G-4 –> TOR2

接线示例如下

10G-1 接 10GE/1/0/21 | 10G-2 接 10GE/1/0/32

10G-3 接 10GE/2/0/21 | 10G-4 接 10GE/2/0/32

一张 10G 卡 A

A 10G-1 –> TOR1

A 10G-2 –> TOR2

示例如下

10G-1 接 10GE/1/0/21

10G-2 接 10GE/2/0/21

一张集成卡

例如华为 RH2288v5 搭载的 X722 网卡,需要注意电口 1G-1 是第三个网口,前两个口为光口

布线类似 ‘情况 2’

BIOS 设置

BIOS 设置涉及启动模式、启动顺序、特殊机型设置

普适规则

启动模式: Legacy 模式

启动顺序: 1G-1 -> 10G-1 -> 10G-2 -> Hard Disk

特殊设置

不同型号服务器各有一些特殊设置

惠普 HP

惠普机型在资源池中包括 DL360 DL380 DL560 DL580

需关闭该功能,否则单张网卡反复轮询多次,导致部署环节超时报错

Network Boot Retry Support --- [Disabled]

具体配置文档见 [ 惠普DL系列BIOS设置(裸金属).pdf ]

戴尔 DELL

戴尔机型在资源池中包括 R730 R930

在 IPMI 管理界面开启

iDRAC -> 网络 -> IPMI 设置 -> 启用 LAN 上的 IPMI [√]

华为 HUAWEI

华为机型在资源池中包括 RH2288Hv3 RH5288v3 RH5885v3 RH2288Hv5

需要在 RAID 配置中,指定系统 BOOT 设备

v3 与 v5 BIOS 版本不同,设置方式有差异

此外, v3 版本启动顺序为 PXE -> Hard Disk ,不能指定 PXE 内部顺序,v5 版本可以

浪潮 INSPUR

浪潮机型在资源池中包括 NF5280m5 NF5288m5

需要注意 x722 网卡的顺序配置

具体配置文档见 [ 浪潮 NF5288 BIOS 设置(裸金属).pdf ]

曙光 SUGON

曙光机型在资源池中包括 W580 W720

网卡顺序需要在 ‘Network Drive BBS Priorities’ 处设置,’Boot Option #1’ 默认置为其中第一项(1G-1)

部署流程

整个过程共 7 个阶段,可参照 [ 裸金属部署工作流例表.xlsx ] 逐项递进

安全阶段

收集信息

包括 主机名,IPMI IP&Username&Password,机型,1G-1 MAC,共 6 项

Create nodes

注册节点阶段,将节点的主机名、IPMI 地址和账号录入数据库,指令为

# ironic node-create ...

Register port

将 1G-1 MAC 与新增节点相匹配,指令为

# ironic port-create ...

易错阶段

Inspect nodes

检查阶段,通过 1G-1 PXE 电口,传输镜像至目标节点,收集网卡,磁盘,内存等一系列主机信息

核心指令为

# ironic node-set-provision-state NodeName inspect

此阶段可能出现故障 1, 2

*注: 故障类型见下文

Set ports pxe

从 Inspect 阶段收集的所有网口中,筛选含有 LLDP 信息的连接端口

核心指令为 ‘ironic port-update PxePort replace pxe_enabled=true’

此阶段产生的结果若有问题,会在下一 ‘Create portgroups’ 阶段检查报错

Create portgroups

根据 10G 光口收集到的交换机端口信息,两两绑定后将信息写入 Neutron

例如,四个 10GE 光口

10GE/1/0/21 10GE/1/0/32 10GE/2/0/21 10GE/2/0/32

绑定规则

10GE/1/0/21 BOND 10GE/2/0/21 | 10GE/1/0/32 BOND 10GE/2/0/32

此阶段可能出现故障 3, 4, 5

Provide nodes

预部署阶段,通过 10G 光口,传输部署初始化用镜像,执行磁盘清理工作

核心指令为

# ironic node-set-provision-state NodeName provide

此阶段可能出现故障 6, 7, 8

故障类型及处理办法

共 8 种故障,及 5 种异常状态,具体分为 28 种故障原因

1 - IPMI 联通故障

状态:

enroll

故障原因 - 服务器 IPMI 管理线断连

处理办法: 检修管理电口

故障原因 - IPMI 上连带外交换机配置有误

处理办法: 检修带外交换机管理端口配置

2 - Inspect 超时

状态:

inspect failed

故障原因 - 1G-1 启动项在硬盘启动之后

处理办法: BIOS 中将网络启动调整至第一位

故障原因 - 带外交换机 PXE 口配置有误

处理办法: 检查带外交换机 PXE 端口 Vlan 设置

故障原因 - 1G 电口断连

处理办法: 检查接线、网卡状态,确保亮灯

故障原因 - 插错电口

处理办法: 检查网卡 port 编号标记,避免误插 2 号电口

故障原因 - 戴尔服务器 ‘LAN 上的 IPMI’ 未启用

处理办法: 在 IPMI 设置界面勾选

3 - 缺少网口

状态:

manageable

故障原因 - 光口松动、光模块故障、光纤故障、网卡故障、架顶交换机故障

处理办法: 检查接线、硬件维修,确保亮灯,重新 Inspect

故障原因 - 10G 光纤上连架顶交换机端口 LLDP 关闭

处理办法: 打开对应端口 LLDP 功能,重新 Inspect

故障原因 - inspect 收集信息不全

处理办法: 删除旧数据,重新 Inspect

4 - 网口数为 0

状态:

manageable

故障原因 - 环境变量有误

处理办法: 查看 Openrc 文件,确保 API 变量与当前版本一致

故障原因 - 新机型 x722 网卡

处理办法: 使用已补充 x722 网卡驱动的专用镜像

5 - 网口数过多且为偶数

状态:

manageable

故障原因 - 电口插线过多

处理办法: 拔除多余电口网线,保留一根 1G-1 即可

6 - Provide 超时

状态:

clean failed

故障原因 - 10G 光纤布线错误

处理办法: 参照布线规则重新整理

故障原因 - 架顶交换机 10GE/1 与 10GE/2 配反

处理办法: 重新配置架顶交换机端口顺序

故障原因 - BIOS 启动顺序 10G PXE 在 Hard Disk 之后

处理办法: 将 10G PXE 调整到 1G-1 之后,Hard Disk 之前

故障原因 - 单张网卡轮询

处理办法: 关闭网卡多次轮询选项,避免超时

故障原因 - 光口松动、光模块故障、光纤故障、网卡故障、架顶交换机故障

处理办法: 检查接线、硬件维修,确保亮灯,删除节点,重新添加

故障原因 - 3008 阵列卡对大硬盘不支持快速格式化

处理办法: 拔出数据盘,待业务部署完成后插回

故障原因 - 清理磁盘时间过长超时

处理办法: 重新 provide

故障原因 - 10G 光口频繁启停,触发架顶交换机关闭连接端口

处理办法: 检查 inspect 镜像,检修光口,开启架顶交换机端口

故障原因 - Provide 镜像不支持华为最新 3508 阵列卡

处理办法: 暂无法解决,等待 Ubuntu 驱动支持

7 - Kernel Panic

状态:

clean wait

故障原因 - 磁盘清理出错

处理办法: 重新 provide

故障原因 - 清理镜像运行中,硬盘故障

处理办法: 检修硬盘

8 - Provide 卡死

状态:

clean wait

故障原因 - PXE 载入镜像阶段卡死

处理办法: 检修服务器网卡

故障原因 - 磁盘清理镜像持续运行,未能自动关机

处理办法: 检查镜像是否匹配,检查硬盘健康状态

故障原因 - 浪潮 NF5280M5 机型使用 CPU 做系统盘软 RAID

处理办法: 无法解决

故障原因 - Conductor 端信息不同步

处理办法: 将该节点在数据库中状态改为 manageable,重新执行


http://www.ppmy.cn/news/731195.html

相关文章

服务器命名方式大全

服务器命名方式大全 Dell 第一位字母代表服务器类型:M代表模块,指刀片,而R则表示机架,T代表塔式; 所以R710就是机架式服务器,T110则是塔式服务器。 第二位的数字代表是几路服务器:9及以上表示…

SpringBoot运行中动态修改logback日志级别

SpringBoot运行中动态修改logback日志级别 思路:写一个api接口,通过api接口调用的方式动态修改logback的log日志打印级别 这里提供2个接口,分别是修改logback全局日志级别 ,和单独修改某个package包的日志级别 package cn.demo…

C#通过n层循环进行字符组合实现暴力破解MD5

C#通过n层循环进行字符组合实现暴力破解MD5 自动根据待解密的MD5字符串长度&#xff0c;进行处理。 static class Program {/// <summary>/// 应用程序的主入口点。/// </summary>[STAThread]static void Main(){string[] plainArray "0,1,2,3,4,5,6,7,8,9&q…

rng(‘default‘)

产生伪随机数有一个种子&#xff0c;所谓的伪随机就是指有一定“规律”&#xff0c;而这个种子就是这个“规律”。 rng(‘default’)就是用默认种子。不写也是一样的&#xff0c;只要你没改变过种子&#xff0c;matlab刚打开默认就是种子0 默认种子是0&#xff0c;但不代表每次…

在线教育直播平台哪个比较好

凭借线上技术提供的更为精细化的教学服务&#xff0c;在线教育机构除了在自建直播平台之外&#xff0c;也能借助第三方教学直播平台来完成职业教育和素质教育等机构的线上转型。 第三方教学直播平台主要分为流量型和工具型的平台。 第一&#xff0c;流量型教学直播平台。这类平…

AI预测RNG为S12冠军 /富士康欲为特斯拉造车 /周星驰招web3人才...今日更多新鲜事在此...

日报君 发自 凹非寺量子位 | 公众号 QbitAI 大家好&#xff01;今天是周三&#xff01; 最近天气越来越冷&#xff0c;出门前别忘多穿点。 那么&#xff0c;今天科技圈有什么值得关注的事儿&#xff1f; 日报君为你奉上。 富士康欲为特斯拉造车 10月18日&#xff0c;富士康背后…

编码器如何推流给虎牙直播平台

本文链接: https://blog.csdn.net/weixin_45326556/article/details/106333590 编码器如何推流给虎牙直播平台 1. 概要2. 登录虎牙直播平台3. 下载电脑开播工具4. 选择第三方推流5. 立即开播6. 获取直播码7. 填写推流URL8. 推流成功 1. 概要 虎牙直播平台支持第三方推流&…

虎牙继续统治游戏直播市场 RNG夺冠引4400万观看

5月20日&#xff0c;伴随着一声“恭喜RNG”&#xff0c;来自中国LPL赛区的RNG战队以3比1的比分战胜了韩国LCK赛区的KZ战队&#xff0c;获得了本次英雄联盟季中冠军赛的世界冠军。而UZI的签约直播平台虎牙更以近4400万的观看破记录。 这是时隔三年&#xff0c;中国LPL战队再次夺…