集群管理
单机部署
单机部署为管理平台为用户提供单个组件安装部署的功能,弥补集群部署功能中无法单独安装某个组件的缺陷。具体功能说明与操作步骤请参考安装部署文档。
部署环境体检
部署评分体检是一套专门为计算节点群量身打造的运行环境体检评分功能。用户无论是通过手动安装还是管理平台部署的集群,都可以使用该功能对集群环境进行评测。评测后将展示出整个集群五大维度接近140个体检细分项目的体检结果,并支持导出体检结果记录。
功能入口: 登录管理用户界面->计算节点集群->部署环境体检
体检维度:
体检维度 | 体检项 |
---|---|
硬件资源 | 服务器属性 |
磁盘空间 | |
磁盘IO响应时间 | |
内存 | |
CPU | |
网络质量 | |
操作系统 | 定时调度 |
sysctl.conf | |
时间同步 | |
可连接外网 | |
防火墙与selinux | |
yum | |
时区 | |
tune | |
limits.cnf | |
字符集设置 | |
SSH连接 | |
软件部署 | 备份程序 |
存储节点客户端 | |
存储节点服务端 | |
Java环境 | |
软件配置 | 存储节点连接 |
存储节点高可用 | |
计算节点启动脚本 | |
配置库 | |
存储节点磁盘空间 | |
存储节点参数配置 | |
存储节点用户权限 | |
server.xml | |
计算节点高可用 | |
监听端口 | |
基础功能验证 | 存储节点高可用切换 |
计算节点高可用切换 | |
逻辑库权限 | |
备份程序 | |
10秒性能测试 |
体检面板:
体检面板内容说明
体检面板显示最近一次成功体检完的集群报告概览。
-
得分: 左侧分数球为体检总得分情况。得分根据集群体检项的体检结果来计分,总分为100,体检中若对应的体检项不符合评判标准则扣除该项占比分数,符合标准的不扣分也不加分。当总分被扣完或扣除分数大于100时,体检得分为0。
-
体检项: 体检项为计算节点集群在体检时所需要体检的项目个数,不同模式的计算节点集群或不同复制模式的存储节点都会影响体检项目的数量。上图中未达标为该次体检中不符合评判标准的体检项目数量,警示项为体检中不涉及扣分但是需引起关注的体检项目数量,合格项为符合评判标准的体检项目数量。
-
雷达图: 雷达图展示体检中五个维度的扣分情况,若该维度扣分越少即高亮部分越接近雷达图边界代表该维度体检良好。鼠标移入雷达图内可查看每个维度的详细扣分以及该维度所有体检项的占比总分。
发起环境体检:
在部署环境体检页面可通过点击【环境体检】按钮来发起对集群运行环境的体检任务。发起后可选择需要体检的计算节点集群(停止监控的集群不支持发起体检,集群选择下拉框会自动过滤该类集群),提交任务后会对当前集群环境进行预检测,若预检测不通过则发起任务失败。
预检测项
- 集群所有服务器已配置可用的SSH信息且用户为root 或具有sudo操作权限的用户
- 集群所有相关组件程序正常运行
- 集群至少配置一个数据节点和一个逻辑库
注意
集群所有相关组件程序的状态检测依赖于频率为2分钟的定时检测任务,所以可能存在当前检测状态与实际组件状态有2分钟的检测误差。
体检报告详情:
成功完成的体检任务会生成一份体检报告,可通过点击任务记录中操作栏的> 详情按钮进入“体检报告详情页面”。
体检报告说明
体检报告默认筛选展示未达标与警示的体检项,5可通过点击不同维度展开该维度的详细体检项信息。每个维度标题中出现的红色与橙色圆点代表该维度下存在未达标或警示的体检项,维度内的每个tab标签是该维度下的具体体检项目。Tab标签右上角的红色与橙色标识与上述圆点代表意思一致。
体检项:该维度下的具体体检项目
体检结果:体检项的体检结果包括未达标、警示、合格
扣分情况:该体检项实际扣分
异常对象:不符合该体检项评判标准的服务器或应用程序实例
提示:未达标或警示的体检项告知用户该项存在的风险或建议
评判标准:是否通过检测的程序评判标准
服务管理
服务管理主要是对计算节点集群内的核心组件(计算节点、计算节点配置库、存储节点、keepalived、lvs、备份程序、监听程序)进行重启、启动、关闭服务以及存储节点CPU隔离的操作。
-
服务管理主页面显示已监控的集群的所有组件信息,并可通过服务管理列表上方的各个搜索过滤框进行数据筛选。
-
若存储节点、配置库、KEEPALIVED、LVS不是通过集群部署安装的,则提示当前集群存在部分组件未通过平台进行部署,请优先确认服务管理命令是否配置正确,点击“服务命令管理”超链接则进入命令配置页面,点击“已确认”按钮则关闭该提示。
服务管理页面每页显示20条数据,超出20条则需翻页。
服务管理表格参数说明:
全选项: “仅当前页全选”在执行批量操作时,只执行当页操作选项;“全选所有”在执行批量操作时,所有集群的所有组件均执行(全选所有时,不支持单项取消)。
所属集群: 默认显示所有已开启监控的集群信息,管理平台及平台配置库此项为“-”,可排序。
服务类型: 默认显示各已有的服务组件类型,集群中不存在的服务组件不显示,可排序。
主机名: 显示各服务组件对应的服务器IP,可排序。
端口: 显示各服务组件对应的端口号(计算节点为服务端口/管理端口、KEEPALIVED/LVS为“-”),可排序。
角色: 显示各服务组件对应的角色类型(多节点集群模式的计算节点需显示为PRIMARY/SECONDARY,备份程序和监听程序为“-”,可排序。
所属机房: 根据各服务组件对应机房显示为“单机房”“中心机房”“灾备机房”,管理平台及平台配置库此项为“-”,可排序。
数据目录: 显示各服务组件对应的数据目录(组件为初次配置且SSH无法连接、KEEPALIVED\LVS非自动部署时均显示对应警告提示)。
状态: 显示各服务组件当前运行状态,组件对应的SSH未配置或服务器无法连接时显示警告提示“服务器无法连接或未配置SSH连接信息”,可排序。
操作:【启动】【关闭】【重启】,组件不同状态下显示对应的图标按钮。
关闭服务
组件关闭成功后状态变更为“停止运行”且页面3s即逝提醒:服务关闭成功。
组件非自动部署安装时,按服务配置中配置的命令执行关闭,若服务配置中未配置,则按照默认的关闭命令关闭组件服务。
单次关闭
- 点击关闭图标按钮对需要关闭的组件服务进行关闭。
- 关闭组件时均给出确认提示说明,具体提示内容根据不同类型组件的不同角色类型进行提示,如关闭主计算节点提示如下:
- 关闭的组件实际状态为已关闭时,页面弹窗提示:操作对象服务已关闭,请刷新当前页面获取最新状态。
- 若关闭组件失败(此处执行关闭后,若3分钟仍未关闭成功也视为关闭失败,状态由“正在关闭…”变更回“正在运行”),关闭失败则弹窗提示,并可通过点击“操作日志详情”超链接查看失败详情信息。
批量关闭
- 选择需要关闭的服务组件后,点击批量关闭按钮。
- 执行批量关闭时,需要再次确认每个选择项是否执行并给出相对应的隐患提示说明,其中计算节点配置库默认为取消执行,其余组件均默认为确认继续执行。点击“全部确认”按钮则按每个组件选择对应的策略执行关闭,点击“取消”按钮则取消当前批量操作。
- 若所选组件实际状态存在已关闭的情况,页面弹窗提示:部分/全部操作对象已关闭,请刷新当前页面获取最新状态。
- 批量关闭时,若中途存在关闭失败的组件,则后续类型的组件均停止关闭操作,报关闭失败并可通过点击弹窗中的“操作日志详情”超链接查看失败详情信息。
-
若所选组件均是已关闭状态的组件,则会3s即逝提醒:当前服务已经是停止运行的状态。
-
所有组件关闭顺序依次为keepalived、lvs、计算节点、存储节点、配置库、备份程序、监听程序。
-
批量关闭采用串行的方式,按照依赖关系在成功关闭当前组件后继续下一个组件,一个组件的关闭失败不影响同类型组件的操作(如关闭的组件包含计算节点、存储节点类型,在批量关闭时其中一个计算节点关闭失败了,此时不影响其他计算节点的关闭,但存储节点会直接关闭失败。
启动服务
-
组件启动成功后状态变更为“正在运行”且页面3s即逝提醒:服务启动成功。
-
组件非自动部署安装时,按服务配置中配置的命令执行启动,若服务配置中未配置,则按照默认的关闭命令启动组件服务。
单次启动
- 点击启动图标按钮对需要启动的组件服务进行启动。
-
存储节点、计算节点配置库、平台配置库、监听程序、备份程序、LVS均可直接启动,无需再次确认,管理平台需人工启动。
-
集群处于待重建状态、待修复机房状态时,计算节点需修复相关故障后才能做启动操作。
-
KEEPALIVED启动时,需先启动与之对应的计算节点,且在启动备的KEEPALIVED时需先启动主的KEEPALIVED。
-
启动的组件实际状态为已启动时,页面弹窗提示:操作对象服务已启动,请刷新当前页面获取最新状态。
-
启动的计算节点可能会导致双写时,需人工确认是否继续执行启动操作。
- 若启动组件失败(此处执行启动后,若3分钟仍未启动成功也视为启动失败,状态由“正在启动…”变更回“停止运行”),启动失败则弹窗提示,并可通过点击“操作日志详情”超链接查看失败详情信息:
批量启动
- 选择需要启动的服务组件后,点击批量启动按钮。
- 执行批量启动时,需要再次确认每个选择项是否执行并在不符合启动条件时给出特殊说明,对于不符合启动条件的部分组件,启动策略默认且只能选择取消执行。点击“全部确认”按钮则按每个组件选择对应的策略执行启动,点击“取消”按钮则取消当前批量操作。
-
若所选组件实际状态存在已启动的情况,页面弹窗提示:部分/全部操作对象已启动,请刷新当前页面获取最新状态。
-
批量启动时,若中途存在启动失败的组件,则后续类型的组件均停止启动操作,报启动失败并可通过点击弹窗中的“操作日志详情”超链接查看失败详情信息:
-
若所选组件均是已启动状态的组件,则会3s即逝提醒:当前服务已经是启动的状态。
-
所有组件启动顺序依次为配置库、存储节点、监听程序、备份程序、计算节点、keepalived、lvs。
-
批量启动采用串行的方式,按照依赖关系在成功启动当前组件后继续下一个组件,组件内的部分服务关闭失败不影响组件内的其他服务启动(如:集群内其中一个存储节点启动失败,不影响其他存储节点的启动)。
重启服务
-
服务重启操作即为先停止服务操作,然后重新启动服务。
-
组件重启成功后状态变更为“正在运行”且页面3s即逝提醒:服务重启成功。。
-
组件非自动部署安装时,按服务配置中配置的命令执行启动,若服务配置中未配置,则按照默认的关闭命令启动组件服务。
单次重启
- 点击重启图标按钮对需要重启的组件服务进行重启。
- 服务重启时也会根据具体需要重启的组件进行二次确认操作(由于重启时先停止服务,故二次确认提示和关闭时提示一致)。
批量重启
- 选择需要重启的服务组件后,点击批量重启按钮。
- 批量重启需要对各个待重启组件二次确认。
-
批量重启实质是先对所选组件执行批量关闭,然后在执行批量启动。
-
批量重启时,若中途存在关闭失败或启动失败的组件时,后续操作不再继续。
服务配置
服务配置主要对非自研(如MySQL、KEEPALIVED、LVS)及未通过集群部署功能部署的程序进行服务命令管理,防止在特殊场景下,无法正确使用启动/关闭服务的命令导致功能无法使用,新增存储节点CPU隔离的操作。
服务命令配置入口
- 服务命令配置入口
- 可通过点击“服务管理命令”超链接进入服务命令配置页面。
- 可通过更多按钮展开的服务配置选项进入服务命令配置页面。
- 服务配置页面也可通过页面上方的各项过滤搜索框过滤有效信息。
- 点击服务命令编辑按钮配置服务启动/关闭命令。
- 配置命令后,点击 保存命令配置。
- 勾选“仅在当前程序关联的集群组内同步”则在点击“是”后将该命令同步至该集群组内所有相关组件,若是存储节点则自动匹配端口号;未勾选“仅在当前程序关联的集群组内同步”时则将配置命令同步至所有集群;点击“否”则不同步任何其他程序。
- 通过普通用户管理页面命令配置,无“仅在当前程序关联的集群组内同步”勾选框
存储节点CPU隔离
管理平台支持存储节点CPU隔离,利用Cgroup将存储节点实例绑定到不同的CPU核心。
- 存储节点CPU隔离入口
可通过更多按钮展开的服务配置选项进入服务配置页面进行存储节点CPU隔离操作。
- 点击CPU核数编辑按钮配置存储节点分配的CPU核数。
- 在输入框内填写CPU核数后,点击绿勾保存配置
1.输入框内只能填写0~100之间的正整数,0表示共享CPU资源,不隔离,其余数值则表示分配多少CPU核数;
2.点击保存按钮后,提示“是否将该配置同步到其他存储节点”,可根据实际需要进行选择;
3.选择“将该配置同步到所有存储节点”,则将所有主机上的存储节点存储节点的核数都设置为相同值;若其他主机上存在存储节点未启动,则跳过该主机,其余主机上则继续配置;
4.选择“将该配置同步到该主机下存储节点”,则将该主机上的所有存储节点存储节点的核数都设置为相同值;若该主机上存在存储节点未启动,则无法同步到该主机下所有存储节点,弹窗提示需启动后再配置;
5.选择“不同步”,则仅修改当前实例;
6.暂仅支持存储节点CPU隔离,其他组件暂不支持;
7.保存CPU核数时会校验填写值是否超过该存储节点所在服务器上可用CPU核数。每台服务器为系统预留2个CPU核数不进行分配,剩余CPU核数为可用CPU核数。若填写值超过可用CPU核数,则弹窗提示修改配置。
- CPU核数保存成功后,对应存储节点CPU隔离立即生效
- 在对应存储节点所在服务器/data目录下,生成cpu_info.txt文件记录存储节点CPU核数分配情况
操作记录
- 操作记录列表详细记录了每次服务操作的具体信息,包含所属集群、操作对象、操作类型、操作用户、操作开始时间、操作结束时间、操作结果、操作日志。
1、管理员页面只能查看管理员页面执行的操作记录,普通用户页面只能查看普通用户页面执行的操作记录
2、管理员用户页面的操作记录列表包含所属集群列,而普通用户页面的操作记录列表只显示当前集群的操作记录,故没有所属集群列
3、点击“点击查看日志详情”超链接可查看当次的服务操作详情
- 操作日志详情记录执行服务操作的详情信息,如执行的命令、服务启动失败原因、每个组件启动的具体时间