OpenShift 4 - 多云管理(2) - 配置多集群观察功能

ops/2024/12/18 14:53:51/

《OpenShift / RHEL / DevSecOps 汇总目录》
本文在 OpenShift 4.17 + RHACM 2.12 环境中进行验证。

文章目录

  • 多集群观察技术架构
  • 安装多集群观察功能
  • 监控多集群的运行状态
  • 监控多集群的应用运行
    • 在被管集群监控应用运行
    • 在管理集群监控被管集群的应用运行
  • 参考

多集群观察技术架构

RHACM 可以集中监控被管 OpenShift 集群的运行情况,这是主要通过运行在 RHACM Hub 上的 Multicluster Observability Operator 实现的。如下图,RHACM Hub 通过 Observatorium API Gateway 从被管集群的 Metrics-Collector 获取观察数据后再通过 Thanos 保存到 S3 对象存储中,并通过 Grafana 进行数据展示。
在这里插入图片描述

安装多集群观察功能

以下示例将使用 minio 来存储观察数据:

  1. 在运行 ACM 的集群执行命令安装 minio 环境。注意:在 multicluster-observability-operator/examples/minio/minio-pvc.yaml 中使用了名为 gp2 的 StorageClass 创建文件类型 PVC,可以更换当前集群中可用的 StorageClass。
$ oc new-project open-cluster-management-observability
$ git clone https://github.com/liuxiaoyu-git/multicluster-observability-operator.git
$ oc apply -k multicluster-observability-operator/examples/minio/ -n open-cluster-management-observability
  1. 执行命令可以查看为 thanos 提供的 S3 存储访问方式。
$ oc extract secret/thanos-object-storage --to=- -n open-cluster-management-observability
# thanos.yaml
type: s3
config:bucket: "thanos"endpoint: "minio:9000"insecure: trueaccess_key: "minio"secret_key: "minio123"
  1. 执行命令在 RHACM Hub 中安装“观察”功能。注意:在 multiclusterobservability.yaml 中使用了名为 gp2 的 StorageClass 创建文件类型 PVC,可以更换当前集群中可用的 StorageClass。
$ oc apply -f https://raw.githubusercontent.com/liuxiaoyu-git/rhacm-workshop/master/03.Observability/exercise/multiclusterobservability.yaml -n open-cluster-management-observability
  1. 安装后可以查看在 open-cluster-management-observability 中运行的的 Pod 和部署的资源。
$ oc get pod -n  open-cluster-management-observability
NAME                                                       READY   STATUS    RESTARTS   AGE
endpoint-observability-operator-6678757f7b-ptv9s           1/1     Running   0          8m26s
metrics-collector-deployment-5d77dc68cc-dw55m              1/1     Running   0          8m22s
minio-7cfdffb54b-6knmt                                     1/1     Running   0          33m
observability-alertmanager-0                               4/4     Running   0          8m27s
observability-alertmanager-1                               4/4     Running   0          7m55s
observability-alertmanager-2                               4/4     Running   0          7m23s
observability-grafana-68b8d97758-kvvl5                     3/3     Running   0          8m28s
observability-grafana-68b8d97758-l2m5m                     3/3     Running   0          8m28s
observability-observatorium-api-7d58fc44d9-lqww5           1/1     Running   0          7m50s
observability-observatorium-api-7d58fc44d9-qqshk           1/1     Running   0          7m53s
observability-observatorium-operator-6fc6567b69-7lzd2      1/1     Running   0          8m29s
observability-rbac-query-proxy-64464bcf75-g6tpv            2/2     Running   0          8m27s
observability-rbac-query-proxy-64464bcf75-m2gcb            2/2     Running   0          8m27s
observability-thanos-compact-0                             1/1     Running   0          8m18s
observability-thanos-query-d88f57fb5-5x8q6                 1/1     Running   0          8m18s
observability-thanos-query-d88f57fb5-b947p                 1/1     Running   0          8m18s
observability-thanos-query-frontend-8c97b5775-4st2v        1/1     Running   0          8m18s
observability-thanos-query-frontend-8c97b5775-hgx9b        1/1     Running   0          8m18s
observability-thanos-query-frontend-memcached-0            2/2     Running   0          8m18s
observability-thanos-query-frontend-memcached-1            2/2     Running   0          8m15s
observability-thanos-query-frontend-memcached-2            2/2     Running   0          8m12s
observability-thanos-receive-controller-7d48bcbc66-ndgjx   1/1     Running   0          8m18s
observability-thanos-receive-default-0                     1/1     Running   0          8m18s
observability-thanos-receive-default-1                     1/1     Running   0          7m59s
observability-thanos-receive-default-2                     1/1     Running   0          7m51s
observability-thanos-rule-0                                2/2     Running   0          8m18s
observability-thanos-rule-1                                2/2     Running   0          8m
observability-thanos-rule-2                                2/2     Running   0          7m39s
observability-thanos-store-memcached-0                     2/2     Running   0          8m18s
observability-thanos-store-memcached-1                     2/2     Running   0          8m15s
observability-thanos-store-memcached-2                     2/2     Running   0          8m12s
observability-thanos-store-shard-0-0                       1/1     Running   0          8m18s
observability-thanos-store-shard-1-0                       1/1     Running   0          8m18s
observability-thanos-store-shard-2-0                       1/1     Running   0          8m18s
uwl-metrics-collector-deployment-74f6dbcbdb-4zhxn          1/1     Running   0          8m22s

在这里插入图片描述

  1. 成功部署“观察”后可以在 ACM 控制台的 Clusters 页面中右上方看到 Grafana 链接。
    在这里插入图片描述

监控多集群的运行状态

  1. 进入 Grafana 后可以看到被管集群的运行状态。
    在这里插入图片描述
  2. 进入上图的一个集群,可以查看该集群的运行情况。
    在这里插入图片描述
  3. 查看被管集群,确认在 open-cluster-management-addon-observability 项目中有以下 Pod 运行。
$ oc get pod -n open-cluster-management-addon-observability
NAME                                               READY   STATUS    RESTARTS   AGE
endpoint-observability-operator-795464bd6c-8qrr8   1/1     Running   0          75m
metrics-collector-deployment-dfc647-lsgqt          1/1     Running   0          75m
  1. 进入 Grafana 的 Dashborads,可以看到下图显示的预制仪表盘。可进入这些仪表盘查看。
    在这里插入图片描述
  2. 在管理集群中执行以下命令,将 observability-thanos-query-frontend 服务暴露为 Route,然后用浏览器打开 Route 地址。
$ oc expose svc observability-thanos-query-frontend --name=query-frontend -n open-cluster-management-observability
$ oc get route query-frontend -n open-cluster-management-observability -ojsonpath={.spec.host}
  1. 在 metrics 中可以看到所有可用的查询指标。
  2. 在 Thanos Query 页面中查询 cluster:capacity_cpu_cores:sum 可以看到每个被管集群的 CPU 总量。
    在这里插入图片描述

监控多集群的应用运行

在被管集群监控应用运行

参照《OpenShift 4 - 用 Prometheus 和 Grafana 监视用户应用定制的观测指标(视频)》。

  1. 在被群集群中编辑 cluster-monitoring-config 对象,将 enableUserWorkload 设为 true,主要就可对对用户负载进行监控。
$ oc edit ConfigMap cluster-monitoring-config -n openshift-monitoringapiVersion: v1
kind: ConfigMap
metadata:name: cluster-monitoring-confignamespace: openshift-monitoring
data:config.yaml: |enableUserWorkload: true
  1. 在被管集群部署测试用的 nginx。
$ git clone https://github.com/liuxiaoyu-git/openshift-demos.git
$ cd openshift-demos/workload-monitoring-for-user-defined-projects
$ oc create -k deploy
  1. 进入控制台的 “观察 -> 指标” 菜单,在指标页面中将 nginx_http_requests_total 填入 “表达式” 中,确认可以查出 nginx 的监控指标。
    在这里插入图片描述

在管理集群监控被管集群的应用运行

  1. 在管理集群中创建名为 observability-metrics-custom-allowlist 的 ConfigMap,其中定义了可以从被管集群中访问的 Metrics。
$ oc apply -n open-cluster-management-observability -f - << EOF
kind: ConfigMap
apiVersion: v1
metadata:name: observability-metrics-custom-allowlist
data:metrics_list.yaml: |names:- nginx_http_requests_total- nginx_up- nginx_connections_active- nginx_exporter_build_info- nginx_connections_handled- nginx_connections_reading- nginx_connections_waiting- nginx_connections_writing- nginx_connections_accepted
EOF
  1. 在 ACM 管理集群的 Grafana 控制台中进入 Metrics 菜单,然后点击 New metrics exploration 按钮。
  2. 然后在 Search metrics 中查找和 nginx 相关的项目。
    在这里插入图片描述
  3. 在上图中的 nginx_http_requests_total 区域点击右侧的 Select。
  4. 可以看到图中的数据已经变为 per-second rate 显示。
    在这里插入图片描述
  5. 可在 Metrics 页面中为显示的监控图增加适当的 Lable。
    在这里插入图片描述
  6. 在 Grafana 控制台中进入 Explore 菜单,在 A 区域的 Metric 中填入 nginx_http_requests_total,然后点击页面右侧的 Run query 按钮。此时会显示 nginx_http_requests_total 的监控图。
    在这里插入图片描述

参考

https://github.com/michaelkotelnikov/rhacm-workshop
https://github.com/wael2000/rh-rhacm-workshop
https://github.com/stolostron/multicluster-observability-operato
https://medium.com/@dlakshma/multi-cluster-observability-with-red-hat-acm-39f6b3cdbbe4
https://docs.google.com/document/d/1mdY6J6Jimsw7A2n7sv9vFjzM2IHD8-Ku9ZNy2iKfgb8/edit?tab=t.0
https://www.redhat.com/en/blog/observability-for-istio-multicluster-service-mesh-in-red-hat-advanced-cluster-management-for-kubernetes
https://www.redhat.com/en/blog/leveraging-netobserv-metrics-red-hat-advanced-cluster-management-kubernetes
https://www.redhat.com/en/blog/observability-across-openshift-cluster-boundaries-with-distributed-data-collection
https://www.redhat.com/en/blog/custom-queries-for-observability-using-grafana-and-apis
https://www.redhat.com/en/blog/your-guide-to-openshift-observability-part-1
https://github.com/liuxiaoyu-git/openshift-demos/blob/master/workload-monitoring-for-user-defined-projects/README.md


http://www.ppmy.cn/ops/142935.html

相关文章

CSDN博客:如何使用Python的`datasets`库转换音频采样率

CSDN博客&#xff1a;如何使用Python的datasets库转换音频采样率 什么是采样率&#xff1f;代码用途&#xff1a;调整音频数据的采样率完整代码示例代码详解运行结果&#xff08;示例&#xff09;总结 在这篇文章中&#xff0c;我们将学习如何使用Python的datasets库对音频数据…

ios swift 开发系列--如何把粤语转语音

在Swift中&#xff0c;我们可以使用AVSpeechSynthesizer进行文本到语音的转换&#xff0c;我们通过设置AVSpeechUtterance的voice属性来指定朗读的语言和口音。 要确保朗读的是粤语&#xff0c;我们应该使用一个特定的语言代码&#xff0c;例如"zh-Hant-HK"&#xf…

Python+OpenCV系列:膨胀和腐蚀——图像形态学操作深度解析

文章目录 什么是膨胀&#xff08;Dilation&#xff09;&#xff1f;什么是腐蚀&#xff08;Erosion&#xff09;&#xff1f;膨胀和腐蚀如何工作&#xff1f;如何在Python中使用OpenCV实现膨胀和腐蚀&#xff1f;**1. 图像膨胀****2. 图像腐蚀****3. 膨胀与腐蚀的组合使用****调…

【JavaEE初阶】线程 和 thread

本节⽬标 认识多线程 掌握多线程程序的编写 掌握多线程的状态 一. 认识线程&#xff08;Thread&#xff09; 1概念 1) 线程是什么 ⼀个线程就是⼀个 "执⾏流". 每个线程之间都可以按照顺序执⾏⾃⼰的代码. 多个线程之间 "同时" 执⾏着多份代码. 还…

SQL 中的 JOIN(JOIN 简化与提速系列 1)

连接运算&#xff08;JOIN&#xff09;一直是 SQL 中的老大难问题。在关联表稍多一点的时候&#xff0c;代码书写就变得很容易出错了。而且因为 JOIN 语句的复杂&#xff0c;导致关联查询也一向是 BI 软件的软肋&#xff0c;几乎没有 BI 软件能让业务用户顺畅地完成多表关联查询…

linux 20.04 安装sougou输入法 重启 可视化界面 无法点击

在Linux 20.04&#xff08;Ubuntu 20.04&#xff09;系统中安装搜狗输入法后&#xff0c;如果遇到重启后可视化界面无法点击的问题&#xff0c;这通常是由于搜狗输入法或其依赖的输入法框架&#xff08;如fcitx&#xff09;与系统的某些部分不兼容所导致的。以下是一些可能的解…

使用git bash本地创建分支并将分支提交到远程仓库

第一次推送分支到远程仓库 步骤1&#xff1a;进入本地项目目录 打开 Git Bash。通过以下命令进入你的本地项目目录&#xff1a; cd /path/to/your/project步骤2&#xff1a;添加远程仓库 git remote add origin <远程仓库URL> 例子&#xff1a; git remote add orig…

【深度学习总结】使用PDF构建RAG:结合Langchain和通义千问

【深度学习总结】使用PDF构建RAG&#xff1a;结合Langchain和通义千问 使用平台&#xff1a;趋动云&#xff0c;注册送算力 前言 在大型语言模型&#xff08;LLMs&#xff09;应用领域&#xff0c;我们面临着大量挑战&#xff0c;从特定领域知识的匮乏到信息准确性的窘境&am…