(k8s)Kubernetes部署Promehteus

news/2024/9/24 15:56:28/

转载:Kubernetes(k8s)部署Promehteus

 

一、概述

在1.8版本以后heapster由metrics-server替代;从k8s的v1.11版本开始已经全面转向以Prometheus为核心的新监控体系架构;kube-prometheus 中包含了 prometheus 监控所用到的所有组件,当然也包含 prometheus-operator。

Helm中心仓库的PrometheusOperator Chart,在2020年9月已经不维护了,新的Chart在Prometheus Community的Repo中,叫 kube-prometheus-stack,使用时需要先添加该Repo。

heapster-》metrics-server-》prometheus-operator -》kube-prometheus-》kube-prometheus-stack

  • prometheus-operator GitHub地址

  • kube-prometheus GitHub地址

  • kube-prometheus-stack GitHub地址

1)metrics-server简介

metrics-server 通过kubelet(cAdvisor)获取监控数据,主要作用是为kube-scheduler,HPA等k8s核心组件,以及kubectl top命令和Dashboard等UI组件提供数据来源。

【注意】如果要部署prometheus,就不用部署了metrics-server了,否则冲突,推荐只部署prometheus,所以这里也只讲prometheus的部署。

2)Prometheus简介

Prometheus是一个开源监控系统,它前身是SoundCloud的警告工具包。从2012年开始,许多公司和组织开始使用Prometheus。

Prometheus的主要特征有:

  • 多维度数据模型

  • 灵活的查询语言

  • 不依赖分布式存储,单个服务器节点是自主的

  • 以HTTP方式,通过pull模型拉去时间序列数据

  • 也通过中间网关支持push模型

  • 通过服务发现或者静态配置,来发现目标服务对象

  • 支持多种多样的图表和界面展示,grafana也支持它

组件
Prometheus生态包括了很多组件,它们中的一些是可选的:

  • 主服务Prometheus Server负责抓取和存储时间序列数据

  • 客户库负责检测应用程序代码

  • 支持短生命周期的PUSH网关

  • 基于Rails/SQL仪表盘构建器的GUI

  • 多种导出工具,可以支持Prometheus存储数据转化为HAProxy、StatsD、Graphite等工具所需要的数据存储格式

  • 警告管理器

  • 命令行查询工具

  • 其他各种支撑工具

3)Prometheus Operator

Prometheus Operator的本职就是一组用户自定义的CRD资源以及Controller的实现,Prometheus Operator负责监听这些自定义资源的变化,并且根据这些资源的定义自动化的完成如Prometheus Server自身以及配置的自动化管理工作。以下是Prometheus Operator的架构图:

4)metrics-server&Promehteus对比&特性

  • 使用metric-server收集数据给k8s集群内使用,如kubectl,hpa,scheduler等

  • 使用prometheus-operator部署prometheus,存储监控数据

  • 使用kube-state-metrics收集k8s集群内资源对象数据

  • 使用node_exporter收集集群中各节点的数据

  • 使用prometheus收集apiserver,scheduler,controller-manager,kubelet组件数据

  • 使用alertmanager实现监控报警

  • 使用grafana实现数据可视化

5)Prometheus Operator VS kube-prometheus

最开始是Heapster+cAdvisor方式监控,这是Prometheus Operator出现之前的k8s监控方案。后来出现了Prometheus Operator,但是目前Prometheus Operator已经不包含完整功能,完整的解决方案已经变为kube-prometheus。

  • Prometheus Operator 是CoreOS的一个开源项目,用来增强Prometheus在Kubernetes中的管理运维能力。利用Kubernetes的自定义资源定义 (Custom Resource Definition)的特性,实现声明式管理运维Prometheus监控告警系统。

  • kube-prometheus 为基于 Prometheus 和 Prometheus Operator 的完整集群监控堆栈提供示例配置。这包括部署多个 Prometheus 和 Alertmanager 实例、指标导出器(例如用于收集节点指标的 node_exporter)、抓取将 Prometheus 链接到各种指标端点的目标配置,以及用于通知集群中潜在问题的示例警报规则。

  • 两个项目的关系:前者只包含了Prometheus Operator,后者既包含了Operator,又包含了Prometheus相关组件的部署及常用的Prometheus自定义监控,具体包含下面的组件

    1. The Prometheus Operator:创建CRD自定义的资源对象

    2. Highly available Prometheus:创建高可用的Prometheus

    3. Highly available Alertmanager:创建高可用的告警组件

    4. Prometheus node-exporter:创建主机的监控组件

    5. Prometheus Adapter for Kubernetes Metrics APIs:创建自定义监控的指标工具(例如可以通过nginx的request来进行应用的自动伸缩)

    6. kube-state-metrics:监控k8s相关资源对象的状态指标

    7. Grafana:进行图像展示

二、安装kube-prometheus

前面我们学习了Heapster+cAdvisor方式监控,这是Prometheus Operator出现之前的k8s监控方案。后来出现了Prometheus Operator,但是目前Prometheus Operator已经不包含完整功能,完整的解决方案已经变为kube-prometheus。项目地址为:https://github.com/coreos/kube-prometheus。

1)安装git

$ yum install -y git

2)下载kube-prometheus

# 下载
$ git clone https://github.com/prometheus-operator/kube-prometheus.git
$ cd kube-prometheus/manifests
# yaml文件比较多,下面进行归档
$ mkdir -p serviceMonitor prometheus adapter node-exporter blackbox kube-state-metrics grafana alertmanager operator other/{nfs-storage,ingress}
$ mv alertmanager-* alertmanager/ && mv blackbox-exporter-* blackbox/ &&  mv grafana-* grafana/ && mv kube-state-metrics-* kube-state-metrics/ && mv node-exporter-*  node-exporter/ && mv prometheus-adapter-* adapter/ && mv prometheus-* prometheus/ && mv kubernetes-serviceMonitor* serviceMonitor/
$ 

3)修改镜像源

国外镜像源某些镜像无法拉取,我们这里修改prometheus-operator,prometheus,alertmanager,kube-state-metrics,node-exporter,prometheus-adapter的镜像源为国内镜像源。我这里使用的是中科大的镜像源。

# 查找
$ grep -rn 'quay.io' *
# 批量替换
$ sed -i 's/quay.io/quay.mirrors.ustc.edu.cn/g' `grep "quay.io" -rl *`
# 再查找
$ grep -rn 'quay.io' *
$ grep -rn 'image: ' *

4)修改类型为NodePort

为了可以从外部访问prometheus,alertmanager,grafana,我们这里修改promethes,alertmanager,grafana的service类型为NodePort类型。

1、修改prometheus的service
# 设置对外访问端口:30080
$ cat prometheus-service.yaml

2、修改grafana的service
# 设置对外访问端口:30081
$ cat grafana-service.yaml

3、修改alertmanager的service
# 设置对外访问端口:30082
$ cat alertmanager-service.yaml

4、安装CRD和prometheus-operator

【温馨提示】CustomResourceDefinition:自定义资源

$ kubectl apply -f setup/

下载prometheus-operator镜像需要花费几分钟,这里等待几分钟,直到prometheus-operator变成running状态

$ kubectl get pod -n monitoring

5、安装prometheus, alertmanager, grafana, kube-state-metrics, node-exporter等资源
$ kubectl apply -f .

稍等一段时间再查看,查看命名空间monitoring下面的pod状态,直到monitoring命名空间下所有pod都变为running状态,就大功告成了。

$ kubectl get pod -n monitoring

如果上面下载镜像失败,可以使用以下地址下载,当然也可以去hub.docker.com下载。

链接:https://pan.baidu.com/s/1JUx_m-JAJ8gUeJE-Gmhzig
提取码:8888

6、工作流程

Prometheus Server定期从配置好的Exporters/Jobs中拉metrics,或者来着pushgateway发过来的metrics,或者其它的metrics,收集完后运行定义好的alert.rules,记录时间序列或者向Alertmanager推送警报。

7、组件说明
  • node_exporter:用来监控运算节点上的宿主机的资源信息,需要部署到所有运算节点

  • kube-state-metric:prometheus采集k8s资源数据的exporter,能够采集绝大多数k8s内置资源的相关数据,例如pod、deploy、service等等。同时它也提供自己的数据,主要是资源采集个数和采集发生的异常次数统计

  • blackbox_exporter:监控业务容器存活性

  • prometheus-adapter:由于本身prometheus属于第三方的 解决方案,原生的k8s系统并不能对Prometheus的自定义指标进行解析,就需要借助于k8s-prometheus-adapter将这些指标数据查询接口转换为标准的Kubernetes自定义指标。

8、验证
$ kubectl get svc -n monitoring

浏览器访问
prometheus:http://192.168.0.113:30080/

grafana:http://192.168.0.113:30081/login
默认账号/密码:admin/admin

alertmanager:http://192.168.0.113:30082/

9、Grafana添加数据源

1、修改prometheus地址

10、导入DashBoards

dashboards地址:https://grafana.com/grafana/dashboards/
1)从官网下载模板,导入模板

2)kubernetes模板导入(k8s模板)

三、使用Helm3安装kube-prometheus-stack

# 添加repo
$ helm repo add prometheus-community https://prometheus-community.github.io/helm-charts
$ helm repo update
$ helm search repo prometheus-community/prometheus

1)下载kube-prometheus-stack包

# 拉包
$ helm pull prometheus-community/kube-prometheus-stack
# 解包
$ tar -xf kube-prometheus-stack-19.2.3.tgz

查看所需要的镜像,最好提前下载镜像,要不然很大可能会因为下载镜像失败而安装失败。

$ grep -A3 'image:' kube-prometheus-stack/values.yaml

这里提供镜像下载地址,当前也可以去hub.docker.com网站上下载,或者其它地方下载,如果下载不到对应的版本号,可以下载最新的,然后tag一个就行了。

链接:https://pan.baidu.com/s/1NDHckhvVgDngq98BXlHLFw
提取码:8888

2)导入镜像(所有节点都执行)

$ docker image load -i k8s.gcr.io-ingress-nginx-kube-webhook-certgen-v1.0.tar
$ docker image load -i quay.io-prometheus-alertmanager-v0.22.2.tar
$ docker image load -i quay.io-prometheus-operator-prometheus-operator-v0.50.0.tar
$ docker image load -i quay.io-prometheus-prometheus-v2.28.1.tar

3)安装kube-prometheus-stack

# 创建命名空间
$ kubectl create ns kube-prometheus-stack
$ helm install mykube-prometheus-stack kube-prometheus-stack \-n kube-prometheus-stack \--set prometheus-node-exporter.hostRootFsMount=false \--set prometheus.ingress.enabled=true \--set prometheus.ingress.hosts='{prometheus.k8s.local}' \--set prometheus.ingress.paths='{/}' \--set prometheus.ingress.pathType=Prefix \--set alertmanager.ingress.enabled=true \--set alertmanager.ingress.hosts='{alertmanager.k8s.local}' \--set alertmanager.ingress.paths='{/}' \--set alertmanager.ingress.pathType=Prefix \--set grafana.ingress.enabled=true \--set grafana.ingress.hosts='{grafana.k8s.local}' \--set grafana.ingress.paths='{/}' \--set grafana.ingress.pathType=Prefix

这里我没跑起来,机器跑的东西太多,已经不能支撑跑kube-prometheus-stack了,有兴趣的小伙伴可以试试~

发现K8s v1.21+,PSP已经被废弃,不建议使用,完全移除在v1.25版本。再不学习它就学不到了。PSP官方讲解

4)清理

$ helm uninstall mykube-prometheus-stack -n kube-prometheus-stack


http://www.ppmy.cn/news/1529871.html

相关文章

GPU共享技术深度剖析与总结

在人工智能和深度学习领域,GPU(图形处理器)已成为不可或缺的计算工具。随着深度学习模型的规模和复杂性的增加,单个GPU已经难以满足所有训练需求,GPU共享技术应运而生,成为提高训练效率的重要手段。本文将深…

软件架构设计原则

开闭原则 开闭原则(Open-Closed Principle,OCP)是指一个软件实体,应该对扩展的开放的,对于修改是关闭的。开闭就是指拓展与修改两个行为。什么意思呢?就是说对于一个Java对象来讲,你可以去继承它方法和属性,对继承类进行拓展,但是不可以直接修改它的方法和属性。这样提…

Spring Security 详解:保护Java应用的强大盾牌

在Java企业级开发中,安全性始终是一个至关重要的考虑因素。Spring Security作为Spring框架的一个重要子项目,提供了一个功能强大、可高度定制的身份验证和访问控制框架,帮助开发者轻松实现应用程序的安全性管理。本文将详细介绍Spring Securi…

华为---代理ARP简介及示例配置

目录 1. 概念 2. 前提条件 3. 使用环境 4. 工作过程 5. 优点 6. 缺点 7. 示例配置 7.1 示例场景 7.2基本配置 7.3 配置端口隔离 7.4 开启代理ARP 7.4.1 VLAN内代理ARP 7.4.2 VLAN间代理ARP 7.4.3路由式ARP代理 1. 概念 代理ARP(Proxy ARP)&…

WEB攻防- Oracle基本注入

前置知识 1.dual表 此表是Oracle数据库中的一个自带表,为满足查询条件而产生。与MySQL不同的是,在MySQL中查询语句可以直接是:select 1,2,但是在Oracle中就必须跟一个表名,但是如查询日期是没有表的,就可以…

软件设计师の第三章:知识产权

✨博客主页: https://blog.csdn.net/m0_63815035?typeblog 💗《博客内容》:.NET、Java.测试开发、Python、Android、Go、Node、Android前端小程序等相关领域知识 📢博客专栏: https://blog.csdn.net/m0_63815035/cat…

【STM32】PWM

一、 PWM 概述 定义 PWM(Pulse Width Modulation), 脉冲宽度调制。 脉冲: 方波, 频率(freq) 宽度: 高电平的宽度, 占空比(duty) ​ 详细波形如下图。 用途 控制灯光的亮度(手机/平…

力扣 LCR 020 回文子串 -Python

题目链接:LCR 020. 回文子串 - 力扣(LeetCode) 题目描述: 给定一个字符串 s ,请计算这个字符串中有多少个回文子字符串。 具有不同开始位置或结束位置的子串,即使是由相同的字符组成,也会被视…