ChaosBlade混沌测试实践

devtools/2024/12/22 9:14:30/

ChaosBlade: 一个简单易用且功能强大的混沌实验实施工具

官方仓库:https://github.com/chaosblade-io/chaosblade

1. 项目介绍

ChaosBlade 是阿里巴巴开源的一款遵循混沌工程原理和混沌实验模型的实验注入工具,帮助企业提升分布式系统的容错能力,并且在企业上云或往云原生系统迁移过程中业务连续性保障。

Chaosblade 是内部 MonkeyKing 对外开源的项目,其建立在阿里巴巴近十年故障测试和演练实践基础上,结合了集团各业务的最佳创意和实践。

ChaosBlade 不仅使用简单,而且支持丰富的实验场景,场景包括:

  • 基础资源:比如 CPU、内存、网络、磁盘、进程等实验场景;
  • Java 应用:比如数据库、缓存、消息、JVM 本身、微服务等,还可以指定任意类方法注入各种复杂的实验场景;
  • C++ 应用:比如指定任意方法或某行代码注入延迟、变量和返回值篡改等实验场景;
  • Docker 容器:比如杀容器、容器内 CPU、内存、网络、磁盘、进程等实验场景;
  • 云原生平台:比如 Kubernetes 平台节点上 CPU、内存、网络、磁盘、进程实验场景,Pod 网络和 Pod 本身实验场景如杀 Pod,容器的实验场景如上述的 Docker 容器实验场景;

将场景按领域实现封装成一个个单独的项目,不仅可以使领域内场景标准化实现,而且非常方便场景水平和垂直扩展,通过遵循混沌实验模型,实现 chaosblade cli 统一调用。目前包含的项目如下:

  • chaosblade:混沌实验管理工具,包含创建实验、销毁实验、查询实验、实验环境准备、实验环境撤销等命令,是混沌实验的执行工具,执行方式包含 CLI 和 HTTP 两种。提供完善的命令、实验场景、场景参数说明,操作简洁清晰。
  • chaosblade-spec-go: 混沌实验模型 Golang 语言定义,便于使用 Golang 语言实现的场景都基于此规范便捷实现。
  • chaosblade-exec-os: 基础资源实验场景实现。
  • chaosblade-exec-docker: Docker 容器实验场景实现,通过调用 Docker API 标准化实现。
  • chaosblade-exec-cri: 容器实验场景实现,通过调用 CRI 标准化实现。
  • chaosblade-operator: Kubernetes 平台实验场景实现,将混沌实验通过 Kubernetes 标准的 CRD 方式定义,很方便的使用 Kubernetes 资源操作的方式来创建、更新、删除实验场景,包括使用 kubectl、client-go 等方式执行,而且还可以使用上述的 chaosblade cli 工具执行。
  • chaosblade-exec-jvm: Java 应用实验场景实现,使用 Java Agent 技术动态挂载,无需任何接入,零成本使用,而且支持卸载,完全回收 Agent 创建的各种资源。
  • chaosblade-exec-cplus: C++ 应用实验场景实现,使用 GDB 技术实现方法、代码行级别的实验场景注入。

2. 使用文档

你可以从 Releases 地址下载最新的 chaosblade 工具包,解压即用。如果想注入 Kubernetes 相关故障场景,需要安装 chaosblade-operator,详细的中文使用文档请查看 chaosblade-help-zh-cn。

chaosblade 支持 CLI 和 HTTP 两种调用方式,支持的命令如下:

  • prepare:简写 p,混沌实验前的准备,比如演练 Java 应用,则需要挂载 java agent。例如要演练的应用名是 business,则在目标主机上执行 blade p jvm --process business。如果挂载成功,返回挂载的 uid,用于状态查询或者撤销挂载。
  • revoke:简写 r,撤销之前混沌实验准备,比如卸载 java agent。命令是 blade revoke UID
  • create: 简写是 c,创建一个混沌演练实验,指执行故障注入。命令是 blade create [TARGET] [ACTION] [FLAGS],比如实施一次 Dubbo consumer 调用 xxx.xxx.Service 接口延迟 3s,则执行的命令为 blade create dubbo delay --consumer --time 3000 --service xxx.xxx.Service,如果注入成功,则返回实验的 uid,用于状态查询和销毁此实验使用。
  • destroy:简写是 d,销毁之前的混沌实验,比如销毁上面提到的 Dubbo 延迟实验,命令是 blade destroy UID
  • status:简写 s,查询准备阶段或者实验的状态,命令是 blade status UID 或者 blade status --type create
  • server:启动 web server,暴露 HTTP 服务,可以通过 HTTP 请求来调用 chaosblade。例如在目标机器xxxx上执行:blade server start -p 9526,执行 CPU 满载实验:curl "http:/xxxx:9526/chaosblade?cmd=create%20cpu%20fullload"

以上命令帮助均可使用 blade help [COMMAND] 或者 blade [COMMAND] -h 查看,也可查看新手指南,或者上述中文使用文档,快速上手使用。

3. 安装

可以选择编译安装或者使用容器镜像

3.1 主机安装

访问chaosblade下载最新版本的安装包并解压到系统path路径,目前仅支持X86架构。

3.2 容器安装运行

docker pull chaosbladeio/chaosblade-demodocker pull chaosbladeio/chaosblade-demo
docker run -it --privileged chaosbladeio/chaosblade-demo
# 进入镜像之后,可阅读 README.txt 文件实施混沌实验
bash-4.4# ls
README.txt  bin         blade       lib

3.3 k8s安装

helm repo add chaosblade-io https://chaosblade-io.github.io/charts
helm install chaosblade chaosblade-io/chaosblade-operator --namespace chaosblade
# 默认的镜像仓库是`ghcr.io/chaosblade-io/chaosblade-tool` and `ghcr.io/chaosblade-io/chaosblade-operator`, 增加参数`--set blade.repository` 或者 `--set operator.repository` 修改镜像仓库,例如下:
helm install chaosblade-operator chaosblade-io/chaosblade-operator --namespace chaosblade --set blade.repository=chaosbladeio/chaosblade-tool,operator.repository=chaosbladeio/chaosblade-operator # 卸载
helm uninstall chaosblade-operator --namespace chaosblade

3.4 编译安装

此项目采用 golang 语言编写,所以需要先安装最新的 golang 版本,最低支持的版本是 1.11。Clone 工程后进入项目目录执行以下命令进行编译:

# 下载项目
https://github.com/chaosblade-io/chaosblade.git
# 编译安装,默认会安装全部测试场景
cd chaosblade
make build

如果在 mac 系统上,编译当前系统的版本,请执行:

make build_darwin

如果想在 mac 系统上,编译 linux 系统版本,请执行:

make build_linux

也可以选择性编译,比如只需要编译 cli、os 场景,则执行:

make build_with cli os
# 如果是 mac 系统,执行
make build_with cli os_darwin
# 如果是 mac 系统,想选择性的编译 linux 版本的 cli,os,则执行:
ARGS="cli os" make build_with_linux

Arch Linux 安装 chaosblade-bin

yay -S chaosblade-bin

4. 实践测试

4.1 帮助文档

 ./blade --help
An easy to use and powerful chaos engineering experiment toolkitUsage:blade [command]Available Commands:check       Check the environment for chaosbladecreate      Create a chaos engineering experimentdestroy     Destroy a chaos experimenthelp        Help about any commandprepare     Prepare to experimentquery       Query the parameter values required for chaos experimentsrevoke      Undo chaos engineering experiment preparationstatus      Query preparation stage or experiment statusversion     Print version infoFlags:-d, --debug   Set client to DEBUG mode-h, --help    help for blade

支持构造的试验场景,从下面的命令输出可以看到支持C++、CPU、磁盘、容器、dubbo、http、jvm、k8s、mysql、网络、进程、mq、脚本、java servlet等场景或组件的测试试验。

# ./blade create --help
Create a chaos engineering experimentUsage:blade create [command]Aliases:create, cExamples:
blade create cpu load --cpu-percent 60Available Commands:aliyun      Aliyun experimentaws         Aws experimentck          Clickhouse experimentcpu         Cpu experimentcri         CRI experimentdisk        Disk experimentdruid       Experiment with the Druiddubbo       Experiment with the Dubboes          ElasticSearch experiment!feign       feign experimentfile        File experimentgateway     gateway experiment!hbase       hbase experiment!http        http experimentjedis       jedis experimentjvm         Experiment with the JVMk8s         Kubernetes experimentkafka       kafka experimentlettuce     redis client lettuce experimentlog         log experimentmem         Mem experimentmongodb     MongoDB experimentmysql       mysql experimentnetwork     Network experimentnginx       Nginx experimentprocess     Process experimentpsql        Postgrelsql experimentrabbitmq    rabbitmq experimentredis       Redis experimentredisson    redisson experimentrocketmq    Rocketmq experiment,can make message send or pull delay and exceptionscript      Script chaos experimentsecurity    SpringSecurity login experimentservlet     java servlet experimentstrace      strace experimentsystemd     Systemd experimenttars        tars experimenttime        Time experimentzk          zk experimentFlags:-a, --async             whether to create asynchronously, default is false-e, --endpoint string   the create result reporting address. It takes effect only when the async value is true and the value is not empty-h, --help              help for create-n, --nohup             used to internal async create, no need to config--uid string        Set Uid for the experiment, adapt to docker and criGlobal Flags:-d, --debug   Set client to DEBUG modeUse "blade create [command] --help" for more information about a command.

备注

二进制主机版本的功能较容器形态的功能较丰富,建议使用二进制版本。

4.2 测试案例

部分测试案例总结如下。

jvm异常测试
# 运行容器
docker run -it --privileged chaosbladeio/chaosblade-demo
# 容器中运行了一个dubbo示例程序,执行如下命令可以看到程序的功能
bash-4.4# curl http://localhost:8080/dubbo/hello?name=dubbo
Hello dubbo, response from provider: 172.17.0.2:20880
bash-4.4# netstat -tulnp
Active Internet connections (only servers)
Proto Recv-Q Send-Q Local Address           Foreign Address         State       PID/Program name
tcp        0      0 :::20880                :::*                    LISTEN      16/java
tcp        0      0 :::8080                 :::*                    LISTEN      16/java
tcp        0      0 ::ffff:127.0.0.1:8005   :::*                    LISTEN      16/java
tcp        0      0 :::8009                 :::*                    LISTEN      16/java# 进行混沌测试,准备一个java程序试验环境
bash-4.4# blade prepare jvm --process business
{"code":200,"success":true,"result":"400019538151a8cf"}
bash-4.4#  blade status --type prepare
{"code": 200,"success": true,"result": [{"Uid": "400019538151a8cf","ProgramType": "jvm","Process": "business","Port": "44587","Status": "Running","Error": "","CreateTime": "2024-05-31T12:45:46.620634205Z","UpdateTime": "2024-05-31T12:45:56.864110741Z"}]
}# 构造一个延迟场景。当调用com.example.service.DemoService的sayHello方法时,延迟3s。
bash-4.4# blade create dubbo delay --time 3000 --service com.example.service.DemoService --methodname sayHello --consumer
{"code":200,"success":true,"result":"e3861cc4b4bca049"}
# 再次执行curl调用接口,查看效果
bash-4.4# curl http://localhost:8080/dubbo/hello?name=dubbo
chaosblade-mock-TimeoutException,timeout=1000
# 删除构造的延迟3秒的故障
bash-4.4# blade destroy e3861cc4b4bca049
{"code":200,"success":true,"result":"command: dubbo delay --consumer true --help false --service com.example.service.DemoService --provider false --debug false --methodname sayHello --time 3000"}
bash-4.4# curl http://localhost:8080/dubbo/hello?name=dubbo
Hello dubbo, response from provider: 172.17.0.2:20880
# 使用status命令查询试验的状态
bash-4.4# blade status --type create
{"code": 200,"success": true,"result": [{"Uid": "e3861cc4b4bca049","Command": "dubbo","SubCommand": "delay","Flag": "--consumer true --help false --service com.example.service.DemoService --provider false --debug false --methodname sayHello --time 3000","Status": "Destroyed","Error": "","CreateTime": "2024-05-31T12:28:48.91064256Z","UpdateTime": "2024-05-31T12:31:01.99721936Z"}]
}# 或者使用blade s <UID>查看# 构造一个当调用服务时,异常抛出的场景
bash-4.4# blade create jvm throwCustomException --exception java.lang.Exception \
>     --classname com.example.controller.DubboController --methodname hello
{"code":200,"success":true,"result":"44fead600e3c2579"}
bash-4.4# blade status 44fead600e3c2579
{"code": 200,"success": true,"result": {"Uid": "44fead600e3c2579","Command": "jvm","SubCommand": "throwCustomException","Flag": "--exception java.lang.Exception --help false --methodname hello --classname com.example.controller.DubboController --debug false","Status": "Success","Error": "","CreateTime": "2024-05-31T12:35:22.602827497Z","UpdateTime": "2024-05-31T12:35:23.010550446Z"}
}
bash-4.4# curl http://localhost:8080/dubbo/hello?name=dubbo
...
Request processing failed; nested exception is java.lang.Exception: chaosblade-mock-exception
...
# 删除构造的异常后,调用恢复正常。
cpu加压测试

使用指导:

# ./blade create cpu load --help
Create chaos engineering experiments with CPU loadUsage:blade create cpu fullloadAliases:fullload, fl, loadExamples:# Create a CPU full load experiment
blade create cpu load#Specifies two random core's full load
blade create cpu load --cpu-percent 60 --cpu-count 2# Specifies that the core is full load with index 0, 3, and that the core's index starts at 0
blade create cpu load --cpu-list 0,3# Specify the core full load of indexes 1-3
blade create cpu load --cpu-list 1-3# Specified percentage load
blade create cpu load --cpu-percent 60Flags:--blade-release string     Blade release package,use this flag when the channel is ssh--cgroup-root string       cgroup root path, default value /sys/fs/cgroup--channel string           Select the channel for execution, and you can now select SSH--climb-time string        durations(s) to climb--cpu-count string         Cpu count--cpu-index string         cpu index, user unavailable!--cpu-list string          CPUs in which to allow burning (0-3 or 1,3)--cpu-percent string       percent of burn CPU (0-100)-h, --help                     help for fullload--install-path string      install path default /opt/chaosblade,use this flag when the channel is ssh--override-blade-release   Override blade release,use this flag when the channel is ssh--ssh-host string          Use this flag when the channel is ssh--ssh-key string           Use this flag when the channel is ssh--ssh-key-passphrase       Use this flag when the channel is ssh--ssh-port string          Use this flag when the channel is ssh--ssh-user string          Use this flag when the channel is ssh--timeout string           set timeout for experimentGlobal Flags:-a, --async             whether to create asynchronously, default is false-d, --debug             Set client to DEBUG mode-e, --endpoint string   the create result reporting address. It takes effect only when the async value is true and the value is not empty-n, --nohup             used to internal async create, no need to config--uid string        Set Uid for the experiment, adapt to docker and cri

cpu加压测试,使cpu满负荷运行60秒:

./blade create cpu load --cpu-percent 100 --timeout 60
内存加压测试

使用指导:

./blade create mem load --help
Create chaos engineering experiments with memory loadUsage:blade create mem loadExamples:# The execution memory footprint is 50%
blade create mem load --mode ram --mem-percent 50# The execution memory footprint is 50%, cache model
blade create mem load --mode cache --mem-percent 50# The execution memory footprint is 50%, usage contains buffer/cache
blade create mem load --mode ram --mem-percent 50 --include-buffer-cache# The execution memory footprint is 50%, avoid mem-burn process being killed
blade create mem load --mode ram --mem-percent 50 --avoid-being-killed# The execution memory footprint is 50% for 200 seconds
blade create mem load --mode ram --mem-percent 50 --timeout 200# 200M memory is reserved
blade create mem load --mode ram --reserve 200 --rate 100

构造内存100%测试,持续60s,执行如下命令后,使用free -m查看系统内存:

blade create mem load --mode ram --mem-percent 100 --timeout 60
磁盘加压测试

支持磁盘负载加压,及空间填充测试。可以使用下面命令查看具体参数:

# IO负载加压
./blade create disk burn  --help
Increase disk read and write io loadUsage:blade create disk burnExamples:# The data of rkB/s, wkB/s and % Util were mainly observed. Perform disk read IO high-load scenarios
blade create disk burn --read --path /home# Perform disk write IO high-load scenarios
blade create disk burn --write --path /home# Read and write IO load scenarios are performed at the same time. Path is not specified. The default is /
blade create disk burn --read --write
...# 空间填充测试
./blade create disk  fill --help
Fill the specified directory path. If the path is not directory or does not exist, an error message will be returned.Usage:blade create disk fillExamples:# Perform a disk fill of 40G to achieve a full disk (34G available)
blade create disk fill --path /home --size 40000# Performs populating the disk by percentage, and retains the file handle that populates the disk
Command: "blade c disk fill --path /home --percent 80 --retain-handle# Perform a fixed-size experimental scenario
blade c disk fill --path /home --reserve 1024
...

构造磁盘读写高IO场景:

./blade create disk burn --read --write
# 使用iostat查看磁盘io

5. 面向云原生

chaosblade-operator 项目是针对云原生平台所实现的混沌实验注入工具,遵循混沌实验模型规范化实验场景,把实验定义为 Kubernetes CRD 资源,将实验模型映射为 Kubernetes 资源属性,很友好地将混沌实验模型与 Kubernetes 声明式设计结合在一起,在依靠混沌实验模型便捷开发场景的同时,又可以很好的结合 Kubernetes 设计理念,通过 kubectl 或者编写代码直接调用 Kubernetes API 来创建、更新、删除混沌实验,而且资源状态可以非常清晰地表示实验的执行状态,标准化实现 Kubernetes 故障注入。除了使用上述方式执行实验外,还可以使用 chaosblade cli 方式非常方便的执行 kubernetes 实验场景,查询实验状态等。具体请阅读:云原生下的混沌工程实践

6. 场景大图

experiments landscape

7. 项目生态

ecosystem

更详细的功能及最新信息请访问官方仓库查看。
etes 资源属性,很友好地将混沌实验模型与 Kubernetes 声明式设计结合在一起,在依靠混沌实验模型便捷开发场景的同时,又可以很好的结合 Kubernetes 设计理念,通过 kubectl 或者编写代码直接调用 Kubernetes API 来创建、更新、删除混沌实验,而且资源状态可以非常清晰地表示实验的执行状态,标准化实现 Kubernetes 故障注入。除了使用上述方式执行实验外,还可以使用 chaosblade cli 方式非常方便的执行 kubernetes 实验场景,查询实验状态等。具体请阅读:云原生下的混沌工程实践

6. 场景大图

[外链图片转存中…(img-voZcqs6i-1717141739366)]

7. 项目生态

[外链图片转存中…(img-3vLaIn4r-1717141739367)]

更详细的功能及最新信息请访问官方仓库查看。


http://www.ppmy.cn/devtools/45366.html

相关文章

Three.js 中的场景与相机基础

Three.js 中的场景与相机基础 一、场景&#xff08;Scene&#xff09; 在 Three.js 中&#xff0c;场景是所有 3D 对象存在和交互的容器。艾斯视觉作为行业ui设计与前端开发服务商很高兴能在这里与你共同探讨&#xff1a;它就像是一个虚拟的 3D 空间&#xff0c;我们可以在其中…

面试必问:MySQL死锁是什么,如何解决?(史上最全)

MySQL死锁接触少&#xff0c;但面试又经常被问到怎么办&#xff1f; 最近有小伙伴在面试的时候&#xff0c;被问了MySQL死锁&#xff0c;如何解决&#xff1f; 虽然也回答出来了&#xff0c;但是不够全面体系化&#xff0c; 所以&#xff0c;小北给大家做一下系统化、体系化的…

江苏大信环境科技有限公司:环保领域的开拓者与引领者

2009 年&#xff0c;江苏大信环境科技有限公司在宜兴环保科技工业园成立。自创立之始&#xff0c;该公司便笃定坚守“诚信为本、以质量求生存、以创新谋发展”这一经营理念&#xff0c;全力以赴为客户构建专业的工业有机废气治理整体解决方案&#xff0c;进而成为国家高新技术企…

不靠后端,前端也能搞定接口!

嘿&#xff0c;前端开发达人们&#xff01;有个超酷的消息要告诉你们&#xff1a;MemFire Cloud来袭啦&#xff01;这个神奇的东东让你们不用依赖后端小伙伴们&#xff0c;也能妥妥地搞定 API 接口。是不是觉得有点不可思议&#xff1f;但是事实就是这样&#xff0c;让我们一起…

Chromebook Plus中添加了Gemini?

Chromebook Plus中添加了Gemini&#xff1f; 前言 就在5月29日&#xff0c;谷歌宣布了一项重大更新&#xff0c;将其Gemini人工智能技术集成到Chromebook Plus笔记本电脑中。这项技术此前已应用于谷歌的其他设备。华硕和惠普已经在市场上销售的Chromebook Plus机型&#xff0c;…

Mac上安装harbor

在Mac Book VMware Fusion 虚拟出来的 ubuntu&#xff08;22.04.4&#xff09;的环境中安装官方离线版本 harbor-offline-installer-v2.10.2.tgz会出现如下错误&#xff1a; prepare base dir is set to /home/zhangzk/harbor WARNING: The requested images platform (linux/…

【EFK日志系统】docker一键部署filebeat、metricbeat

docker一键部署filebeat、metricbeat filebeat部署创建配置文件一键启动修改配置文件查验信息 metricbeat部署创建配置文件一键启动修改配置文件查验信息 上两篇文章写了搭建部署es集群和部署kibana 这篇写一键部署filebeat和metricbeat收集工具 规划服务器是 es01:172.23.16…

AI发展的探索与未来展望

随着科技的不断进步&#xff0c;人工智能&#xff08;AI&#xff09;技术已经成为当今社会最热门的话题之一。从简单的自动化任务到复杂的决策支持系统&#xff0c;AI技术正以前所未有的速度改变着我们的世界。本文将深入探讨AI技术的发展历程、当前应用、面临的挑战以及未来的…