SpringCloudAlibaba:服务容错之Sentinel学习

news/2025/2/20 2:29:56/

目录

一、高并发带来的问题

服务雪崩效应

二、常见容错方案

(一)隔离

(二)超时

(三)限流

(四)熔断

(五)降级

三、常见的容错组件

四、Sentinel概述

(一)Sentinel 特征:

(二)两个重要概念

五、安装Sentinel控制台

1、下载jar包,上传到服务器

2、编写启动脚本(根据官网启动命令)

六、Sentinel规则

(一)流量控制规则

1、QPS流控

2、并发线程数

(二)隔离与降级

1、Feign整合Sentinel

2、线程隔离

(三)熔断降级规则

1.慢调用比例 (SLOW_REQUEST_RATIO):

2.异常比例 (ERROR_RATIO):

3.异常数 (ERROR_COUNT):

(四)热点规则

七、Sentinel规则持久化

一、概念

二、如何持久化?

1.添加 pom 依赖

2.修改 yml 配置文件,添加 Nacos 数据源配置

3.Nacos 配置管理

三、yml 配置详解(与 Ncaos 整合)

四、json 参数详解

1、流控规则

2、降级规则

3、热点规则

4、系统规则

5、授权规则

五、持久化过程中碰到的错误


一、高并发带来的问题

在微服务架构中,我们将业务拆分成一个个的服务,服务与服务之间可以相互调用,但是由于网络原因或者自身的原因,服务并不能保证服务的100%可用,如果单个服务出现问题,调用这个服务就会出现网络延迟,此时若有大量的网络涌入,会形成任务堆积,最终导致服务瘫痪。

服务雪崩效应

在分布式系统中,由于网络原因或自身的原因,服务一般无法保证 100% 可用。如果一个服务出现了问题,调用这个服务就会出现线程阻塞的情况,此时若有大量的请求涌入,就会出现多条线程阻塞等待,进而导致服务瘫痪。 由于服务与服务之间的依赖性,故障会传播,会对整个微服务系统造成灾难性的严重后果,这就是服务故障的 “雪崩效应” 。

二、常见容错方案

要防止雪崩的扩散,我们就要做好服务的容错,容错说白了就是保护自己不被猪队友拖垮的一些措 施, 下面介绍常见的服务容错思路和组件。 常见的容错思路: 常见的容错思路有隔离、超时、限流、熔断、降级这几种,下面分别介绍一下。

(一)隔离

它是指将系统按照一定的原则划分为若干个服务模块,各个模块之间相对独立,无强依赖。当有故 障发生时,能将问题和影响隔离在某个模块内部,而不扩散风险,不波及其它模块,不影响整体的 系统服务。常见的隔离方式有:线程池隔离和信号量隔离.

(二)超时

在上游服务调用下游服务的时候,设置一个最大响应时间,如果超过这个时间,下游未作出反应, 就断开请求,释放掉线程。

(三)限流

限流就是限制系统的输入和输出流量已达到保护系统的目的。为了保证系统的稳固运行,一旦达到 的需要限制的阈值,就需要限制流量并采取少量措施以完成限制流量的目的。

(四)熔断

在互联网系统中,当下游服务因访问压力过大而响应变慢或失败,上游服务为了保护系统整 体的可用性,可以暂时切断对下游服务的调用。这种牺牲局部,保全整体的措施就叫做熔断。

服务熔断一般有三种状态:

熔断关闭状态(Closed): 服务没有故障时,熔断器所处的状态,对调用方的调用不做任何限制

熔断开启状态(Open):后续对该服务接口的调用不再经过网络,直接执行本地的fallback方法

半熔断状态(Half-Open):尝试恢复服务调用,允许有限的流量调用该服务,并监控调用成功率。如果成功率达到预期,则说明服务已恢复,进入熔断关闭状态;如果成功率仍旧很低,则重新进入熔断关闭状 态。

(五)降级

降级其实就是为服务提供一个托底方案,一旦服务无法正常调用,就使用托底方案。

三、常见的容错组件

Hystrix

Hystrix是由Netflix开源的一个延迟和容错库,用于隔离访问远程系统、服务或者第三方库,防止 级联失败,从而提升系统的可用性与容错性。

Resilience4J

Resilicence4J一款非常轻量、简单,并且文档非常清晰、丰富的熔断工具,这也是Hystrix官方推 荐的替代产品。不仅如此,Resilicence4j还原生支持Spring Boot 1.x/2.x,而且监控也支持和 prometheus等多款主流产品进行整合。

Sentinel

Sentinel 是阿里巴巴开源的一款断路器实现,本身在阿里内部已经被大规模采用,非常稳定。

四、Sentinel概述

Sentinel (分布式系统的流量防卫兵) 是阿里开源的一套用于服务容错的综合性解决方案。它以流量 为切入点, 从流量控制、熔断降级、系统负载保护等多个维度来保护服务的稳定性。

Sentinel 分为两个部分:

  • 核心库(Java 客户端)不依赖任何框架/库,能够运行于所有 Java 运行时环境,同时对 Dubbo / Spring Cloud 等框架也有较好的支持。

  • 控制台(Dashboard)基于 Spring Boot 开发,打包后可以直接运行,不需要额外的 Tomcat 等 应用容器

(一)Sentinel 特征:

丰富的应用场景、完备的实时监控、广泛的开源生态、完善的 SPI 扩展点

(二)两个重要概念

1、资源 资源就是Sentinel要保护的东西;资源是 Sentinel 的关键概念。它可以是 Java 应用程序中的任何内容,可以是一个服务,也可以是一个方法,甚至可以是一段代码。

2、规则 规则就是用来定义如何进行保护资源的 作用在资源之上, 定义以什么样的方式保护资源,主要包括流量控制规则、熔断降级规则以及系统 保护规则。

五、安装Sentinel控制台

1、下载jar包,上传到服务器

您可以从 release 页面 下载您需要的班版本的控制台 jar 包。

2、编写启动脚本(根据官网启动命令)

将jar包上传至服务器,并在同一目录下创建启动脚本start.sh,内容如下:

  1. 创建start.sh

    [root@localhost sentinel]# touch start.sh  
  2. 编辑start.sh文件(使用命令或者使用Xtfp软件进行编辑)

    [root@localhost sentinel]# vim start.sh

    将下面内容复制到文件中,如若8081端口冲突,可使用 -Dserver.port=新端口 进行设置。

    rm -rf /sentinel/sentinel.log
    nohup java -Dserver.port=8081 -Dcsp.sentinel.dashboard.server=localhost:8081 -Dproject.name=sentinel-dashboard -jar sentinel-dashboard-1.8.6.jar > /sentinel/sentinel.log 2>&1 &
  3. 给予权限

    [root@localhost sentinel]# chmod 777 start.sh
  4. 启动sentinel控制台

    [root@localhost sentinel]# ./start.sh
  5. 访问控制台:192.168.XXX.XXX:8081 (Linux系统IP地址,可使用 ip a 命令查看) 进行访问

    username:sentinel    password:sentinel

  

六、Sentinel规则

(一)流量控制规则

流量控制,其原理是监控应用流量的QPS(每秒查询率) 或并发线程数等指标,当达到指定的阈值时对流量进行控制,以避免被瞬时的流量高峰冲垮,从而保障应用的高可用性。

项目中引入jar包

<dependency><groupId>com.alibaba.cloud</groupId><artifactId>spring-cloud-starter-alibaba-sentinel</artifactId>
</dependency>

1、QPS流控

(1)yml文件配置

spring:cloud:sentinel: # 服务容错transport:dashboard: 192.168.177.129:8081port: 8719
​

(2)定义资源

@RestController
@RefreshScope // 在需要动态读取配置的类上添加此注解就可以(动态配置刷新)
@RequestMapping("/user")
public class UserController {    @RequestMapping("/get1")@SentinelResource(value = "/resource/user/get1", blockHandler = "blockHandlerForGet1")public Integer get1(){return 111111;}
​public Integer blockHandlerForGet1(BlockException ex) {return 999999;}
}    
​

(3)启动项目,发送请求(http://localhost:端口号/user/get1)

(4)定义限流规则 点击簇点链路,我们就可以看到访问过的接口地址,然后点击对应的(@SentinelResource注解的value的值)流控按钮,进入流控规则配置页面。新增流控规则界面如下:

  • 资源名: 唯一名称,默认是请求路径,可自定义

  • 针对来源: 指定对哪个微服务进行限流,默认指default,意思是不区分来源,全部限制 阈值类型/单机阈值:

    QPS(每秒请求数量): 当调用该接口的QPS达到阈值的时候,进行限流。 线程数:当调用该接口的线程数达到阈值的时候,进行限流。

  • 是否集群:暂不需要集群

(5)效果

再快速通过网页发送多次请求,会发现每秒只有两次是get1结果,其余超出的都是blockHandlerForGet1的结果。

2、并发线程数

Sentinel并发控制是指使用Sentinel来限制接口的最大并发访问量。Sentinel并发控制不负责创建和管理线程池,而是简单统计当前请求上下文的线程数且(正在执行的调用数目),如果超出阈值,新的请求会被立即拒绝,效果类似于信号量隔离。并发数控制通常在调用端进行配置。

(1)定义资源

@RequestMapping("/get1")
@SentinelResource(value = "/resource/user/get1", blockHandler = "blockHandlerForGet1")
public Integer get1(){try {Thread.sleep(5000);} catch (Exception e) {throw new RuntimeException(e);}return 666666;
}
//   blockHandler 函数会在原方法被限流/降级/系统保护的时候调用
public Integer blockHandlerForGet1(BlockException ex){return 999999;
}
​

(2)定义限流规则

(3)测试

使用Postman进行测试,建立多个请求,都发送请求进行测试。

3、流控模式

sentinel共有三种流控模式,分别是:

  • 直接(默认):接口达到限流条件时,开启限流

  • 关联:当关联的资源达到限流条件时,开启限流 [适合做应用让步]

  • 链路:当从某个接口过来的资源达到限流条件时,开启限流

4、流控效果

在Sentinel中,当流控规则生效时,会对超出阈值的请求进行限流处理。常见的限流策略有:

  1. 直接拒绝:直接拒绝超出阈值的请求,返回限流提示。

  2. 慢启动(Warm Up):它从开始阈值到最大QPS阈值会有一个缓冲阶段,一开始的阈值是最大QPS阈值的1/3,然后慢慢增长,直到最大阈值,适用于将突然增大的流量转换为缓步增长的场景。

    举个例子,阀值为10,预热时长设置5秒。 系统初始化的阀值为10 / 3约等于3,即阀值刚开始为3,然后过了 5秒后阀值才慢慢升高恢复到10。

  3. 排队等待:超出阈值的请求会加入等待队列,当阈值允许时依次放行,如果等待超时则拒绝。

(二)隔离与降级

现代微服务架构都是分布式的,由非常多的服务组成。不同服务之间相互调用,组成复杂的调用链路。以上的问题在链路调用中会产生放大的效果。复杂链路上的某一环不稳定,就可能会层层级联,最终导致整个链路都不可用。因此我们需要对不稳定的弱依赖服务调用进行熔断降级,暂时切断不稳定调用,避免局部不稳定因素导致整体的雪崩。熔断降级作为保护自身的手段,通常在客户端(调用端)进行配置。

1、Feign整合Sentinel

  1. 修改application.yml开启Feign的Sentinel功能

    feign:sentinel:enabled: true
    ​
  2. 创建feign远程调用接口

    @FeignClient(value = "order-server",path = "/order")
    public interface OrderFeign {@GetMapping("/get1")Integer get1();
    }
    ​
  3. 给feignClient编写失败后的降级逻辑 方式一:FallbackClass 无法对远程调用的异常做处理 方式二:FallbackFactory 可以对远程调用的异常做处理

    public class UserClientFallbackFactory implements FallbackFactory<OrderFeign> {@Overridepublic OrderFeign create(Throwable cause) {return new OrderFeign() {@Overridepublic Integer get1() {return 123456;}};}
    }
    ​
  4. 将降级工程注册为一个Bean

    @Configuration
    public class SentinelConfig {@Beanpublic UserClientFallbackFactory userClientFallbackFactory(){return new UserClientFallbackFactory();}
    }
    ​
  5. 给feign远程调用接口指定降级工厂

    @FeignClient(value = "order-server",path = "/order",fallbackFactory = UserClientFallbackFactory.class)
    public interface OrderFeign {
    ​@GetMapping("/get1")Integer get1();
    }
    ​

2、线程隔离

线程隔离有两种实现方式:

  • 线程池隔离

  • 信号量隔离(Sentinel默认采用)

(三)熔断降级规则

现代微服务架构都是分布式的,由非常多的服务组成。不同服务之间相互调用,组成复杂的调用链路。以上的问题在链路调用中会产生放大的效果。复杂链路上的某一环不稳定,就可能会层层级联,最终导致整个链路都不可用。因此我们需要对不稳定的弱依赖服务调用进行熔断降级,暂时切断不稳定调用,避免局部不稳定因素导致整体的雪崩。熔断降级作为保护自身的手段,通常在客户端(调用端)进行配置。

熔断策略:

1.慢调用比例 (SLOW_REQUEST_RATIO):

选择以慢调用比例作为阈值,需要设置允许的慢调用 RT(即最大的响应时间),请求的响应时间大于该值则统计为慢调用。当单位统计时长(statIntervalMs)内请求数目大于设置的最小请求数目,并且慢调用的比例大于阈值,则接下来的熔断时长内请求会自动被熔断。经过熔断时长后熔断器会进入探测恢复状态(HALF-OPEN 状态),若接下来的一个请求响应时间小于设置的慢调用 RT 则结束熔断,若大于设置的慢调用 RT 则会再次被熔断。

解读:如果在统计时长10秒内,发送的请求超过10个,并且其中百分之50(比例阈值)的请求时间超过了500ms(最大RT),则触发熔断,熔断时长为5s,在5s时间之内所有请求都将无法访问,等进入half-open状态,放行一次请求进行测试。

2.异常比例 (ERROR_RATIO):

当单位统计时长(statIntervalMs)内请求数目大于设置的最小请求数目,并且异常的比例大于阈值,则接下来的熔断时长内请求会自动被熔断。经过熔断时长后熔断器会进入探测恢复状态(HALF-OPEN 状态),若接下来的一个请求成功完成(没有错误)则结束熔断,否则会再次被熔断。异常比率的阈值范围是 [0.0, 1.0],代表 0% - 100%。

3.异常数 (ERROR_COUNT):

当单位统计时长内的异常数目超过阈值之后会自动进行熔断。经过熔断时长后熔断器会进入探测恢复状态(HALF-OPEN 状态),若接下来的一个请求成功完成(没有错误)则结束熔断,否则会再次被熔断。注意由于统计时间窗口是分钟级别的,若时间窗口小于 60s,则结束熔断状态后仍可能再进入熔断状态。

(四)热点规则

// 测试热点规则
@RequestMapping("/get2")
@SentinelResource(value = "/resource/user/get2", blockHandler = "blockHandlerForTest")
public Integer get2(@RequestParam("id") Integer id){return 666666;
}public Integer blockHandlerForTest(Integer id, BlockException ex) {return 999999;
}

七、Sentinel规则持久化

push模式:控制台将配置规则推送到远程配置中心,例如Nacos。Sentinel客户端监听Nacos,获取配置变更的推送消息,完成本地配置更新。

一、概念

当应用重启后,Sentinel 规则就消失了,生产环境需要将配置的规则进行持久化

二、如何持久化?

将限流、熔断配置规则持久化进 Nacos 保存,只要刷新被监控的应用,Sentinel 控制台的流控规则就能看到,持久化后无需重新配置才能看到。只要 Nacos 里面的配置不删除,针对该应用的Sentinel上的流控规则持续有效。

1.添加 pom 依赖

<dependency><groupId>com.alibaba.csp</groupId><artifactId>sentinel-datasource-nacos</artifactId>
</dependency>

2.修改 yml 配置文件,添加 Nacos 数据源配置

spring:cloud:sentinel:# Sentinel 规则持久化datasource:# 自定义命名flow-rule:# 支持多种持久化数据源:file、nacos、zk、apollo、redis、consulnacos:username: nacospassword: nacos# nacos服务地址server-addr: 192.168.177.129:8848# 命名空间,根据环境配置# namespace: public# 这里我做了一下细分,不同规则设置不同groupIdgroup-id: USER_SENTINEL_FLOW_GROUP# 仅支持JSON和XML类型data-id: ${spring.application.name}.yaml# 规则类型:flow(流)、degrade(降级)、param-flow(参数流)、system(系统)、authority(权限)rule-type: flowdata-type: json

3.Nacos 配置管理

流控规则持久化配置参数说明:

resource:资源名。 limitApp:来源应用。 grade:阈值类型。0 表示线程数,1 表示是QPS。 count:单机阈值。 strategy:流控模式。0 表示直接,1 表示关联,2 表示链路。 controlBehavior:流控效果。0 表示快速失败,1 表示Warm up,2 表示排队等待。 clusterMode:是否集群。false 表示否,true 表示是。

测试结果当应用重启后,Sentinel 控制台依旧存在之前配置的规则,规则任然有效。

三、yml 配置详解(与 Ncaos 整合)

spring:cloud:sentinel:datasource:# 名称随意flow:nacos:server-addr: localhost:8848dataId: ${spring.application.name}-flow-rulesgroupId: SENTINEL_GROUP# 规则类型:flow(流)、degrade(降级)、param-flow(参数流)、system(系统)、authority(权限)# org.springframework.cloud.alibaba.sentinel.datasource.RuleTyperule-type: flowdegrade:nacos:server-addr: localhost:8848dataId: ${spring.application.name}-degrade-rulesgroupId: SENTINEL_GROUPrule-type: degradesystem:nacos:server-addr: localhost:8848dataId: ${spring.application.name}-system-rulesgroupId: SENTINEL_GROUPrule-type: systemauthority:nacos:server-addr: localhost:8848dataId: ${spring.application.name}-authority-rulesgroupId: SENTINEL_GROUPrule-type: authorityparam-flow:nacos:server-addr: localhost:8848dataId: ${spring.application.name}-param-flow-rulesgroupId: SENTINEL_GROUPrule-type: param-flow

四、json 参数详解

1、流控规则

[{// 资源名"resource": "/test",// 针对来源,若为 default 则不区分调用来源"limitApp": "default",// 限流阈值类型(1:QPS;0:并发线程数)"grade": 1,// 阈值"count": 1,// 是否是集群模式"clusterMode": false,// 流控效果(0:快速失败;1:Warm Up(预热模式);2:排队等待)"controlBehavior": 0,// 流控模式(0:直接;1:关联;2:链路)"strategy": 0,// 预热时间(秒,预热模式需要此参数)"warmUpPeriodSec": 10,// 超时时间(排队等待模式需要此参数)"maxQueueingTimeMs": 500,// 关联资源、入口资源(关联、链路模式)"refResource": "rrr"}
]

2、降级规则

[{// 资源名"resource": "/test1","limitApp": "default",// 熔断策略(0:慢调用比例,1:异常比率,2:异常计数)"grade": 0,// 最大RT、比例阈值、异常数"count": 200,// 慢调用比例阈值,仅慢调用比例模式有效(1.8.0 引入)"slowRatioThreshold": 0.2,// 最小请求数"minRequestAmount": 5,// 当单位统计时长(类中默认1000)"statIntervalMs": 1000,// 熔断时长"timeWindow": 10}
]

3、热点规则

[{// 资源名"resource": "/test1",// 限流模式(QPS 模式,不可更改)"grade": 1,// 参数索引"paramIdx": 0,// 单机阈值"count": 13,// 统计窗口时长"durationInSec": 6,// 是否集群 默认false"clusterMode": 默认false,// 突发事件计数"burstCount": 0,// 集群模式配置"clusterConfig": {// 失败时回退到本地"fallbackToLocalWhenFail": true,// 流程ID"flowId": 2,// 示例计数"sampleCount": 10,// 阈值类型"thresholdType": 0,// 窗口间隔时间"windowIntervalMs": 1000},// 流控效果(支持快速失败和匀速排队模式)"controlBehavior": 0,// 针对来源,若为 default 则不区分调用来源"limitApp": "default",// 超时时间(排队等待模式需要此参数)"maxQueueingTimeMs": 0,// 高级选项"paramFlowItemList": [{// 参数类型"classType": "int",// 限流阈值"count": 222,// 参数值"object": "2"}]}
]

4、系统规则

[{// RT"avgRt": 1,// CPU 使用率"highestCpuUsage": -1,// LOAD"highestSystemLoad": -1,// 线程数"maxThread": -1,// 入口 QPS"qps": -1}
]

5、授权规则

[{// 资源名"resource": "sentinel_spring_web_context",// 流控应用"limitApp": "/test",// 授权类型(0代表白名单;1代表黑名单。)"strategy": 0}
]

五、持久化过程中碰到的错误

1、Nacos配置文件的属性名与值要和bootstrap.yml要对应上

2、Nacos配置文件中的json要注意格式正确

3、因为设置了Nacos登录,bootstrap.yml文件中但凡是涉及到Nacos下边都要设置username和password。


http://www.ppmy.cn/news/162660.html

相关文章

Flink的数据源和数据接收器

在前面的博客中&#xff0c;我们探讨了Flink的窗口操作和状态管理机制。本篇博客将介绍Flink中的数据源和数据接收器&#xff0c;它们是实现数据流的输入和输出的关键组件。 1. 数据源 数据源用于向Flink的数据流中输入数据&#xff0c;它可以从各种数据存储和消息队列中读取…

阿里云服务器部署flask简单方法

记录如何在阿里云服务器上部署flask接口并实现公网访问。 文章目录 1. 简介2. 部署python3环境3. 生成requirement.txt4. 将项目打包上传5. 安装依赖库6. 查看防火墙7. 测试能否公网访问 1. 简介 因落地通话callback服务测试&#xff0c;需要我写一个测试demo&#xff0c;用于…

Node 库Puppeteer 介绍及使用

官方文档地址&#xff1a;官方文档 Puppeteer 是一个 Node 库&#xff0c;它提供了一个高级 API 来通过 DevTools 协议控制 Chromium 或 Chrome。Puppeteer 默认以 headless 模式运行&#xff0c;但是可以通过修改配置文件运行“有头”模式。 能做什么?​ 你可以在浏览器中手…

C++中静态成员变量、静态成员函数和静态常量的应用

前言&#xff1a; 在C中&#xff0c;静态成员变量、静态成员函数和静态常量是非常有用的特性&#xff0c;它们可以方便地组织数据和操作&#xff0c;并提高代码的效率和可读性。本文将介绍静态成员变量、静态成员函数和静态常量的特性、应用及单例模式、工厂模式的实现。 一、…

快看你的达标没!充电宝新国标只有这20家合格

充电宝已经成为各位机友必备的手机数码配件之一&#xff0c;回顾这个领域的发展历程不难发现&#xff0c;充电宝虽然诞生了近10年&#xff0c;但由于长期缺乏国家标准&#xff0c;市面上依然充斥着大量山寨、使用冒牌电芯、缺乏最基本保护的充电宝。 作为随身携带的装备&#…

新生代新能源企业翘楚:易佰特 领跑密码-一套好用的MES系统

从移动电源、手机数码、平板电脑、便携储能再到动力摩托&#xff0c;电池源源不断为它们提供着动力。这些天天可见的消费品“动力源”&#xff0c;有相当一部分来自一家名为易佰特的福建企业。 易佰特新能源科技有限公司&#xff08;简称易佰特&#xff09;于2013年成立&#x…

ET280

[img][/img]http://ks.cn.yahoo.com/question/1308062403631.html 最佳答案 - 由投票者2008-07-09 13:12:01选出 联想ET280支持4G的SD卡&#xff0c;不过当使用的SD卡越大死机的机会越多。 我用的就是ET280,用256M的SD卡很少死机&#xff0c;用2G的就经常死机&#xff08;一…

小米的供应链隐患:商业模式伤害芯片厂商

核心观点&#xff1a; 1、小米在怎么把手机卖出去的问题上已经所向披靡&#xff0c;但挤牙膏式的饥饿营销与4000万的目标相去甚远&#xff0c;能否在短时间内理顺产业链是其能否迈上一个台阶的关键。小米的封神之战&#xff0c;就是最后打破供应链的牵制&#xff0c;成为真正掌…