kratos源码分析:熔断器

ops/2024/12/22 22:12:59/

文章目录

    • 为什么需要熔断
    • Google sre弹性熔断算法
    • kratos Breaker源码分析
      • 公共接口
      • sre实现
      • 上报请求结果
      • 判定是否熔断

为什么需要熔断

一般来说,当服务器过载(overload)时,需要给client返回服务过载的报错
但是拒接请求也有成本,可能响应错误码本身没啥成本,但处理请求协议栈,构建响应header等也有一笔开销
如果被拒绝的请求数量很大,后端任然会过载,因为其绝大多数CPU都花在拒绝请求上

因此最好的办法是客户端不要将请求发到服务端:当客户端检测到其最近的请求中有很大一部分因“服务过载”错误而被拒绝时,直接在本地失败,不会经过网络IO发给服务端
熔断也可以称为客户端限流

Google sre弹性熔断算法

google sre提供了一种自适应的客户端熔断算法,其维护了过去一段时间内的两个信息:

  • requests:往下游发起请求的总数
  • accepts:成功的请求数

  1. 正常情况下,这两个值是相等的
  2. 但当下游出现异常时,accepts会逐渐小于requests
  3. 一旦requests达到了accepts的K倍,客户端就要启动自适应限流,新产生的请求以一定概率被拒绝
    1. 拒绝请求的概率计算公式为: m a x ( 0 , r e q u e s t s − K ∗ a c c e p t s r e q u e s t s + 1 ) max(0, \frac{requests - K * accepts}{requests + 1}) max(0,requests+1requestsKaccepts)
  4. 当下游逐渐恢复时,accetps会增加,使得上述公式中分子变为负数,拒绝的概率降为0

可以调整K值,使算法产生不同的效果:

  • 减少K值会使得行为更激进,也就是更容易发生熔断
  • 增大K值会使得自适应熔断不那么激进

kratos Breaker源码分析

接下来分析kratos中熔断器,其采用了google sre的自适应客户端限流算法

公共接口

熔断器对外暴露3个方法:

  • Allow:每次调下游之前判断熔断器状态,根据返回结果决定是否往下游发送请求
  • MarkSuccess:每次调下游如果成功,上报Succ
  • MarkFailed:每次调下游如果失败,上报Failed
type CircuitBreaker interface {  Allow() error  MarkSuccess()  MarkFailed()  
}

在这里插入图片描述

业务中用起来大概是这样:

// 初始化breaker
b := sre.NewBreaker()// 请求下游前判断熔断器状态  
if err = breaker.Allow(); err != nil {  return  
}// 请求下游
err := fn()// 执行成功或失败将结果告知 breaker
if(err != nil){  breaker.MarkFailed()  
}else{  breaker.MarkSuccess()  
}

sre实现

  • stat:维护请求总数和成功数的滑动窗口
  • k:熔断算法的K值
  • request:开始熔断的请求数阈值,滑动窗口中请求数量达到request才开始熔断
  • state:熔断器状态,该字段实际没啥用
type Breaker struct {  // 滑动窗口stat window.RollingCounter  // 随机数产生器,同于根据概率熔断请求r    *rand.Rand  randLock sync.Mutex  // 熔断算法的K值k       float64// 开始熔断的请求数阈值request int64  state int32  
}

上报请求结果

func (b *Breaker) MarkSuccess() {  b.stat.Add(1)  
}  func (b *Breaker) MarkFailed() {  b.stat.Add(0)
}
  • MarkSuccess:内部会将总数+1,成功数+1
  • MarkFailed:内部只会将总数+1

本文的重点不是滑动窗口,这里知道其干了啥就好


判定是否熔断

在这里插入图片描述

  1. summary() 拿到滑动窗口中的请求总数和成功数
  2. 如果没达到熔断条件,返回err=nil。两个判定条件:
    1. 条件一:滑动窗口中请求总数没达到阈值(total < b.request
    2. 条件二:近期失败的数量不够多(k * accepts > total
  3. 否则就需要熔断,根据公式计算熔断概率dr
  4. 判定是否命中概率:生成一个0~1之间的随机数,如果小于dr说明命中
func (b *Breaker) Allow() error {  // 拿到滑动窗口中的请求总数和成功数accepts, total := b.summary()  requests := b.k * float64(accepts)  // 没达到熔断条件 if total < b.request || float64(total) < requests {  atomic.CompareAndSwapInt32(&b.state, StateOpen, StateClosed)  return nil  }  // 下面就是需要熔断atomic.CompareAndSwapInt32(&b.state, StateClosed, StateOpen)// 计算熔断概率  dr := math.Max(0, (float64(total)-requests)/float64(total+1))  drop := b.trueOnProba(dr)  // 需要熔断if drop {  return circuitbreaker.ErrNotAllowed  }  return nil  
}

从滑动窗口中获得请求总数total和成功请求数success:

func (b *Breaker) summary() (success int64, total int64) {  b.stat.Reduce(func(iterator window.Iterator) float64 {  for iterator.Next() {  bucket := iterator.Bucket()  // 统计总数  total += bucket.Count  for _, p := range bucket.Points {  // 统计成功的数量  success += int64(p)  }  }  return 0  })  return  
}

trueOnProba就是生成一个0~1之间的随机数,看是否小于概率proba

func (b *Breaker) trueOnProba(proba float64) (truth bool) {  b.randLock.Lock()  truth = b.r.Float64() < proba  b.randLock.Unlock()  return  
}


http://www.ppmy.cn/ops/144141.html

相关文章

《Vue 响应式数据原理》

一、引言 在 Vue.js 中&#xff0c;响应式数据是其核心特性之一。响应式数据使得当数据发生变化时&#xff0c;视图能够自动更新&#xff0c;从而提高了开发效率和用户体验。本文将深入探讨 Vue 响应式数据的原理&#xff0c;包括数据侦测、依赖收集和派发更新等方面。 二、Vue…

基于MNE的EEGNet 神经网络的脑电信号分类实战(附完整源码)

利用MNE中的EEG数据&#xff0c;进行EEGNet神经网络的脑电信号分类实现&#xff1a; 代码&#xff1a; 代码主要包括一下几个步骤&#xff1a; 1&#xff09;从MNE中加载脑电信号&#xff0c;并进行相应的预处理操作&#xff0c;得到训练集、验证集以及测试集&#xff0c;每个…

深入探讨C++标准输入输出流:iostream

C标准库中的输入输出流(iostream)是处理数据输入和输出的核心部分&#xff0c;提供了灵活且高效的方式来读写各种数据类型。通过理解和运用iostream&#xff0c;开发者可以实现丰富的输入输出功能&#xff0c;从而增强程序的交互性和用户体验。本文将深入探讨C的标准输入输出流…

STM32 水质水位检测项目 显示模块

Driver层 FSMC&#xff08;之前代码&#xff09; Interface层 LCD&#xff08;之前代码&#xff09; App层 Display&#xff08;显示模块&#xff09; display.h #ifndef __DISPLAY_H__ #define __DISPLAY_H__#include "lcd.h"//初始化 void Display_Init(voi…

【YOLOv3】 源码(common.py)

概述 该文件中提供了构建yolov3模型的各种基础模块&#xff0c;其中包含了常用的功能模块&#xff0c;如标准卷积层、瓶颈层、空间金字塔池化层、图像预处理和后处理工具等&#xff0c;这些都是构建高效和模块化模型的基本 该文件的作用类似于一栋建筑的建筑材料和工具&#…

超灵敏红外光谱技术:MIP-PS技术如何实现痕量分子检测

大家好&#xff01;今天来了解一种超灵敏红外光谱技术——《Ultrasensitive infrared spectroscopy via vibrational modulation of plasmonic scattering from a nanocavity》发表于《SCIENCE ADVANCES》&#xff0c;它为化学分析和生物传感领域带来了新的突破。这项技术基于纳…

智能工厂的设计软件 三种处理单元(NPU/GPU/CPU)及其在深度学习框架中的作用 之5(腾讯云AI代码助手 之3)

前情提要 前面讨论了智能工厂的设计软件 中三种处理单元&#xff08;NPU/GPU/CPU&#xff09;及其在深度学习框架中的作用是协作完成一个深度学习任务。 最后通过明确深度学习本身的目的是建构一个公理化系统--作为 自然语言形式化 建模约束&#xff08;为人类编辑 &#xff0…

ICLR 2025 | 时间序列(Time Series)高分论文总结

ICLR2025已经结束了讨论阶段&#xff0c;进入了meta-review阶段&#xff0c;分数应该不会有太大的变化了&#xff0c;本文总结了其中时间序列(Time Series)高分的论文。如有疏漏&#xff0c;欢迎大家补充。 挑选原则&#xff1a;均分要大于等于6&#xff08;≥6&#xff0c;即…