故障处理
故障现象:客户反馈我们的业务官网无法打开,我这里测试一会可以一会不可以且post请求我们的官网接口是失败的
2、排查思路
2.1. 检查后端服务
kubectl get pod -n pcas
后端pod的状态运行是正常的
2.2. 检查网关pod,查看是否接收到流量
root@jumpserver-cluster-env:~# kubectl logs -f apisix-gateway-68d488db74-2q2sr -n pcas
看APISIX网关日志,是有流量的
2.3 检查腾讯云的高仿
根据以上排查确定不是我们服务本身原因导致业务不能访问,且官网一会可以访问一会不可以访问,判断是不是业务被攻击,有的访问被腾讯云阻断
观察业务也没有被攻击
2.5 检查负载均衡
根据负载的监控发现客户端到负载均衡器的丢包数和丢弃的连接数非常多,从这里基本上定位到问题出在负载上,询问腾讯云的客服,说我们的负载从原先的容量型改成共享型,客户端到负载的连接数达到最大值
2.6 解决措施
把负载从共享型改成容量型问题解决,观察监控,恢复正常