【实践】应用访问Redis突然超时怎么处理?

devtools/2024/11/13 15:13:10/

目录标题

  • 问题描述
  • 分析过程
    • 查看监控数据
    • 系统监控指标
    • JVM监控指标
    • Redis监控指标
    • 分析应用异常
    • 单机异常规律
    • 集群异常规律
    • 统计超时的key
  • 初步结论
  • 验证结论
    • 访问Redis链路
      • slowlog
      • Redis单节点info all
      • 定位redis节点
      • 定位异常key
        • bigkeys
        • tcpdump定位大key影响
  • 经验总结

问题描述

某产品线应用访问Redis出现超时(超时时间配置的是2000ms),异常信息:
在这里插入图片描述

分析过程

查看监控数据

通过监控数据,了解应用运行状态以确定应用出现问题时间点、是否过载、依赖服务是否过载等基本信息。

系统监控指标

在这里插入图片描述

JVM监控指标

在这里插入图片描述
FullGC过于频繁及耗时较长的情况下会造成应用阻塞住,从图中看FullGC发生的频次是正常的,一次FullGC耗时也是正常的,所以FullGC不是造成SocketTimeoutException的原因。

Redis监控指标

在这里插入图片描述
从Redis控制台及阿里云杜康上该Redis实例的CPU使用率、内存使用率等指标都是正常的。

分析应用异常

分析异常日志,首先需要弄明白的是应用抛异常时候执行的业务逻辑及异常本身含义;异常在本机出现的频次情况,是否存在规律性;及异常在该应用的集群上的规律性。
除了访问Redis异常,应用依赖得其他服务没有超时情况。

单机异常规律

分析了每小时、每分钟及每秒钟异常出现的次数,发现异常具有一定周期性:每个小时在固定的几个时间点会集中出现,出现的时候会集中在相邻的几秒钟内。

集群异常规律

统计了应用集群中其他机器的异常规律,每台机器出现异常的规律是一致的:不出现都不出现,要出现一起出现。

统计超时的key

我们统计了异常日志中,所有超时的key,然后单独访问这些key,并没有任何发生超时的情况。

初步结论

通过上面的分析,很有可能是应用侧在相对集中的时间点访问了同一个Redis节点,在该Redis节点产生了慢查询,进而阻塞掉了正常的请求Redis的命令。

验证结论

访问Redis链路

在这里插入图片描述

slowlog

最先想到是Redis慢查询,有些应用卡慢的场景到这里可以找到线索,遗憾的是slowlog并没有看到应用端发过来的命令。

在这里插入图片描述

Redis单节点info all

接着是Redis单节点的监控指标,一些CPU高、卡慢的场景在这里找到线索,经过对比确实有个节点avgRT比其他节点高很多。下面是两个不同节点的数据:

在这里插入图片描述
avgRT=45的是节点8,初步判定节点8是问题节点。

redis_64">定位redis节点

我们初步判定节点8是问题节点,超时的key是否打到了这个节点呢?阿里云redis自研了info key指令:查询key所属的slot和db。

在这里插入图片描述
可惜的是这个版本的Redis返回的node_index跟控制台上实例拓扑图的node index不一致。
我们只好去每个Redis节点通过tcpdump抓包,对抓包里的key执行info key <biz_key>来核对node_index:5到底是哪个节点,最终定位到了超时key都是打在了节点13.

定位异常key

是对哪些key的访问阻塞住了Redis,进而造成其他命令的超时呢?首先想到的是大key的影响。

bigkeys

在这里插入图片描述

tcpdump定位大key影响

redis节点132进行tcpdump抓包且过滤大key

tcpdump -i any tcp and dst port 3048 -A -nn | grep -E '大key1|大key2|大key3|......'

在应用侧过滤日志中的异常信息

tail -f error.log | grep 'SocketTimeoutException'

当应用侧出现SocketTimeoutException的时候,redis节点上的key是需要我们引起关注的,最后将定位的key提供给研发

经验总结

排查此类问题,几个需要关注的点

  • 统计超时key,及key对应的redis节点
  • Redis slowlog 慢查询
  • Redis单节点info all指标对比不同节点服务情况
  • Redis bigkeys
  • 还有一个注意的点是Redis hotkeys

在这里插入图片描述


http://www.ppmy.cn/devtools/114878.html

相关文章

【论文笔记】Are Large Kernels Better Teacheres than Transformers for ConvNets

Abstract 本文提出蒸馏中小核ConvNet做学生时&#xff0c;与Transformer相比&#xff0c;大核ConvNet因其高效的卷积操作和紧凑的权重共享&#xff0c;使得其做教师效果更好&#xff0c;更适合资源受限的应用。 用蒸馏从Transformers蒸到小核ConvNet的效果并不好&#xff0c;原…

Unity 设计模式 之 结构型模式 -【适配器模式】【桥接模式】 【组合模式】

Unity 设计模式 之 结构型模式 -【适配器模式】【桥接模式】 【组合模式】 目录 Unity 设计模式 之 结构型模式 -【适配器模式】【桥接模式】 【组合模式】 一、简单介绍 二、适配器模式 (Adapter Pattern) 1、什么时候使用适配器模式 2、使用适配器模式的好处 3、适配器…

Android中的四大组件

Android中的四大组件是Android应用开发中的基石&#xff0c;它们分别是Activity、Service、BroadcastReceiver和ContentProvider。这四个组件各自承担着不同的角色和功能&#xff0c;共同构成了Android应用程序的骨架。下面将详细阐述这四大组件的作用及其特点。 1. Activity&…

基于STM32设计的路灯故障定位系统(微信小程序)(229)

文章目录 一、前言1.1 项目介绍【1】项目开发背景【2】设计实现的功能【3】项目硬件模块组成1.2 设计思路【1】整体设计思路【2】ESP8266工作模式配置1.3 项目开发背景【1】选题的意义【2】可行性分析【3】参考文献【4】项目背景【5】摘要1.4 开发工具的选择【1】设备端开发【2…

sqlite数据库设计工具

下载 开发环境 VS2022 + Qt5.14.2 CMake修改 add_subdirectory(sqlite3-cmake) include_directories(${CMAKE_SOURCE_DIR}/sqlite3-cmake/src) target_link_libraries(${PROJECT_NAME} sqlite3) 效果 参考 https://github.com/sqlitebrowser/sqlitebrowser

【医学半监督】互补一致性半监督学习

摘要: CC-Net 从互补信息的角度有效利用了无标记数据,解决了现有半监督分割算法从无标记数据中提取信息能力有限的问题。CC-Net 的互补对称结构包括一个主模式和两个辅助模式。互补一致性是由主模型和辅助模型之间的模型级扰动形成的,从而加强了它们之间的一致性。两个辅助模…

论文阅读-《Attention is All You Need》

注意力就是一切 【要点】&#xff1a;论文提出了一种全新的网络架构——Transformer&#xff0c;完全基于注意力机制&#xff0c;无需使用循环和卷积&#xff0c;实现了在机器翻译任务上的性能提升和训练效率的显著提高。 【方法】&#xff1a;通过构建一个仅使用注意力机制的…

深入了解package.json文件

在前端项目开发中&#xff0c;我们经常会遇到package.json文件。这个文件不仅是一个简单的配置文件&#xff0c;它还承担了项目管理的重任。下面&#xff0c;我们将深入探讨package.json文件的各个字段和作用&#xff0c;并通过实例来帮助你更好地理解和使用它。 package.json…