有一台服务器 java程序不定期会出现Redis command timed out; nested exception is io.lettuce.core.RedisCommandTimeoutException: Command timed out after 1 minute(s) 错误,导致应用出现 timeout 60000 错误,重启应用后,问题修复,但还是会不定期出现该问题。查看应用日志,发现有如下错误:
出现timeout 60000问题时,登录服务器,telnet 到redis服务器时,显示连接正常,并且使用相同redis服务器的其他应用也是正常,因此可以排除是redis服务器问题。
在redis服务器以及故障服务器上同时运行以下命令,查看链接情况
netstat -anp|grep 6379
Redis服务器:
存在redis客户端链接,但没有从故障服务器IP过来的链接。
故障服务器:
存在到redis服务器的链接。
说明客户端的redis连接已经死了,该客户端服务器是托管在本地一家机房,已nat模式连接的网络,该机房有多个出口IP作为负载均衡,当出口IP发生变化时,由于客户端程序使用的lettuce没有心跳检测,导致出口IP变化后,原链接失败,但程序并不知道链接已死,还是使用原链接,从而导致time 60000错误。
解决方案也很简单,将lettuce换成jedis,因为jedis有心跳检测, 或者与机房协调,保证改服务器出口IP不要变动。