集成指挥平台定时任务故障流量分析

news/2025/1/15 13:27:25/

01故障现象

集成指挥平台中有定时任务定时传输数据到总队,总队定时下发数据到市交警支队。市交警支队发现定时任务一直出现执行失败的错误。市交警支队和总队联系,说需要市交警支队排查一下自身网络,前两天在应用服务器上面抓了定时任务的数据包,发现在连接过程中一直被RST。现在不能确认在哪个环节被RST。

本次分析采用NetInside流量分析系统,已部署到业务环境,使用流量分析系统提供实时和历史原始流量。本次分析重点针对集成定时任务故障排查,以供设置取证、性能分析、网络质量监测以及深层网络分析。

02分析目的

针对集成指挥平台中定时任务出现执行失败原因进行分析,找出问题的根本原因,并采取相应的措施来解决这些问题。

通过分析,可以确定哪些因素导致了定时任务执行失败,如网络连接问题、系统故障、配置错误等。这样做可以帮助管理员及时发现和解决问题,确保集成指挥平台的正常运行。查找并验证确认是否存在业务系统健康问题。

03部署架构及流量采集

通过与网络技术人员沟通了解,街道的电脑端在通过区县向市局传输数据时,出现连接被RST,网络上属于三个区域,分别为街道区域、区县区域和市局区域。经过分析,我们将NetInside以旁路方式部署到区县机房,将核心交换机镜像流量给NetInside,该位置可以抓取到定时任务数据全部流量,可以对异常进行全面分析。

04分析过程

以下对本次故障详细分析。

流量传输存在明显时间间隔

通过分析系统秒级数据分布趋势发现,10.XXX.XXX.78(以下简称78)和服务器10.XXX.XXX.80(以下简称80)之间的数据传输存在明显的、有规律性的传输间隔现象。这极有可能受到某些未知因素的影响造成

数据传输间隔现象深入分析

从分析系统下载对应的数据包,发现大量的RST报文,如下图。

随机查看上图中一个会话信息(基于5元组的对话),发现存在异常现象。

下图中,Frame 19695之前的所有报文是一个正常POST请求操作,但Frame 20756和20757明显与前面的连接没有关系。

继续分析。
正常数据传输中,80到78流向的数据包TTL为119,如下图。

再看Frame 20756,同样是80到78流向的数据包,但TTL却为124

同时,这个RST包还含有更多的应用层信息,可供参考。

而Frame 20757则是对上面这个RST报文的RST。

经过分析,在时长约43分钟的时间范围内,共出现了1846次类似的RST。

异常RST对数据传输的影响

分析发现,当出现上述RST后,78会停滞一段时间,才会再次向80发起TCP握手请求,继而进行POST数据操作。

以下是随机查看的几个数据为证。

异常RST后,78等待8.19秒,才向80发起连接建立请求。

异常RST后,78等待13.14秒,才向80发起连接建立请求。

异常RST后,78等待34.34秒,才向80发起连接建立请求。

异常RST后,78等待58.43秒,才向80发起连接建立请求。

不再一一列举。

05分析结论

78与80之间数据传输时,会出现大量的未知系统或节点的RST数据包,该数据包同时会对78发起请求造成明显的时延作用。

06解决建议

由于异常数据包中含有地址及提示信息,可以根据这个信息定位发送RST的设备。也可以根据TTL信息,计算并定位该设备所处位置。

对发出异常RST的设备进行策略配置和优化。

07问题验证

针对异常RST进行分析,确定是由终端管控软件发出,管理人员对该软件做了相应设置,让其不再发出RST报文。

从NetInside流量分析系统中下载策略修改后,78与80之间的数据传输报文,打开查看,不再出现异常的RST报文。

同样,在一段时间内,一个异常RST都不再出现,如下图。

这说明终端管控软件策略设置有效。

08异常前后效果对比

最后,对异常前后,流量传输特征进行分析和比较。

流量传输状况对比

以下是策略调整前78和80之间的数据传输情况。

以下是策略调整后78和80之间的数据传输情况。

通过对比可以看到,策略调整后,数据传输明显加快,且中间没有出现明显的间隔和空白等待时段。

09作用和价值

用户遇到网络异常问题,现场的专业技术人员多次进行分析,但是问题的定位依然无法确定,这给用户耗费了大量的人力和时间。为了解决这个问题,我们采用了NetInside全流量行为分析技术,能够快速发现异常和风险的原因。通过这项技术,用户的位置从被动变为主动,真正解放了他们不必要的人工故障诊断和数据包分析所消耗的时间和精力。


http://www.ppmy.cn/news/1077988.html

相关文章

IBM Spectrum LSF Application Center 以应用程序为中心的工作负载提交和管理

IBM Spectrum LSF Application Center 为集群用户和管理员提供了一个灵活的、以应用为中心的界面。IBM Spectrum LSF Application Center 作为 IBM Spectrum LSF 的可选附加模块提供,使用户能够与直观、自我记录的界面进行交互。这提高了用户满意度和生产力。通过对…

Rust--流程控制

循环/判断 ref: 流程控制 - Rust语言圣经(Rust Course) 判断 if condition true {// A... } else {// B... }if 语句块是表达式,所以可以为变量赋值,当然要注意的是保证返回的类型相同: fn main() {let condition true;let number if c…

CMake rv1109交叉编译环境搭建

安装vmware虚拟机 准备安装包VMware-workstation-full-15.5.1-15018445.exe 下载地址安装 参考资料 在vmware上安装Linux环境 准备安装包ubuntu-18.04.4-desktop-amd64.iso 下载地址安装 参考资料 安装rv1109交叉编译工具链 准备安装包rv1109_toolchain_release.tar.bz2 下…

秋云qiun chart 使用echart配置格式化柱形图数据

dataLabel数据文字格式化 <!-- seriesTemplate是config-echarts.js中对应图表类型定义好的series模板 &#xff0c;如果每个series的formatter都不一样&#xff0c;则format需要定义在chartData.series中&#xff0c;不能使用seriesTemplate --> <!-- formatter…

想系列服务迁移专有云效实操

想系列服务迁移专有云效实操 1注册应用 查看jenkins脚本是否需要修改代码编译路径 gemdale_jenkins/maven3-service/k8s-image/maven3-service-deploy.sh Jenkins上的打包路径 service_tgt_path s e r v i c e w s / t a r g e t / service_ws/target/ servicew​s/target/ser…

【Leetcode】131.分割回文串

一、题目 1、题目描述 给你一个字符串 s,请你将 s 分割成一些子串,使每个子串都是 回文串 。返回 s 所有可能的分割方案。 回文串 是正着读和反着读都一样的字符串。 示例1: 输入:s = “aab” 输出:[[“a”,“a”,“b”],[“aa”,“b”]] 示例2: 输入:s = “a” 输出…

【⑯MySQL | 存储过程与函数】概述 | 创建 | 调用 | 查看 | 修改 | 删除 | 争议

前言 ✨欢迎来到小K的MySQL专栏&#xff0c;本节将为大家带来MySQL存储过程与函数概述 | 创建 | 调用 | 查看 | 修改 | 删除 | 争议的分享✨ 目录 前言1. 存储过程概述2. 创建存储过程3. 调用存储过程4. 存储函数的使用5. 存储过程和函数的查看、修改、删除6. 关于存储过程使用…

ConsoleApplication17_2项目免杀(Fiber+VEH Hook Load)

加载方式FiberVEH Hook Load Fiber是纤程免杀&#xff0c;VEH是异常报错&#xff0c;hook使用detours来hook VirtualAlloc和sleep&#xff0c;通过异常报错调用实现主动hook 纤程Fiber的概念&#xff1a;纤程是比线程的更小的一个运行单位。可以把一个线程拆分成多个纤程&#…