网讯1860网卡网络流控导致网络异常问题

news/2025/2/20 12:52:59/

1、背景介绍

目前使用的飞腾平台中采用国产化WX1860千兆网卡芯片,交换芯片采用盛科的CTC8096。示意图如下:

当其中一块飞腾系统异常时,发现整个平台内所有的千兆网均出现异常,任意两个飞腾千兆网均无法ping通。

2、问题排查

一、测试场景及现象

测试场景1:

将机器1的flow control关闭,然后机器1执行xdma设备的命令复现机器1系统异常,此时其他7台机器能正常通信,且通过ethtool -S ens4f1 | grep flow命令查看,此计数没有增加。

测试场景2:

八台机器都采用默认配置,即flow control开启,然后机器1执行xdma设备的命令复现系统异常,其他七台机器通过ethtool -S ens4f1 | grep flow命令查看rx flow报文计数一直在增长,此时八台设备均不通。然后将设备2和设备3的flow control功能关闭,设备2和3之间能相互通信,这两个设备flow control报文没有再增加。

二、测试结论

根据以上信息可以得出如下结论:应该是交换芯片CTC8096不支持解析flow control报文,把flow  control报文进行广播发送(pause 报文的MAC地址是一个特定的组播MAC地址),导致接在此交换芯片CTC8096上的其它设备收到问题网卡发送的 flow control,进而导致其他的主机也不通。

当某一块飞腾系统异常时,网卡会发送flow control报文。

3、解决办法

关闭WX1860网卡的流控

ethtool -A 网口名 autoneg off rx off tx off

参考命令

关闭flow control:ethtool -A 网口名 autoneg off rx off tx off

查看flow control状态:ethtool -a 网口名

查看flow control 数量统计:ethtool -S 网口名 | grep rx_flow

查看组播统计:ethtool -S 网口名 | grep rx_multicast

查看网口所有统计:ethtool -S 网口名

 


http://www.ppmy.cn/news/168345.html

相关文章

MongoDB 复制集的基本概念

官方概念:副本集是一组 MongoDB 的进程去维持同样的一份数据集,通过 MongoDB 的复制协议保证主备之间的数据一致性。 如上图所示,MongoDB 有两种部署方式,一个是 Standalone 部署模式;另外一个是副本集,有不…

人工智能(pytorch)搭建模型7-利用pytorch搭建一个BiLSTM+CRF模型,实现简单的命名实体识别

大家好,我是微学AI,今天给大家介绍一下人工智能(pytorch)搭建模型7-利用pytorch搭建一个BiLSTMCRF模型,实现简单的命名实体识别,BiLSTMCRF 模型是一种常用的序列标注算法,可用于词性标注、分词、命名实体识别等任务。本…

量子计算:纠错码 量子算法

文章目录 量子纠错码Shor 码CSS 码Steane 码一般性错误容错量子计算 量子算法量子 Fourier 变换Shor 算法求阶问题(整数分解)求周期问题(离散对数) Grover 算法 量子纠错码 对于量子态的纠错,与经典信息论中的纠错有着…

使用 OpenCV 的文档扫描仪

本文将编写一个 python 脚本,它获取图像并将其转换为扫描版本。 以下图为例 不要阅读页面上的文字,这些只是对这个项目的初步想法,其中很多可能很愚蠢 希望它看起来像是经过扫描的。所需的操作是从整个图像中裁剪页面图像,然后将其…

计算机桌面有扫描图标如何开始扫,如何使用扫描仪扫描文件

原标题:如何使用扫描仪扫描文件 使用扫描仪扫描文件手机扫描文件操作步骤如下: 1、手机安装扫描全能王软件。 2、打开软件,点击右下角拍照按钮。 3、进行拍照,注意照片的清晰度。 4、拍完后,你会发现有几个圆点&#x…

【刷题之路Ⅱ】LeetCode 739. 每日温度

【刷题之路Ⅱ】LeetCode 739. 每日温度 一、题目描述二、解题1、方法1——暴力法1.1、思路分析1.2、代码实现 2、方法2——单调栈2.1、思路分析2.2、先将栈实现一下2.3、代码实现 一、题目描述 原题连接: 739. 每日温度 题目描述: 给定一个整数数组 tem…

InsCode AI 创作助手体验总结

一、你平时会使用这类AI工具吗?你对这类型的工具有什么看法? 作为AI语言模型,InsCode AI 创作助手可以帮助用户快速生成文本,提高写作效率。我平时使用这类AI工具越来越频繁,因为我觉得AI既然已经出现,那未…

Python:Python编程:从入门到实践__超清版:Python标准库:线程

Python线程与安全 实现线程安全有多重方式,常见的包括:锁,条件变量,原子操作,线程本地存储等。 💚 1. 锁2. 条件变量3. 通过 join 阻塞当前线程4. 采用 sleep 来休眠一段时间5. 原子操作5.1 使用 threading…