如何优化 TCP/IP 的 NCCL 通信

如何优化 TCP/IP 的 NCCL 通信

devtools/2025/3/19 20:19:07/

是的，相比 InfiniBand (IB)，TCP/IP 通信的性能会低很多，主要体现在以下几个方面：

1. 带宽对比

InfiniBand (IB)（例如 HDR 200Gbps）：通常提供 100-200Gbps 的带宽，远超普通以太网。
以太网（TCP/IP）：
- 10GbE（10Gbps） → 比 IB 低一个数量级
- 100GbE（100Gbps） → 接近 IB，但 TCP 协议栈增加了开销

2. 延迟对比

InfiniBand (IB)：典型延迟在 1-2µs，远低于以太网。
以太网（TCP/IP）：
- 10GbE：典型延迟在 20-50µs
- 100GbE：延迟可以降低，但仍高于 IB

3. CPU 占用

InfiniBand 使用 RDMA (Remote Direct Memory Access)，数据传输几乎不占用 CPU，而 TCP/IP 需要 CPU 处理网络协议>网络协议栈，造成额外的开销。

结论：会影响分布式训练性能

如果没有 InfiniBand，你的 NCCL 只能用 TCP 进行数据传输，这可能会影响多机训练的通信效率：

梯度同步（AllReduce）变慢，整体训练吞吐下降。
CPU 负载增加，因为 TCP 需要 CPU 处理协议栈，而 IB 的 RDMA 直接在网卡上完成传输。
通信开销更大，以太网通常需要更多的通信优化（如 NCCL 的 NCCL_NET_GDR_LEVEL 参数）。

如何优化 TCP/IP 的 NCCL 通信？

如果你只能用 TCP/IP，可以做一些优化：

启用 GDR（GPU-Direct RDMA）（如果网卡支持）
```
export NCCL_NET_GDR_LEVEL=2
```

调整 NCCL 算法

export NCCL_ALGO=Ring  # 或者 Trees、CollNet，具体要测试

使用 NCCL_P2P_DISABLE=1 强制优化网络通信
```
export NCCL_P2P_DISABLE=1
```
指定更快的网卡
```
export NCCL_SOCKET_IFNAME=eth0
```

如果你打算长时间运行分布式训练，建议考虑上 InfiniBand 网卡（如 Mellanox CX-6），能大幅提高 NCCL 通信效率。

http://www.ppmy.cn/devtools/168431.html

相关文章

【算法百题】专题六_模拟

【算法百题】专题六_模拟

文章目录前言题目：038. [替换所有的问号（easy）](https://leetcode.cn/problems/replace-all-s-to-avoid-consecutive-repeating-characters/description/)分析 039. [提莫攻击（easy）](https://leetcode.cn/problems/t…

阅读更多...

K8S之QoS详解

K8S之QoS详解

Pod QoS 类服务质量（Quality of Service，QoS）类， 阐述 Kubernetes 如何根据为 Pod 中的容器指定的资源约束为每个 Pod 设置 QoS 类。Kubernetes 依赖这种分类来决定当 Node 上没有足够可用资源时要驱逐哪些 Pod。 QoS 类&#…

阅读更多...

【css酷炫效果】纯CSS实现黑白电视故障雪花

【css酷炫效果】纯CSS实现黑白电视故障雪花

【css酷炫效果】纯CSS实现黑白电视故障雪花缘创作背景html结构css样式完整代码效果图想直接拿走的老板，链接放在这里：https://download.csdn.net/download/u011561335/90492002 缘创作随缘，不定时更新。创作背景刚看到csdn出活动了&…

阅读更多...

独立部署DeepSeek 大语言模型（如 DeepSeek Coder、DeepSeek LLM）可以采用什么框架？

独立部署DeepSeek 大语言模型（如 DeepSeek Coder、DeepSeek LLM）可以采用什么框架？

DeepSeek 大语言模型（如 DeepSeek Coder、DeepSeek LLM），独立部署这些模型可以采用以下几种框架： 1. Hugging Face Transformers 特点易用性高：提供了丰富的预训练模型接口，对于 DeepSeek 模型&#xff…

阅读更多...

SpringBoot 和vue前后端配合开发网页拼图10关游戏源码技术分享

SpringBoot 和vue前后端配合开发网页拼图10关游戏源码技术分享

今天分享一个前后端结合的网页游戏开发项目源码技术。这也是我第一次写游戏类的程序，虽然不是特别复杂的游戏，但是是第一次写，肯定要记录一下了，哈哈。游戏的内容就是我们显示中玩的那个拼图碎片的游戏，类似下…

阅读更多...

Ubuntu 软件仓库管理概述与基本原理

Ubuntu 软件仓库管理概述与基本原理

Ubuntu 软件仓库管理概述与基本原理在 Ubuntu 系统中，软件仓库（Repository）充当着软件包的集中存储地，就好比一个庞大的在线应用市场，里面包含了各种经过测试的软件包。利用软件仓库，用户无需手动下载和安装软件，只需要通过简单的命令，系统就会自动处理依赖关系，完成…

阅读更多...

BERT系列模型

BERT系列模型

BERT系列模型 1 BERT模型介绍 1.1 BERT简洁 BERT是2018年10月由Google AI研究院提出的一种预训练模型. BERT的全称是Bidirectional Encoder Representation from Transformers.BERT在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩: 全部两个衡量指标上全面超越人类, …

阅读更多...

Leetcode 刷题笔记1 单调栈part01

Leetcode 刷题笔记1 单调栈part01

leetcode 739 每日温度对于单调栈问题，我觉得是在循环外部增加一些辅助项减少时间复杂度，但增加内存空间的利用 class Solution:def dailyTemperatures(self, temperatures: List[int]) -> List[int]:ans [0] * len(temperatures)stack []for i …

阅读更多...

最新文章