星融元加入超以太网联盟(UEC),推动智算网络创新实践

server/2024/10/18 13:03:19/

近日,星融元正式加入超以太网联盟(Ultra Ethernet Consortium,UEC),该联盟是在 Linux 基金会的牵头下由多家全球头部科技企业联合成立,目标是突破传统以太网性能瓶颈,使其适用于人工智能(AI)和高性能计算(HPC)网络

星融元加入UEC,将参与到制定以太网的下一代通信堆栈架构的进程中,推动以太网在人工智能和高性能计算领域的应用,为用户提供更高效、更强大的网络解决方案。

随着AI大模型规模的扩大以及通信模式和计算方法的多样化,传统基于 RoCE(RDMA over Converged Ethernet)的 RDMA方案存在拥塞控制算法阻碍等问题,造成运维困难;AI和HPC 对分布式计算资源的规模和有效利用需求高度相似,都对时延要求高。

UEC致力于改造以太网上的RDMA(Remote Direct Memory Access,远程直接内存访问)操作来优化AI和HPC工作负载,从物理层、链路层、传输层、软件层不断提升以太网的转发性能。超以太网传输工作组 (UEC Transport ,UET)通过多种创新来实现更高的网络利用率和更低的尾部延迟,从而减少AI和HPC作业完成时间。

针对上述问题,星融元正和UEC成员们基于端点的可靠性和拥塞控制的成熟路径,提供AI和HPC应用所需的性能,同时保留以太网/IP生态系统的优势,构建成本可控、运维简化、更易扩展的未来网络

以下是超以太网传输工作组 (UET) 实现UEC1.0白皮书中规定的关键目标:

1.多路径和报文散传:

  • 传统以太网网络基于生成树,确保从源到目的地的一条路径,以避免网络中的环路。
  • UET 引入了多路径和报文散传技术,充分利用高带宽通信网络,无需负载平衡算法。这使得数据包可以同时使用到达目的地的所有路径,从而更平衡地利用网络资源。

2.灵活传递顺序:

  • 传统的数据包排序方式限制了数据包的效率,UET 支持灵活的传递顺序,有效地完成数据包传输。
  • 在 AI 工作负载中,这对于高吞吐量的集合操作(如 All-Reduce 和 All-to-All)至关重要。

3.现代拥塞控制机制:

  • UET 引入了现代拥塞控制算法,以更好地管理网络拥塞。
  • 这些算法考虑了从发送方到接收方的多个链路上的拥塞情况,以实现更高效的数据传输。

4.端到端遥测:

  • UET 利用端到端遥测方案,从网络源头获取拥塞信息,以实现更快的拥塞控制响应。

总之,UET通过保留IP协议、支持多路径、改进数据包排序和拥塞控制,满足不断增长的工作负载需求,为未来的AI和HPC网络提供更简单、更高效的RDMA互连。

星融元的AI/HPC网络中的创新实践

面对AI/HPC对网络环境的高要求,星融元通过提供以太网络无损方案,支撑大规模算力集群建设:

  • 发布星智AI网络解决方案(Rail-only fabric),在不损失训练性能的前提下,削减服务器间链路,单pod里用更少交换机连接了更多GPU服务器,便于扩展规模,整体降低TCO。
  • 简化运维,推出“一键RoCE”方案,一键便可启用PFC和ECN,完成无损网络配置,还能快速定位无损网络的瓶颈与故障。
  • 基于超低时延交换机,面向分布式存储和HPC应用上的时延优化,现场测试中,端到端时延媲美IB。

作为领先的开放网络解决方案提供商,未来星融元将与UEC共同致力于为下一代AI和HPC网络提供优化的传输解决方案,帮助各行业用户构建AI时代中立、透明、高性价比的基础网络

关注vx公号“星融元Asterfusion”,获取更多技术分享和最新产品动态。


http://www.ppmy.cn/server/19227.html

相关文章

行为型设计模式(下)

命令模式 命令模式是一种行为设计模式,它将一个请求封装为一个对象,从而允许用户使用不同的请求、队列或日志请求,并支持可撤销的操作。它主要涉及三个角色:发送者(Invoker)、接收者(Receiver&…

【机器学习】机器学习学习笔记 - 监督学习 - KNN线性回归岭回归 - 02

监督学习 KNN (k-nearest neighbors) KNN 是用 k 个最近邻的训练数据集来寻找未知对象分类的一种算法 from sklearn import neighbors# 分类 # 创建KNN分类器模型并进行训练 classifier neighbors.KNeighborsClassifier(num_neighbors, weightsdistance) classifier.fit(X,…

【数据结构(邓俊辉)学习笔记】向量03——无序向量

文章目录 0.概述1.元素访问2.置乱器3.判等器与比较器4.无序查找4.1 判等器4.2 顺序查找4.3 实现4.4 复杂度 5. 插入5.1 算法实现5.2 复杂度分析 6. 删除6.1 区间删除6.2 单元删除6.3 复杂度 7. 唯一化7.1 实现7.2 正确性7.3 复杂度 8. 遍历8.1 实现8.2 复杂度 9. 总结 0.概述 …

Ubuntu: 自留小技巧

#!/bin/bash# 指定要检查的文件夹 folder"/path/to/your/directory"# 遍历文件夹中的每一个文件 for file in "$folder"/* do# 检查文件中的每一行是否都包含"#"if awk !/#/ "$file" | read -r _then# 如果有一行不包含"#"&…

【Linux学习】​​学习Linux的准备工作和Linux的基本指令

˃͈꒵˂͈꒱ write in front ꒰˃͈꒵˂͈꒱ ʕ̯•͡˔•̯᷅ʔ大家好,我是xiaoxie.希望你看完之后,有不足之处请多多谅解,让我们一起共同进步૮₍❀ᴗ͈ . ᴗ͈ აxiaoxieʕ̯•͡˔•̯᷅ʔ—CSDN博客 本文由xiaoxieʕ̯•͡˔•̯᷅ʔ 原创 CSDN 如…

DreamFusion:探索深度学习驱动的3D内容生成

DreamFusion:探索深度学习驱动的3D内容生成 摘要: 本文将深入探讨DreamFusion,这是一种利用深度学习技术生成逼真的3D内容的创新框架。我们将详细介绍DreamFusion的技术原理、实现过程以及其在各个领域的潜在应用。 关键词:深度学…

【Pytorch】PytorchCPU版或GPU报错异常处理(10X~4090D)

Pytorch为CPU版或GPU使用报错异常处理 文章目录 Pytorch为CPU版或GPU使用报错异常处理0.检查阶段1. 在conda虚拟环境中安装了torch2.卸载cpuonly3.从tsinghua清华源安装不完善误为cpu版本4.用tsinghua清华源安装成cpu错误版本5.conda中torch/vision/cudatoolkit版本与本机cuda版…

深度学习比较有用的网站

1.前沿论文学习和效果对比 Browse the State-of-the-Art in Machine Learning | Papers With Code 超简单实用,推荐的深度学习科研必备网站(轻松找论文,代码项目,写论文综述)| 土堆教程_哔哩哔哩_bilibili 2.前沿模…