暴雨讲堂：算力高速互联催化超节点开启AI新篇章

在2024中国国际北京通信展期间，暴雨副总裁孙辉介绍了暴雨信息在超节点方案的最新突破，彰显了暴雨信息在算力和网络技术上的强大创新能力。

随着人工智能技术的飞速发展，AI大模型的参数规模正以超越摩尔定律的速度急剧扩张。在此背景下，探索如何在超大规模智算集群中实现GPU之间的高速互联，从而显著提高GPU的利用率，已成为行业面临的重要挑战。

暴雨信息凭借其在算力和网络技术领域的深厚积累，推出了更先进的超节点方案。孙辉在介绍时强调：“我们的超节点方案能够实现更多GPU之间的高速互联，为大模型的训练提供了强有力的支撑。”

大模型驱动，超节点成为AI进阶的必然选择

AI大模型的迅猛发展对计算能力提出了前所未有的挑战。为应对这一需求，企业纷纷构建智算集群，并引入并行计算技术，以加速模型训练。然而，尽管并行计算提升了整体计算效率，它也带来了同步开销和通信延迟的问题。

孙辉指出：“在万亿参数规模的模型训练中，跨机并行在带来计算效率提升的同时，也带来了新的问题——空泡现象。” 具体来说，模型在不同GPU和服务器间进行数据传输时，GPU因等待无法充分利用，导致计算过程中出现‘空泡’，从而影响了模型训练的整体效率。他进一步解释，混合专家模型（MoE）引入专家并行训练，进一步加剧了通信带宽和时延问题，使得GPU空转时间显著增加，成为大模型训练中的技术瓶颈。

为了应对这一问题，暴雨信息推出超节点解决方案。孙辉解释道：“在单个节点内增加GPU的数量，能够显著减少跨节点的通信量，进而大幅提升GPU的利用率。”由于机内带宽通常远高于跨机带宽，因此，增加单机内的GPU数量，充分利用机内带宽，是降低GPU空转比例的关键。

突破算力拓展瓶颈 ，OLink助力构建超节点

随着大模型训练对算力需求的不断提升，传统的机内点对点Full Mesh互联架构逐渐暴露出其扩展性不足的弊端。Full Mesh架构虽然能够提供高带宽和低延迟的通信能力，但其扩展能力有限，尤其是在GPU数量增加时，点对点的通信方式难以实现线性扩展。通常，Full Mesh架构最多只能支持单机8张GPU卡，这大大限制了大模型的训练效率。

为了构建超节点，暴雨信息创新性地推出了BLink交换技术。通过这种技术，GPU之间的通信从传统的点对点互联模式转向交换互联模式，显著提升了单机的扩展性和通信带宽，突破单机8卡的限制。孙辉强调：“通过BLink技术，可以打造更大规模的高带宽域(HBD)，从而大幅提升集群算力。”通过BLink高速交换，还可以将高带宽域从机内拓展到机间，从而实现更高的扩展性，能够支持16卡以上的扩展。这种线性扩展能力，为构建更高密度的超节点奠定了坚实基础。

开放互联，构建多元化智算生态

当前，GPU互联私有总线协议的封闭性已成为多厂家芯片兼容的主要障碍，限制了硬件系统的扩展性，并增加了技术升级和维护的难度。为克服这一局限，暴雨信息在其BLink技术中采用了开放标准。

孙辉强调：“我们的BLink标准是开放的，它不仅促进了多厂家生态的繁荣，还为企业提供了更加灵活的选择。”这一技术开放性为行业带来了更大的灵活性和可持续性，有助于推动智算技术的多元化发展。

在未来的规划中，机内和机间将统一采用BLink交换高速互联，通过BLink互联协议和交换芯片，提供端到端的GPU高速互联方案。这不仅简化了智算集群的组网复杂度，还有效提升了整个系统的扩展能力和性能，使得AI模型训练和推理变得更加高效。

智算未来，超节点加速AI落地

在AI技术变革的浪潮中，暴雨信息凭借其在智算和网络领域的创新技术，正加速推动AI技术在各行业的应用落地。其新一代超节点方案在硬件架构上实现了重大突破，展现出极高的开放性和兼容性，能够在各种场景中广泛应用，促进AI技术的普及和行业发展。

孙辉强调：“通过持续的技术创新，我们将引领AI产业迈向更高效、开放的智算未来，为行业带来更多的发展机遇。”

此次采访，展现了暴雨信息在智算架构优化方面的深度研究与技术创新。未来，随着AI模型参数的不断增长和应用场景的不断扩展，暴雨信息将继续通过技术创新，助力各行各业实现数字化转型和智能化升级。

暴雨讲堂：算力高速互联催化超节点开启AI新篇章

相关文章

嵌入式开发中学习C++的用处？

828华为云征文｜使用Flexus X实例安装宝塔面板教学

Unity 设计模式之结构型模式 -【装饰者模式】【外观模式】【享元模式】【代理模式】

Java 编码系列：线程基础与最佳实践

智源研究院与百度达成战略合作共建AI产研协同生态

AIGAME背后的强大背景与AI币价值的崛起

建造者模式__c#

c++开发之网络篇curl