Reports & Publications

NVIDIA GPU 场景 AI 模型训练和推理性能 华为星河AI数据中心网络 vs. 业界以太网络

Sponsor: Huawei Technologies, Co. Ltd
NVIDIA GPU 场景 AI 模型训练和推理性能 华为星河AI数据中心网络 vs. 业界以太网络

Abstract

华为星河 AI 数据中心网络面向大模型训练与推理场景进行了网络侧优化,目标是在相同 AI 算力条件下提升集群通信效率,减少训练与推理过程中的网络瓶颈。根据 Tolly 测试,该方案在与业界主流以太网厂商的 RoCE 网络对比中,覆盖了 NCCL 集合通信、Llama2-13B 模型训练、DeepSeek 推理以及训推一体等场景,并通过 AI 加速器 NSLB 算法实现全局负载均衡,从而提升大规模 GPU 集群的整体效率。


测试环境采用 Spine-Leaf 架构,共 8 台服务器,每台服务器配置 8 张 NVIDIA H100 80GB HBM3 GPU 和 8 张 MCX75310AAS-NEAT 网卡;华为侧交换机为 CE9866-128DQ 与 XH9230-128DQ,对比侧为 400GE 以太网交换机。该环境用于验证不同负载分担模式下的有效带宽和训练吞吐表现。


在 NCCL Ring AllReduce 测试中,逐流负载分担场景下,华为有效带宽达到 389.06GB/s,而业界对比结果为 253.32GB/s,提升 53.58%;在逐包负载分担且叠加背景任务时,华为达到 374.63GB/s,对比值为 334.05GB/s,提升 12.15%。在 Llama2-13B 训练场景中,逐流方式下华为平均算力为 35.99TFLOPs,对比值为 32.96TFLOPs,提升 9.19%;逐包方式叠加背景任务时,华为达到 36.89TFLOPs,对比值为 35.62TFLOPs,提升 3.57%。


在推理与训推混合场景中,华为同样表现突出。DeepEP 框架下,多 Prefill 任务吞吐量提升约 31.39% 至 32.88%;Decode 叠加背景任务时提升 13.6%;在 Prefill 与 NCCL AllReduce 并发执行的训推一体场景中,Prefill 吞吐量最高提升 33.86%,AllReduce 网络吞吐量提升 31.15%。总体来看,该方案更适合需要高并发、低冲突、稳定扩展的大模型数据中心网络环境。