Reports & Publications

NVIDIA GPU 场景 AI 模型训练和推理性能华为星河AI数据中心网络 vs. 业界以太网络

Sponsor: Huawei Technologies, Co. Ltd

Abstract

华为星河 AI 数据中心网络面向大模型训练与推理场景进行了网络侧优化，目标是在相同 AI 算力条件下提升集群通信效率，减少训练与推理过程中的网络瓶颈。根据 Tolly 测试，该方案在与业界主流以太网厂商的 RoCE 网络对比中，覆盖了 NCCL 集合通信、Llama2-13B 模型训练、DeepSeek 推理以及训推一体等场景，并通过 AI 加速器 NSLB 算法实现全局负载均衡，从而提升大规模 GPU 集群的整体效率。

测试环境采用 Spine-Leaf 架构，共 8 台服务器，每台服务器配置 8 张 NVIDIA H100 80GB HBM3 GPU 和 8 张 MCX75310AAS-NEAT 网卡；华为侧交换机为 CE9866-128DQ 与 XH9230-128DQ，对比侧为 400GE 以太网交换机。该环境用于验证不同负载分担模式下的有效带宽和训练吞吐表现。

在 NCCL Ring AllReduce 测试中，逐流负载分担场景下，华为有效带宽达到 389.06GB/s，而业界对比结果为 253.32GB/s，提升 53.58%；在逐包负载分担且叠加背景任务时，华为达到 374.63GB/s，对比值为 334.05GB/s，提升 12.15%。在 Llama2-13B 训练场景中，逐流方式下华为平均算力为 35.99TFLOPs，对比值为 32.96TFLOPs，提升 9.19%；逐包方式叠加背景任务时，华为达到 36.89TFLOPs，对比值为 35.62TFLOPs，提升 3.57%。

在推理与训推混合场景中，华为同样表现突出。DeepEP 框架下，多 Prefill 任务吞吐量提升约 31.39% 至 32.88%；Decode 叠加背景任务时提升 13.6%；在 Prefill 与 NCCL AllReduce 并发执行的训推一体场景中，Prefill 吞吐量最高提升 33.86%，AllReduce 网络吞吐量提升 31.15%。总体来看，该方案更适合需要高并发、低冲突、稳定扩展的大模型数据中心网络环境。

Report Information

Document Number:

225149ZH

Publication Date:

9/3/2025

Page Count:

Category:

View all reports from Huawei Technologies, Co. Ltd

Reports & Publications

NVIDIA GPU 场景 AI 模型训练和推理性能 华为星河AI数据中心网络 vs. 业界以太网络

Abstract

Report Information

NVIDIA GPU 场景 AI 模型训练和推理性能华为星河AI数据中心网络 vs. 业界以太网络