DGX B300 SuperPOD 架构
概述本文档系统性地解析了构建基于 NVIDIA DGX B300 的大规模AI集群以4个SU共256节点为例所需的核心组件与网络架构。其设计核心在于通过精细分工、物理隔离的专用网络以及创新的拓扑结构为万亿参数级的AI训练模型提供一个高性能、高容错且可扩展的基础设施平台。本文档参考DGX B300 SuperPod 系统架构介绍基于以太网和 InfiniBand 网络 - NADDOD 博客NVIDIA B200/B300/GB200/GB300 集群互联- 大数跨境Major Components — NVIDIA SuperPOD DGX B300 SystemsNVIDIA DGX B300|领先 AI 运算技术与 LLM 推论的高效基础架构物理结构NVIDIA DGX B300 规格GPU8x NVIDIA Blackwell Ultra SXMCPUIntel® Xeon® 6776P 处理器总 GPU 内存2.1 TB效能FP4 张量核心144 PFLOPS | 108 PFLOPS*FP8 张量核心72 PFLOPS**NVIDIA NVLink™ 交换机系统2倍NVIDIA NVLink 带宽14.4 TB/s 聚合带宽网络8 个 OSFP 端口对应 8 个单端口 NVIDIA® ConnectX-8® VPI支持最高 800 Gb/s 的 NVIDIA InfiniBand/Ethernet2 个双端口 QSFP112 NVIDIA® BlueField-3® DPU支持最高 400 Gb/s 的 NVIDIA InfiniBand/Ethernet管理网络1GbE 板载网络适配器NIC具备 RJ45 接头1GbE RJ45 主机基板管理控制器 BMC储存操作系统2x 1.9 TB NVMe M.2内部存储8x 3.84 TB NVMe E1. S电力消耗~14 kW机架单位10UNVIDIA Blackwell Ultra SXM(B300)B300的拓扑结构NVIDIA® ConnectX-8® VPIConnectX-8卡的一大重要贡献在于它不仅能够将GPU与网络上的其他节点进行通信而且还能够为系统中的其他组件提供连接功能。这些网卡既可选择配置为InfiniBand模式也可配置为以太网模式从而能够与DGX集群所依托的任何网络基础设施进行集成。了解详细信息请参考NVIDIA ConnectX-8 SuperNICNVIDIA® BlueField-3® DPUBlueField-3 支持以太网和 InfiniBand 连接可提供高达400Gb/s 的网络速度BlueField-3每对带内管理和存储端口为DGX B300系统提供并行通道以提升性能。网络架构计算架构B300以太网计算网络架构是一种基于RoCE技术构建的高性能、高度容错的DGX SuperPOD计算网络。每块GPU通过两块NVIDIA ConnectX-8 SuperNICs连接两个独立平面每条链路速度为400GbE总带宽达2×400Gbps。一个SU拥有64台NVIDIA DGX B300一个SU拥有512块NVIDIA Blackwell Ultra SXM(B300)使用以太网交换机SN5600拥有64个800G的OSFP接口可分为128个400G重点***计算结构采用轨道优化、双平面***双平面双平面设计不仅为AI训练提供了高性能和低延迟还显著提升了容错能力当单个交换机、收发器或电缆故障时任务可以以一半的原始带宽在独立路径上继续运行。这两层平面也属于leaf层级。轨道优化网络(Rail-Optimised Networking)是什么轨道优化是一种为大规模AI训练集群专门设计的网络拓扑。它将网络中所有服务器的相同编号GPU比如所有服务器的GPU 0组织在同一个“轨道”里连接到同一组Leaf交换机上。解决什么问题解决的是NVIDIA为“数据并行”和“模型并行”等分布式训练策略量身打造的网络架构它通过为“同编号GPU”的集群通信创建专用高速通道解决了AI训练中最核心的通信瓶颈。分布式训练中的通信瓶颈。在训练万亿参数模型时单个GPU装不下必须把模型拆分到成百上千个GPU上并行计算。这些GPU之间需要频繁、高效地交换数据主要是梯度同步传统网络架构会在这里产生严重拥堵。了解详细资料请查考 轨道优化网络NVIDIA如何重新思考数据中心的AI网络设计——Vespertec存储架构NVIDIA DGX SuperPOD 有两种存储结构选项。以太网存储结构采用高速以太网网络结构这对于最大带宽至关重要。这是因为 DGX SuperPOD 的每节点 I/O 必须超过 40 GBps。高带宽需求为存储结构带来了显著优势。支持的以太网存储设备利用 RoCE 提供最佳性能并最小化 CPU 使用率。使用的也是SN5600系列的交换机DGX B300系统的以太网存储网络基于高性能的Spine-Leaf架构由两层交换机组成Spine和Leaf。在该专用存储网络中DGX B300计算节点与存储网络之间的连接采用接近43的轻微比例可根据部署需求灵活调整以平衡成本和性能。图中标注为“Varies”的存储连接带宽的灵活性相符。带内管理网络在功能层带内管理网络扮演着几个关键角色①它作为所有管理服务的主要通信骨干确保集群监控、维护和状态管理的稳定运行。②它为集群提供了访问较慢NFS存储层的路径如连接存储设备与管理网络的图所示。③通过上行边界连接图中显示为“带内网络”云图标该网络使内部服务——包括 Slurm、Kubernetes 及底层控制组件——能够访问外部资源如 NGC 容器仓库、代码库和数据源。④带内网络还为终端用户提供了访问Slurm主节点和Kubernetes服务的入口从而构建了一个完整且一致的管理和访问架构。带外管理网络该架构连接所有设备的管理端口包括DGX B300计算机架覆盖系统BMC和BlueField-3 BMC、管理交换机、管理服务器Mgmt-01到Mgmt-0N、存储设备、网络设备、机架式PDU和S-UFM管理节点——这些组件都需要与用户数据平面分离。所有管理端口都被隔离在专用网络中消除了非特权用户需要直接访问端口的任何场景并通过严格的逻辑隔离机制保障安全性。组网清单以4个SU组网为例一共256台DGX B300Compute Fabric 物料清单 (256节点)组件数量型号解读Compute Leafs (计算叶交换机)64920-9N42F-00RI-KC0这是Spectrum-4 (SN5600) 系列交换机用于连接所有DGX B300服务器。上行2048个port下行2048个portCompute Spines (计算脊交换机)32920-9N42F-00RI-KC0与Leaf同型号的SN5600交换机用于连接所有的Leaf交换机构成计算网络的无阻塞骨干。承接上行的2048个800G的portTransceivers on DGX (DGX侧光模块)2048980-9I51A-00NS00这是插在DGX B300服务器C8180网卡上的光模块。数量2048正好等于 256节点 × 8个GPU。单口拆封2个400GportTwin port OSFP Transceivers on Leaf - DGX (叶-服务器侧双端口模块)2048980-9I510-F4NS00这是插在Leaf交换机侧连接DGX服务器的光模块。数量与DGX侧模块数量相同2048但它是双端口 (Twin Port) 设计。这意味着每个这样的模块通过一根分叉线缆连接了两个两个不同的平面。Twin port OSFP Transceivers on Leaf - Spine (叶-脊侧双端口模块)4096980-9I510-F4NS00这是插在Leaf和Spine交换机上的光模块用于互联。数量是4096远多于Leaf-DGX的连接数反映了Leaf和Spine之间全互联的高带宽需求。DGX-Leaf Cable (服务器-叶交换机线缆)4096980-9I570-00N030连接DGX服务器和Leaf交换机的线缆。注意数量4096是DGX侧模块数量2048的两倍。这直接证明了每根连接DGX服务器的线缆都是一分二的将服务器的一个物理端口分别连接到两台不同的Leaf交换机上实现双平面设计。Leaf-Spine Cable (叶-脊交换机线缆)4096980-9I570-00N030连接Leaf和Spine交换机的线缆数量与叶-脊侧模块数量4096相匹配用于构建无阻塞的Spine-Leaf网络。Ethernet Storage Fabric 物料清单 (256节点)这里采用的并不是1比1的收敛比4台SN5600只有256个800的OSFP物理口但官方的参考列表中spine使用的光模块却有289块这里我不理解为什么要这样配置。所有我只列举了已经理解的物料如果想了解详细的清单请参考https://docs.nvidia.com/dgx-superpod/reference-architecture/scalable-infrastructure-b300/latest/components.html组件数量型号解读Storage Leafs DGX Side (存储叶交换机 - DGX侧)8920-9N42F-00RI-KC0连接所有DGX B300服务器的存储网络端口。8台Leaf对应了256个节点平均每台Leaf连接32个DGX的存储口。Storage Leafs Storage Side (存储叶交换机 - 存储侧)2920-9N42F-00RI-KC0连接后端存储设备。只有2台说明存储设备的端口密度很高或者采用了特殊的连接方式。Storage Spines (存储脊交换机)4920-9N42F-00RI-KC0连接所有的存储Leaf交换机包括DGX侧和存储侧构成存储网络的无阻塞骨干。400G Transceiver (for BF3240)512980-9I693-F4NS00这是插在DGX B300服务器内部BlueField-3 DPU上的光模块。数量512正好等于 256节点 × 2个存储端口每个DGX节点通过BF3 DPU提供2个400G存储网络接口。400G Transceiver (for DDN)128980-9I693-F4NS00这是插在后端DDN存储阵列上的光模块。128个端口对应了BOM前文提到的32台DDN AI400 X3设备每台提供4个400G模块连接。400G Transceiver (for Control Plane Nodes)4980-9I693-F4NS00用于连接管理控制节点如登录节点到存储网络数量很少说明管理节点对存储的访问量相对较小。DGX-Leaf Cable (DGX-叶交换机线缆)512980-9I570-00N030连接DGX服务器BF3 DPU和存储Leaf交换机的线缆。512根正好对应512个BF3存储端口。DDN, Mgmt - Leaf Cable (DDN/管理节点-叶交换机线缆)128980-9I557-00N030连接DDN存储阵列、管理节点到存储Leaf交换机的线缆。Inband Fabric 物料清单组件型号Inband Leafs (带内叶交换机)920-9N42F-00RI-KC0Inband Spines (带内脊交换机)920-9N42F-00RI-KC0400G Transceiver (for BF3240)980-9I693-F4NS00400G Transceiver (for Control Plane Nodes)980-9I51S-F4NS00Twin port OSFP Transceivers on Leaf - DGX, Management (叶-设备侧双端口模块)980-9I510-F4NS00Twin port OSFP Transceivers on Leaf - Spine (叶-脊侧双端口模块)980-9I510-F4NS00DGX, Mgmt - Leaf Cable (DGX/管理节点-叶交换机线缆)980-9I557-00N030Leaf-Spine Cable (叶-脊交换机线缆)980-9I570-00N030总结NVIDIA DGX B300 SuperPOD的设计是一套精密而复杂的系统工程。它并非硬件的简单堆砌而是基于对AI训练流量模式的深刻理解将性能、可靠性、成本三个维度做到了极致的平衡。通过四网分立的清晰边界、轨道优化的通信效率、双平面的故障容错以及适度收敛的成本控制为当今最前沿的AI模型训练提供了坚实、可扩展的算力基座。

相关新闻

最新新闻

日新闻

周新闻

月新闻