NVIDIA GB200 NVL72 利用 Slurm 的拓扑感知调度来实现高效的 AI 工作负载,释放亿亿次性能。
NVIDIA 的 GB200 NVL72 是一款尖端的机架级 AI 超级计算机,现在通过 Slurm 进行拓扑感知作业调度来实现优化性能。这一进步至关重要,因为人工智能模型,特别是万亿参数大语言模型 (LLM),需要前所未有的计算能力和高效的资源分配。该系统基于 NVIDIA Blackwell 架构构建,可提供高达每秒 130 TB 的 GPU 通信带宽,并支持一些最复杂的 AI 工作负载的训练和推理。
GB200 NVL72 在单个机架中集成了 72 个 NVIDIA Blackwell GPU 和 36 个 Grace CPU,并通过 NVIDIA NVLink 互连。据 NVIDIA 称,这种设置不仅支持大规模训练,还可以为 OpenAI GPT 模型加速实时推理,每秒处理超过 150 万个令牌。然而,要在共享集群中最大化这种性能,需要进行战略调度,正如 NVIDIA 与 SchedMD 合作增强 Slurm 的拓扑感知功能所强调的那样。
为什么调度对于百亿亿次系统很重要
人工智能工作负载通常在共享集群上运行,其中多个作业必须竞争资源。如果没有拓扑感知调度,作业可能会低效地跨越 NVLink 域,从而导致资源碎片和性能下降。新推出的 Slurm 拓扑/块插件使作业与 GB200 NVL72 的物理网络布局保持一致,保留局部性并最大限度地减少碎片。这可确保以最大化带宽和计算效率的方式分配 GPU 资源。
例如,NVIDIA 对 5000 个节点的 GB200 NVL72 集群的模拟表明,新的调度策略实现了 GPU 占用率在理论最大值的 1% 以内,同时保持了较高的作业效率。该插件还战略性地放置了较小的作业,以释放资源用于较大的人工智能训练任务,从而在利用率和性能之间取得平衡。
细分规模和最佳实践
GB200 NVL72 系统的主要功能之一是支持更大的段大小。虽然 NVIDIA HGX H100 等之前的系统仅限于单节点段大小,但 GB200 NVL72 可以处理多达 18 个节点的段。这种灵活性使运营商能够根据特定工作负载定制分段大小,例如针对高带宽模型(如专家混合 (MoE) 训练)使用 16 节点分段,或者针对要求较低的任务使用更小的分段。
在实践中,NVIDIA 建议与工作负载特征保持一致的段大小。例如,128 个或更多 GPU 的大型作业应使用 16 节点段,而较小的作业可以分配给单节点段。这些配置可以防止过度限制调度程序并保持较高的集群利用率,即使作业配置文件随着时间的推移而变化。
市场背景和采用
GB200 NVL72 的商业部署将于 2025 年开始加速,每个机架的系统价格在 280 万美元至 340 万美元之间。据报道,截至 2026 年 3 月,完全配置的系统价格已攀升至 880 万美元,反映出对先进人工智能基础设施的需求飙升。 NVIDIA 的数据中心收入在 2026 财年第一季度达到 391 亿美元,凸显了 AI 和 HPC 工作负载对 GB200 NVL72 等系统的日益依赖。
对于交易者来说,NVIDIA 的股票(纳斯达克股票代码:NVDA)目前交易价格为 221.42 美元,市值为 5.40 万亿美元。该公司在人工智能硬件领域的领先地位,再加上 Slurm 拓扑感知调度等软件创新,使其在快速扩张的人工智能和高性能计算市场中占据有利地位。
展望未来
GB200 NVL72 代表了人工智能超级计算领域的重大飞跃,但其全部潜力取决于高效的工作负载管理。 NVIDIA 与 SchedMD 合作改进 Slurm,展示了软件如何补充硬件以实现百亿亿次性能。对于部署这些系统的组织来说,对调度策略的持续监控和基于模拟的测试将是保持高利用率和峰值性能的关键。
随着 AI 模型的复杂性不断增加,GB200 NVL72 和类似架构可能会成为大规模 AI 训练和推理的基础。随着调度算法和硬件集成的进一步进步,百亿亿次人工智能计算时代才刚刚开始。
