NVIDIA Vera CPU 通过 88 核设计重新定义 AI 工作负载

NVIDIA 的 Vera CPU 的代理 AI 性能是 x86 芯片的 1.8 倍，将其定位为 AI 工厂和强化学习环境的游戏规则改变者。

NVIDIA's Vera CPU Redefines AI Workloads With 88-Core Design

NVIDIA 推出了首款专为代理AI 工作负载而设计的内部 CPU，即 88 核 Vera CPU。 Vera 在 GTC 2026 上宣布，优先考虑高单线程性能、内存带宽和并发性，旨在加速 AI 工厂中依赖 CPU 的任务，例如 Python 执行、数据库查询和强化学习环境。

Vera CPU 由 NVIDIA 定制的 Olympus 内核提供支持，每周期指令数 (IPC) 比其前身 Grace 提高了 50%。该处理器具有高达 1.2 TB/s 的 LPDDR5X 内存带宽，针对高吞吐量推理工作负载进行了优化，使更智能的 AI 代理能够采取更多步骤并执行更复杂的任务。 5 月 27 日发布的基准测试显示，Vera 在精心策划的 Linux 和 AI 相关测试中优于 AMD EPYC 和 Intel Xeon 处理器，尽管所有测试都是与 NVIDIA 协调的。

为什么 Vera CPU 很重要

随着人工智能转向代理系统（模型采取行动、执行工具并与环境交互），CPU 的作用已经扩大。 GPU 主导训练和推理，而 CPU 则处理沙盒代码执行、数据处理和编排等任务。 NVIDIA 的 Vera CPU 将这些功能集成到“关键路径”中，减少了延迟并提高了 AI 管道的整体效率。

传统的 x86 CPU 一直难以满足这些需求，特别是由于摩尔定律下性能提升速度放缓。 NVIDIA 与 Vera 合作的方法将重点从最大化每美元核心数转向最大化每瓦特和每美元的 AI 输出。早期测试表明，在神经分支预测、NVIDIA 可扩展一致性结构和节能 LPDDR5X 内存的推动下，Vera 架构在代理沙箱工作负载上的性能比 x86 芯片高出 1.8 倍。

架构创新

Vera 内部的奥林巴斯核心专为分支繁重、内存敏感的工作负载而构建。主要功能包括神经分支预测器，能够以零惩罚维持每个周期两个采用的分支，以及具有高级乱序调度功能的 10 宽解码单元。这些功能可以转化为更快地执行 PyTorch 和图形工作负载等深层软件堆栈。此外，与 x86 CPU 相比，Vera 的内存延迟降低了 40%，确保为复杂的强化学习循环按时交付数据。

在可扩展性方面，CPU 通过 NVIDIA 的可扩展一致性结构进行连接，该结构可提供可预测的核心到核心通信，数据移动速度比竞争架构快 50%。这种可预测性对于强化学习至关重要，在重负载下保持一致的评估循环是模型改进的关键。

市场地位和定价

NVIDIA 将 Vera CPU 的批量定价定为每单位 5,000 美元左右，远低于 Rubin GPU 的 55,000 美元成本。这反映了 Vera 作为人工智能工厂的高密度主机处理器而不是通用服务器 CPU 的角色。单个机架最多可集成 256 个 Vera CPU，吞吐量是上一代系统的 6 倍。然而，NVIDIA 最新 AI 系统（包括 Rubin GPU）的总构建成本已飙升至 780 万美元，部分原因是内存成本激增 485%。

Vera 的推出正值 NVIDIA 继续主导人工智能硬件市场之际。该公司的股票反映了这一势头，截至 2026 年 5 月 30 日，其市值达到 5.15 万亿美元，尽管其股价近期每日波动很小，收于 211.14 美元。

对人工智能工厂的影响

通过解决 CPU 瓶颈并专注于代理工作负载，Vera CPU 使 NVIDIA 成为下一代 AI 基础设施的领导者。其最大化每瓦特和每美元人工智能吞吐量的能力可能会吸引大型人工智能工厂的运营商，因为效率直接影响成本和盈利能力。随着人工智能模型变得越来越复杂，并且需要与其环境进行更多交互，像 Vera 这样的技术可能变得不可或缺。

对于投资者来说，Vera 的成功将取决于它在超出 NVIDIA 控制基准的实际部署中的表现。由于迄今为止独立测试的机会有限，市场将密切关注更广泛的采用以及与 AMD 和英特尔即将推出的人工智能优化 CPU 的比较。

书签