NVIDIA CUDA 13.3 引入了基于 C++ 的 GPU 编程,优化了 Tensor Core 使用并简化了内核开发。
随着 CUDA 13.3 的发布,NVIDIA 将其 CUDA Tile 编程模型扩展到了 C++,这标志着 GPU 内核优化的重大发展。 CUDA Tile 以前仅在 Python 中提供,现在允许开发人员在大型 C++ 代码库中利用基于图块的抽象,从而简化高效 GPU 内核的创建。编程方面的这种演变与 NVIDIA 更广泛地推动简化 AI 和高性能计算工作负载的开发相一致。
2025 年 12 月随 CUDA 13.1 引入的基于图块的编程代表了对传统单指令多线程 (SIMT) 模型的转变。相反,开发人员可以将 GPU 操作抽象为“图块”——多维数组的逻辑切片。 CUDA Tile 可实现并行性、内存移动和异步等方面的自动化,使程序员能够专注于算法而不是低级硬件管理。
CUDA 13.3 的 C++ 支持建立在这个基础上,引入了与 CUDA Tile 中间表示 (IR) 集成的图块内核 API。这种抽象实现了从 Ampere 到即将推出的 Rubin 级 GPU 等 NVIDIA GPU 架构的可移植性,同时充分利用张量核心和张量内存加速器 (TMA) 等高级功能。重要的是,tile编程模型确保了向后兼容性;开发人员可以针对最新的 GPU 硬件进行优化,而无需为每一代重写代码。
为什么重要
支持 C++ 的举措显着拓宽了 CUDA Tile 的适用性,因为 C++ 仍然是游戏、机器学习和科学计算等行业 GPU 编程的主导语言。通过降低内核开发的复杂性,CUDA Tile 可以加速 NVIDIA GPU 在 AI 工作负载中的采用,尤其是在学术研究和企业环境中。
2026 年 4 月发布的早期评估表明 CUDA Tile 能够在简化内核设计的同时保持 Tensor Core 效率。 NVIDIA 转向以图块为中心的编程与其对张量优化架构的战略重点相一致,该架构支撑着人工智能和高性能计算应用程序。
实际实施
对于开发人员来说,CUDA Tile C++ 的实际好处源于自动化。程序员不是显式管理线程工作负载,而是定义数据图块上的操作。例如,与 SIMT 对应项相比,CUDA Tile C++ 中的简单向量加法内核需要更少的显式命令。该模型还支持内存对齐和屏蔽操作等高级优化,确保 GPU 资源的高效利用。
CUDA Tile C++ 程序需要具有计算能力 8.x 或更高版本(安培及以上)的硬件,以及 CUDA Toolkit 13.3。 NVIDIA 建议使用 R610 驱动程序或更高版本以获得最佳性能。还可以使用 NVIDIA Nsight Compute 对图块内核进行分析,以微调性能指标。
市场背景
此版本发布之际,NVIDIA 继续主导 GPU 市场,截至 2026 年 5 月 26 日,其市值已达 5.24 万亿美元。该公司对 CUDA Tile 等工具的关注反映了其巩固其在人工智能和机器学习基础设施领域领导地位的努力。随着企业越来越依赖张量优化架构来处理 AI 工作负载,CUDA Tile 的硬件抽象可以使 NVIDIA 的 GPU 对希望简化复杂工作流程的开发人员更具吸引力。
对于交易者和分析师来说,NVIDIA 的软件生态系统仍然是关键的竞争优势。通过提高开发人员生产力并鼓励生态系统锁定,CUDA Tile 可以进一步巩固 NVIDIA 在 AI 硬件市场的地位,提供长期增长潜力。
展望未来
NVIDIA 的 CUDA Tile C++ 支持凸显了其根据新兴人工智能需求不断发展 GPU 编程范例的承诺。 CUDA 13.3 现已推出,开发人员可以探索基于图块的编程,以解锁新的效率水平。对于那些想要入门的人来说,重要的资源包括CUDA Tile编程指南和CUDA Toolkit 13.3下载页面。
