NVIDIA 推出 CompileIQ 以最大限度提高 GPU 内核性能

NVIDIA 的 AI 驱动的 CompileIQ 使用进化算法优化 GPU 内核性能，使关键 AI 工作负载提升高达 15%。

NVIDIA Unveils CompileIQ to Maximize GPU Kernel Performance

NVIDIA 推出了 CompileIQ，这是一个由 AI 支持的框架，旨在通过针对特定工作负载调整编译器配置来优化 GPU 内核性能。 CompileIQ 包含在 CUDA 13.3 版本中，它使用进化算法来调整寄存器分配和指令调度等内部编译器参数，从而为人工智能推理等计算密集型应用程序提供量身定制的性能改进。

编译器级别的性能调优长期以来一直是许多开发人员的盲点。 GPU 编译器通常依赖于针对一般工作负载进行优化的默认启发式算法，从而为特定内核配置留下了未开发的潜力。借助 CompileIQ，NVIDIA 旨在通过允许团队微调其代码生成过程来缩小这一差距。领先的人工智能实验室已经报告称，使用该工具，关键工作负载的效率提高了 15%。

人工智能基础设施的利害关系

现代人工智能工作负载，尤其是大型语言模型 (LLM) 推理，是资源密集型的。 NVIDIA 数据表明，LLM 推理管道中超过 90% 的计算时间花费在少数内核上，包括线性层和注意力机制中的 GEMM。这些领域的微小性能提升可能会显着影响整体吞吐量。 CompileIQ 通过优化内核二进制文件来最大限度地提高 NVIDIA GPU 的效率来解决这个问题。

这一重点与 NVIDIA 自动化 AI 部署的更广泛战略相一致。今年早些时候，该公司推出了 TensorRT LLM AutoDeploy，它可以自动对 PyTorch 模型进行推理优化，从而减少手动工程的需要。通过将自动调优功能直接嵌入到 CompileIQ 和 TensorRT 等工具中，NVIDIA 正在为依赖其 GPU 硬件的企业简化 AI 部署流程。

CompileIQ 的工作原理

CompileIQ 作为 Python 包运行，使开发人员只需最少的设置即可访问它。用户定义目标函数（例如最小化内核的运行时间），并且该工具应用遗传算法来探索编译器设置。输出是一个高级控制文件 (ACF)，开发人员可以通过标准编译器标志应用该文件。这种迭代方法可确保编译器为给定工作负载生成最高效的二进制文件。

虽然 CompileIQ 需要优化代码的初始基线，但当传统的调优方法已经用尽时，CompileIQ 为团队提供了一个新的杠杆。 NVIDIA 强调，该工具的优势不仅限于人工智能，还扩展到科学计算、自动驾驶汽车和图像处理等领域，即任何使用 GPU 编译器的应用程序。

市场影响

NVIDIA 对编译器优化的关注反映了人工智能基础设施对性能提升的需求不断增长。随着生成式人工智能采用规模的扩大，企业需要能够从现有硬件中获取最大价值的工具。 CompileIQ 能够在已优化的内核中提供两位数的性能改进，使其成为 NVIDIA 生态系统的宝贵补充。

这可能会进一步巩固 NVIDIA 在价值 5.24 万亿美元的人工智能硬件市场的主导地位，其 GPU 是人工智能训练和推理的支柱。预计到 2030 年，全球 AI 市场将超过 1.8 万亿美元，CompileIQ 等工具可帮助 NVIDIA 巩固其作为可扩展 AI 解决方案关键推动者的地位。

多目标优化和可扩展性

除了运行时改进之外，CompileIQ 还支持多目标优化，使开发人员能够平衡运行时、编译时间和功耗等竞争优先级。对于功率受限的数据中心或快节奏的 CI/CD 管道，这种灵活性至关重要。 CompileIQ 计算非支配解决方案的帕累托前沿，使团队能够选择最适合其操作限制的配置。

此外，该工具在设计时考虑了 IP 保护。工作负载保留在本地，并且仅共享生成的 ACF，确保用户数据和编译器内部保持安全。这使得 CompileIQ 适合安全性和可重复性至关重要的企业环境。

展望未来

CompileIQ 现已通过 pip 提供，并无缝集成到 Python 工作流程中。 NVIDIA 的 GitHub 存储库提供文档和示例，使开发人员可以轻松入门。随着 AI 工作负载的复杂性不断增加，CompileIQ 提供了一种无需升级硬件即可最大化 GPU 利用率的方法。

对于突破 GPU 性能极限的团队来说，CompileIQ 代表了编译器驱动优化的新前沿。凭借 NVIDIA 在 AI 基础设施方面的创新记录，该工具可以为性能调整树立新标准。现在的问题是团队采用它的速度有多快，以及 NVIDIA 为其不断扩展的生态系统准备了哪些进一步的进步。

书签