业余 AI Envoy 使用过时的英特尔内存在单个消费级 GPU 上运行万亿参数模型

CurrencyManiac DeFi 2026-05-24 14:16:51 1 阅读

在一次超越传统硬件预期的演示中，万亿参数大型语言模型已成功在单个中档消费类显卡上运行，并搭配大量已停产的英特尔内存技术。

图片：Nvidia RTX 3060 GPU 和 Intel Optane 持久内存 DIMM 的说明性设置。（来源：示例来源）

该实验由中国人工智能爱好者 APFrisco 进行，并由 Tom's Hardware 报道，采用了 Moonshot AI 的 Kimi K2.5 模型。这种专家混合 (MoE) 模型拥有 1 万亿个总参数，但却被诱骗在 Nvidia RTX 3060（一款专为 1080p 游戏设计的 GPU）以及 768 GB 的英特尔傲腾持久内存 (PMem) 上运行。

该设置实现了大约每秒四个令牌的推理速度。虽然生产部署速度缓慢，但考虑到硬件的消费级核心，这一结果被认为是显着的。 Kimi K2.5 的典型高性能推理目标配置具有多达 8 个高端 GPU，每秒可实现 10 到 300 多个令牌。

图片：Kimi K2.5 中使用的 Mixture-of-Experts 架构的概念图。（来源：示例来源）

这一壮举得益于模型高效的 MoE 设计。对于生成的每个令牌，模型的 1 万亿个参数中只有 320 亿个被激活。尽管效率如此，但该模型的完整大小约为 630 GB。即使是量化（精确压缩）版本也需要大约 381 GB 内存，远远超过标准消费 RAM 的容量。

这需要非常规地使用英特尔傲腾 PMem。英特尔已停产其 Optane 系列，使这些模块的传统硬件在二级市场上可用。虽然速度比传统 DRAM 慢，但 Optane 内存的每 GB 成本要低得多，为通常需要企业级基础设施的加载模型提供了一种实用的（尽管是小众的）解决方案。

RTX 3060 GPU 于 2021 年初推出，配备 12 GB VRAM，从未用于处理如此大规模的 AI 工作负载。 Moonshot AI 于 2026 年 1 月 27 日发布的 Kimi K2.5 的开放重量性质对于实现该实验至关重要。该模型是多模式的，并接受了大约 15 万亿个混合视觉和文本标记的训练。

APFrisco 在 r/LocalLLaMA Reddit 子版块上分享了演示，强调了一条利用创造性硬件组合克服资源限制的人工智能实验路径，将前沿规模的模型交互带入坚定的爱好者的领域。