导航菜单
首页
排名 涨幅榜 跌幅榜 24h成交额 新币榜
快讯 机构 观点 人物 专题

业余 AI Envoy 使用过时的英特尔内存在单个消费级 GPU 上运行万亿参数模型

在一次超越传统硬件预期的演示中,万亿参数大型语言模型已成功在单个中档消费类显卡上运行,并搭配大量已停产的英特尔内存技术。

图片:Nvidia RTX 3060 GPU 和 Intel Optane 持久内存 DIMM 的说明性设置。 (来源:示例来源)

该实验由中国人工智能爱好者 APFrisco 进行,并由 Tom's Hardware 报道,采用了 Moonshot AI 的 Kimi K2.5 模型。这种专家混合 (MoE) 模型拥有 1 万亿个总参数,但却被诱骗在 Nvidia RTX 3060(一款专为 1080p 游戏设计的 GPU)以及 768 GB 的英特尔傲腾持久内存 (PMem) 上运行。

该设置实现了大约每秒四个令牌的推理速度。虽然生产部署速度缓慢,但考虑到硬件的消费级核心,这一结果被认为是显着的。 Kimi K2.5 的典型高性能推理目标配置具有多达 8 个高端 GPU,每秒可实现 10 到 300 多个令牌。

图片:Kimi K2.5 中使用的 Mixture-of-Experts 架构的概念图。 (来源:示例来源)

这一壮举得益于模型高效的 MoE 设计。对于生成的每个令牌,模型的 1 万亿个参数中只有 320 亿个被激活。尽管效率如此,但该模型的完整大小约为 630 GB。即使是量化(精确压缩)版本也需要大约 381 GB 内存,远远超过标准消费 RAM 的容量。

这需要非常规地使用英特尔傲腾 PMem。英特尔已停产其 Optane 系列,使这些模块的传统硬件在二级市场上可用。虽然速度比传统 DRAM 慢,但 Optane 内存的每 GB 成本要低得多,为通常需要企业级基础设施的加载模型提供了一种实用的(尽管是小众的)解决方案。

RTX 3060 GPU 于 2021 年初推出,配备 12 GB VRAM,从未用于处理如此大规模的 AI 工作负载。 Moonshot AI 于 2026 年 1 月 27 日发布的 Kimi K2.5 的开放重量性质对于实现该实验至关重要。该模型是多模式的,并接受了大约 15 万亿个混合视觉和文本标记的训练。

APFrisco 在 r/LocalLLaMA Reddit 子版块上分享了演示,强调了一条利用创造性硬件组合克服资源限制的人工智能实验路径,将前沿规模的模型交互带入坚定的爱好者的领域。