“混合代理推理适用于包含敏感数据但需要强大人工智能的工作。该公司解释说,诸如财务记录、健康信息和个人文件等。紧凑模型在您的设备上本地运行,以确定敏感数据何时也应保存在本地。同时,需要前沿模型全部能力的工作都在服务器上运行。”
你应该关心它吗?
推理(运行训练有素的人工智能模型以生成响应的过程)是每次向聊天机器人发送提示时发生的计算工作。目前,几乎所有这些都发生在人工智能公司拥有的远程服务器上。这意味着您的财务文件、健康查询和私人笔记在您得到答复之前就会传输到其他人的计算机上。
这就是为什么您会在聊天机器人上看到“自动”模式或“低思维”模式。人工智能公司总是试图迫使用户以最便宜的方式进行交互。
斯里尼瓦斯对此很直接。在台北电脑展上接受彭博电视台采访时,他大声说出了这句话:“你不希望所有的计算都集中在服务器中,并且所有的东西都通过最大的模型运行。有些人每月花费 5 亿美元。您真正想要的是每个用户每瓦特的高效价值。”将推理工作卸载到用户硬件可以减少 Perplexity 的费用。
本地推理对于这些公司来说是最好的,因为它可以降低很多成本,但对于人工智能用户来说有一个重要的优点:它将数据保存在你的机器上。权衡始终是功率:本地运行的较小模型的能力不如数据中心内的大型模型。
Perplexity 的协调器试图两者兼得。简单的任务——总结您已经编写的文档、格式化文本、轻量级分类——在本地运行。复杂的推理会被路由到云端,理想情况下不会附加任务的敏感部分。该公司表示,这是在任务中自动发生的,用户看不到。路由在实践中是否像在 Computex 演示中听起来那样可靠是 7 月份的发布将回答的问题。
有一点值得澄清:这并不是 Perplexity 放弃您控制的开源本地模型。本地组件是 Perplexity 作为其应用程序的一部分部署的紧凑模型。云组件仍然通过 Perplexity 的服务器进行路由。想要完全离线、自托管设置的用户(例如 MiniCPM5-1B 提供的项目)在这里找不到。
这些数字给出了框架背景。 Srinivas 在 4 月份宣布,Perplexity 的收入从1 亿美元增长到 5 亿美元,而员工人数仅增加了 34%。跨未训练的模型路由查询的公司有强烈的动机来尽可能降低计算成本。将部分推理负担转移到用户设备(已流通的数十亿台个人电脑)是实现这一目标的有效方法。隐私宣传是真实的,但它很容易与财务宣传相一致。
还有谁在这样做
人工智能领域的每个主要参与者现在都在推动设备内推理或混合推理。 Apple Intelligence 在 M 系列芯片上本地运行最敏感的处理。 Microsoft 的 Foundry Local 于 2026 年 4 月全面上市,无需依赖云即可在 Windows、macOS 和 Linux 上实现全面的 AI 推理。
Nvidia 在 Perplexity 宣布推出的同一届 Computex 上宣布了 RTX Spark,目标是笔记本电脑和台式机上的本地 LLM 推理。正如 Decrypt 所报道的,Google 的做法更具争议性 - Chrome 在未经用户同意的情况下悄悄安装了 4GB Gemini Nano 型号,而且大多数用户实际看到的“AI 模式”按钮甚至没有使用它。
Perplexity 的区别在于编排层。系统不会要求用户预先选择本地或云,而是实时决定每个任务。 Srinivas 表示,这种方法“与芯片无关”——Computex 演示在 Intel Core Ultra Series 3 上运行,但也支持 Nvidia 处理器。该功能目前是 Windows PC 应用程序 Perplexity 独有的,更广泛的推出时间表尚未确定。
