这个半千兆字节的人工智能模型在您的手机上运行本地代理

MiniCPM5-1B 是 OpenBMB 的十亿参数模型，是 MiniCPM 设备端系列的最新版本。它支持本机工具调用和模型上下文协议 (MCP)，适合智能手机的内存，并且基准测试领先于同尺寸级别的所有可比开源模型。

该模型是 MiniCPM5 系列中的第一个版本，从一开始就设计用于在资源受限的硬件上进行本地部署。拥有 10 亿个参数，以任何当前标准来看都很小。（参数赋予人工智能模型广泛的知识，参数越多通常意味着它越强大。）

Google 的 Gemma 4 起始为 20 亿个有效参数，但可扩展至 310 亿个。 Llama 4 Scout 运行 170 亿个活动参数。 MiniCPM5-1B 并不假装与这些产品竞争。它的主张是用更少的钱做更多的事情。

它是如何构建的

架构主干来自 MiniCPM4，THUNLP、清华大学和 ModelBest 的 OpenBMB 团队的技术报告详细介绍了这一点。核心创新是 InfLLM v2，这是一种可训练的注意力机制，可在长上下文推理过程中针对少于 5% 的周围标记来处理每个标记，从而大大减少计算量，而不会造成有意义的准确度下降。（“令牌”是人工智能模型处理信息的基本单位。）
&amp;amp;amp;amp;lt;span style="显示：内联块；宽度：0px；溢出：隐藏；行高：0；" data-mce-type="bookmark" class="mce_SELRES_start"&amp;amp;amp;amp;gt;&amp;amp;amp;amp;lt;/span&amp;amp;amp;amp;amp;gt;

在数据方面，该团队构建了 UltraClean，这是一个过滤管道，使用 8 万亿个训练代币使模型获得具有竞争力的性能，而 Qwen 3 消耗了 36 万亿个代币。训练后使用强化学习与高效蒸馏技术相结合（使用较大的模型作为较小模型的指导），将数学、代码和指令遵循的基准分数提高了 16 分，同时将失控长度响应减少了 29 个百分点。

上下文窗口包含 128K 个标记，单次传递大约 96,000 个单词的连续文本。对于 10 亿个参数模型来说，这是一个有意义的数字。长时间角色扮演会话中的持久内存、完整的 PDF 摘要或不会在任务中重置的代理上下文都在范围内。

为什么一个愚蠢的代理就足够了

我们对其进行了测试，确认MiniCPM5-1B支持MCP和工具调用。这使它跻身于一个非常短的不到 20 亿个参数模型的列表中，该模型能够在没有云基础设施的情况下实现真正的代理工作流程。

也就是说，要实现此功能，用户需要设置其他配置，所有这些配置都列在模型的 Github 存储库中。

This Half-Gigabyte AI Model Runs Local Agents on Your Phone

实际场景：iPhone 上的本地代理可以查询日历、搜索本地数据库或调用网络研究 MCP 服务器——完全离线。正如我们所介绍的，运行本地 AI 已经比大多数人想象的更容易实现，而且设备上的竞赛一直在加速进行。设计为在手机上运行而无需云后端的模型正在成为真正的产品类别，而不是研究好奇心。

如果本地代理可以简单地获取日历并告诉您今天的日程安排，那么您不需要 OpenAI 来检查您的日历。

对于轻型代理任务和扩展对话上下文，MiniCPM5-1B 具有竞争力。然而，即使 OpenBMB 可能没有考虑到这一点，该模型的健谈风格使其成为本地角色扮演的一个不错的候选者 - 128K 的上下文意味着一个故事可以在数十次甚至数百次交流中展开，而模型不会丢失线程。

阅读笔记、总结文档并回答相关问题的小型代理都在其范围内，特别是与 MCP 研究服务器配对以弥补知识差距时。

这种规模的竞争包括阿里巴巴的Qwen3-0.6B、Qwen3.5-0.8B和Liquid AI的LFM2.5-1.2B-Thinking。 OpenBMB 自己的能力基准比较了常识、领域知识、编码、指令跟踪、数学推理、逻辑推理和代理任务的所有四个方面。 MiniCPM5-1B 在所有七个类别中均处于领先地位，在代理性能和常识方面具有最明显的优势。

This Half-Gigabyte AI Model Runs Local Agents on Your Phone

快速测试

我们进行了三项快速评估。第一个是典型的逻辑陷阱：“请充当专业律师和立法者。根据福克兰群岛的法律制度，男人娶寡妇的妹妹合法吗？”

正确答案很明显——有寡妇的男人已经死了，而死男人是不会在结婚证上签字的。 MiniCPM5-1B 对福克兰群岛婚姻法进行了详细分析，但完全错过了陷阱，将其视为一个简单的管辖权问题。

“最重要的是，你必须确定福克兰群岛的实际婚姻状况。这是一个事实问题，应该由当地当局或通过法律程序来确定。”该模特经过长时间的推理后回应道。

This Half-Gigabyte AI Model Runs Local Agents on Your Phone

我们的第二次测试要求做出决定性的 A/B 选择。该模型没有选择任何一个，而是对冲双方的答案。这是对话压力下小模型中已知的失败模式。 MiniCPM5-1B 也不例外。

我们要求模型告诉我们哪个行业将在 2100 年主导经济：加密货币还是人工智能？该模型的内部思维根本没有对这个问题进行推理，而是从头开始分析加密货币和人工智能投资的协同作用。

公平地说，对于 1B 模型来说，这一切都不足为奇。

代理能力才是真正的故事。将 MiniCPM5-1B 与 MCP 服务器配对进行网络研究，它对模糊事实问题产生幻觉的倾向消失了，或者至少大大减少了。

我们询问该模型当前的比特币价格和三只股票推荐，该工具被成功调用，并且推荐（亚马逊、微软和 Nvidia）有意义。

This Half-Gigabyte AI Model Runs Local Agents on Your Phone

结论

一个健谈、可本地部署的代理可以调用工具、保存 128K 上下文并完全在设备上运行，这是比与 GPT-4 竞争的独立问答模型更有趣的产品。

只是不要取消您的 AI 订阅。知道你正在处理什么：与大型模型相比，它的知识匮乏，它的编码很差（同样，与更大的模型相比），并且不会接近 AGI，如果这就是你正在寻找的东西。

MiniCPM5-1B 现已在 Apache 2.0 许可下在 Hugging Face 上提供，与 vLLM、SGLang 和标准 Transformers 推理兼容