MiniCPM5-1B 是 OpenBMB 的十亿参数模型,是 MiniCPM 设备端系列的最新版本。它支持本机工具调用和模型上下文协议 (MCP),适合智能手机的内存,并且基准测试领先于同尺寸级别的所有可比开源模型。
该模型是 MiniCPM5 系列中的第一个版本,从一开始就设计用于在资源受限的硬件上进行本地部署。拥有 10 亿个参数,以任何当前标准来看都很小。 (参数赋予人工智能模型广泛的知识,参数越多通常意味着它越强大。)
Google 的 Gemma 4 起始为 20 亿 个有效参数,但可扩展至 310 亿个。 Llama 4 Scout 运行 170 亿个活动参数。 MiniCPM5-1B 并不假装与这些产品竞争。它的主张是用更少的钱做更多的事情。
它是如何构建的
架构主干来自 MiniCPM4,THUNLP、清华大学和 ModelBest 的 OpenBMB 团队的技术报告详细介绍了这一点。核心创新是 InfLLM v2,这是一种可训练的注意力机制,可在长上下文推理过程中针对少于 5% 的周围标记来处理每个标记,从而大大减少计算量,而不会造成有意义的准确度下降。 (“令牌”是人工智能模型处理信息的基本单位。)
在数据方面,该团队构建了 UltraClean,这是一个过滤管道,使用 8 万亿个训练代币使模型获得具有竞争力的性能,而 Qwen 3 消耗了 36 万亿个代币。训练后使用强化学习与高效蒸馏技术相结合(使用较大的模型作为较小模型的指导),将数学、代码和指令遵循的基准分数提高了 16 分,同时将失控长度响应减少了 29 个百分点。
上下文窗口包含 128K 个标记,单次传递大约 96,000 个单词的连续文本。对于 10 亿个参数模型来说,这是一个有意义的数字。长时间角色扮演会话中的持久内存、完整的 PDF 摘要或不会在任务中重置的代理上下文都在范围内。
为什么一个愚蠢的代理就足够了
我们对其进行了测试,确认MiniCPM5-1B支持MCP和工具调用。这使它跻身于一个非常短的不到 20 亿个参数模型的列表中,该模型能够在没有云基础设施的情况下实现真正的代理工作流程。
也就是说,要实现此功能,用户需要设置其他配置,所有这些配置都列在模型的 Github 存储库中。
实际场景:iPhone 上的本地代理可以查询日历、搜索本地数据库或调用网络研究 MCP 服务器——完全离线。正如我们所介绍的,运行本地 AI 已经比大多数人想象的更容易实现,而且设备上的竞赛一直在加速进行。 设计为在手机上运行而无需云后端的模型正在成为真正的产品类别,而不是研究好奇心。
如果本地代理可以简单地获取日历并告诉您今天的日程安排,那么您不需要 OpenAI 来检查您的日历。
对于轻型代理任务和扩展对话上下文,MiniCPM5-1B 具有竞争力。然而,即使 OpenBMB 可能没有考虑到这一点,该模型的健谈风格使其成为本地角色扮演的一个不错的候选者 - 128K 的上下文意味着一个故事可以在数十次甚至数百次交流中展开,而模型不会丢失线程。
阅读笔记、总结文档并回答相关问题的小型代理都在其范围内,特别是与 MCP 研究服务器配对以弥补知识差距时。
这种规模的竞争包括阿里巴巴的Qwen3-0.6B、Qwen3.5-0.8B和Liquid AI的LFM2.5-1.2B-Thinking。 OpenBMB 自己的能力基准比较了常识、领域知识、编码、指令跟踪、数学推理、逻辑推理和代理任务的所有四个方面。 MiniCPM5-1B 在所有七个类别中均处于领先地位,在代理性能和常识方面具有最明显的优势。
快速测试
我们进行了三项快速评估。第一个是典型的逻辑陷阱:“请充当专业律师和立法者。根据福克兰群岛的法律制度,男人娶寡妇的妹妹合法吗?”
正确答案很明显——有寡妇的男人已经死了,而死男人是不会在结婚证上签字的。 MiniCPM5-1B 对福克兰群岛婚姻法进行了详细分析,但完全错过了陷阱,将其视为一个简单的管辖权问题。
“最重要的是,你必须确定福克兰群岛的实际婚姻状况。这是一个事实问题,应该由当地当局或通过法律程序来确定。”该模特经过长时间的推理后回应道。
我们的第二次测试要求做出决定性的 A/B 选择。该模型没有选择任何一个,而是对冲双方的答案。这是对话压力下小模型中已知的失败模式。 MiniCPM5-1B 也不例外。
我们要求模型告诉我们哪个行业将在 2100 年主导经济:加密货币还是人工智能?该模型的内部思维根本没有对这个问题进行推理,而是从头开始分析加密货币和人工智能投资的协同作用。
公平地说,对于 1B 模型来说,这一切都不足为奇。
代理能力才是真正的故事。将 MiniCPM5-1B 与 MCP 服务器配对进行网络研究,它对模糊事实问题产生幻觉的倾向消失了,或者至少大大减少了。
我们询问该模型当前的比特币价格和三只股票推荐,该工具被成功调用,并且推荐(亚马逊、微软和 Nvidia)有意义。
结论
一个健谈、可本地部署的代理可以调用工具、保存 128K 上下文并完全在设备上运行,这是比与 GPT-4 竞争的独立问答模型更有趣的产品。
只是不要取消您的 AI 订阅。知道你正在处理什么:与大型模型相比,它的知识匮乏,它的编码很差(同样,与更大的模型相比),并且不会接近 AGI,如果这就是你正在寻找的东西。
MiniCPM5-1B 现已在 Apache 2.0 许可下在 Hugging Face 上提供,与 vLLM、SGLang 和标准 Transformers 推理兼容
