您的手机已有摄像头、麦克风和屏幕。它可以看到您在现实生活中看到的内容以及自己的显示屏上正在发生的事情。现在,中国智能手机制造商 Oppo 的人工智能团队发现,所有现有的硬件(大部分未得到充分利用)正是构建真正有用的移动人工智能代理所需要的。
该项目是 X-OmniClaw,由 Multi-X 团队发布。它是一个适用于 Android 的开源 AI 代理框架,可将您的手机变成一个免提、上下文感知的助手,能够跨真实应用程序运行真实任务,而无需通过设备的云副本路由所有内容。
大多数移动人工智能系统实际上并不在您的手机上运行。它们在托管 Android 虚拟副本的云服务器上运行,让人工智能远程点击和滚动应用程序。结果是:无法访问您的真实相机、实际照片或本地文件 - 只是一个陌生人使用您手机的副本。
X-OmniClaw 采用相反的方法。根据技术报告,它引入了“一种直接在用户的物理设备上执行的边缘原生架构,从而消除了模拟环境与现实世界交互环境之间的差距。”
该报告用汽车来比喻:智能手机是“车辆”,X-OmniClaw 是“控制和感知的内部引擎”,而基于云的语言模型仅在需要大量推理时才被称为“燃料”。其他一切都保留在本地。
Oppo AI 手机代理的工作原理
根据 Oppo 的说法,X-OmniClaw 的整体架构基于三大支柱:Omni Perception、Omni Action 和 Omni Memory,它们作为一个连续循环工作,仅在进行繁重推理时才会调用云 LLM。
来源:OPPO AI中心
Omni Perception 涵盖了手机可以感知的一切。它将摄像头输入、屏幕内容和语音输入组合到一个管道中。视觉语言模型会在代理执行任何其他操作之前解释场景。因此,如果您将相机对准一个瓶子并询问“这要多少钱?”,代理商首先会弄清楚您在看什么,然后打开相关的购物应用程序并开始搜索。无需猜测。
Omni Memory 是 X-OmniClaw 与一次性聊天机器人的区别所在。代理维护跨任务、应用程序切换和会话的上下文。它还从您的照片库中构建长期语义记忆,将原始图像转换为有关对象、场景和事件的结构化注释。该报告指出“运行时连续性使 X-OmniClaw 作为持续的设备代理而不是一次性响应系统运行。”
Omni Action 负责执行。它将 XML 接口数据与设备上的视觉模型和 OCR(一种字符识别层)相结合,即使在仅靠结构还不够的广告密集的屏幕上,也能准确地确定要点击的内容。它还包括行为克隆:记录您自己导航到隐藏的应用程序页面一次,代理可以在下次使用 Android 深层链接快捷方式立即重播该路线。
Oppo AI 代理实际上可以做什么
Oppo 分享了该模型可以做的一些事情。例如,代理通过摄像头识别实体产品,打开淘宝,滚动结果并返回价格摘要 - 无需输入。
Oppo 还演示了一个浮动屏幕伴侣,可帮助用户逐步完成数学练习:自主阅读屏幕、处理每个问题并在完成后继续前进。
它还提供了另一个示例,其中用户要求代理根据鹦鹉主题的照片组装精彩视频。系统扫描图库,使用其语义记忆找到匹配的照片,通过深层链接打开 CapCut 的视频编辑器,批量选择文件并生成视频。过去需要“几分钟或更长时间”的事情变成了几个自动化步骤。
来源:OPPO AI中心
2026:代理人工智能年
人工智能代理已成为科技领域讨论最多的类别之一。 OpenClaw 是一个开源代理框架,在 GitHub 上获得了超过 373,000 颗星,并最终得到了 OpenAI 的支持。它通过展示持久的、本地运行的代理在 PC 上可以做什么,掀起了当前的浪潮。 Nous Research 的 Hermes Agent 通过自我改进的学习循环进一步发展,随着时间的推移,能力会不断增强。
两者都主要在桌面硬件上运行。 X-OmniClaw 将相同的架构扩展到您实际随身携带的设备。该团队以开源 HermesApp 代码库为基础,论文明确将 OpenClaw 的结构化技能模型作为基本灵感,然后对其进行了调整,以适应智能手机的多模式、始终在线的特性。
代码现已在 GitHub 上。 Oppo 表示将释放所有资产,并随着系统的发展不断更新该项目。
