华为的新基准为人工智能代理提供了几个月的时间，然后看着他们失败

人工智能个人助理的卖点始终是相同的：让代理访问您的数字生活，然后它会处理剩下的事情。您的电子邮件、您的日历、您的笔记、您的设备——所有这些。你的人工智能知道。你的人工智能会行动。你睡觉了。

来自华为、北京理工大学、北京大学和中国科学院的研究人员刚刚建立了一个基准来看看这是否属实。剧透：事实并非如此。

Claw-Anything 同时评估三个维度的 AI 代理：涵盖三个月以上模拟用户活动的长期事件流、每个任务平均 10.1 个相互依赖的后端服务，以及跨 CLI Linux 环境和 GUI Android 环境的多设备交互。

每个任务的平均上下文窗口为 191,700 个单词。大多数现有基准都在 1,700 到 12,000 之间。这不是一个小差距，而是一个完全不同的问题。这也是现实生活的感觉，而不是标准化的超具体基准。

你的人工智能不知道发生了什么

基准测试是在 pass@1 上进行评分的——代理在第一次尝试时正确完成任务的概率，无需重来。任务可能会要求代理交叉引用几周前发现的产品的价格提醒，检查用户的日历中是否有相关预约，并通过电话对两者进行操作。另一个可能会要求它从笔记、电子邮件线程和 Slack 中提取最近的工作，然后从头开始生成演示文稿。
&amp;amp;amp;amp;amp;lt;span style="display: inline-block; width: 0px;溢出：隐藏；行高：0；” data-mce-type="bookmark" class="mce_SELRES_start"&amp;amp;amp;amp;gt;&amp;amp;amp;amp;lt;/span&amp;amp;amp;amp;amp;gt;

这些是人们实际要求助理做的事情。事实证明人工智能并不擅长这些。 GPT-5.5，根据 Decrypt 之前的报道，是 OpenAI 的最佳模型，在构建时考虑了代理、长期任务。得分为 34.5%。

Huawei's New Benchmark Gives AI Agents Months of Your Life—Then Watches Them Fail

Claw-Anything 论文写道：“即使向用户的数字世界提供了更广泛的访问权限，当前的模型仍然不可靠。”在其他基准测试中看起来令人印象深刻的几个模型进一步下降。

该基准还单独对主动援助进行评分，这意味着代理发现需求并在未经询问的情况下采取行动的情况。大多数基准测试不会对此进行测试。 Claw-任何事情都可以，而且差距非常明显：代理在反应性任务上得分为 25.9%，在主动性任务上得分仅为 6.7%。

为什么大多数基准测试不会告诉您这一点

研究人员提出了一个尖锐的论点：现有的基准测试将人工智能代理视为任务解决者，给了一张干净的桌子。 Claw-Anything 将它们视为陷入实际混乱生活中的私人助理——不相关的事件、相互矛盾的信号、数月累积的噪音。代理必须先弄清楚什么是相关的，然后才能做任何有用的事情。

消融结果使多服务依赖性尤其明显。当跨服务任务所需的工具被删除时，成功率几乎降至零，因为大多数任务需要代理检索信息并跨多个后端而不是在单个后端内执行操作。

这并不是人工智能评估中的新问题。今年早些时候，OpenAI 宣布 SWE 基准受到污染，因为在不易泄漏的版本上，分数从大约 70% 下降到 23%。这是关于数据卫生的。这是一个更根本的问题——基准测试是否提出了正确的问题。

从建设性的角度来看，该团队发布了生成基准的管道以及 2,000 个训练环境。在 1,500 个成功的智能体轨迹上对 Qwen3.5-27B 进行微调，将 pass@1 提高了 23.7%，足以击败排行榜上的多个闭源模型，包括 Claude Sonnet。

Huawei's New Benchmark Gives AI Agents Months of Your Life—Then Watches Them Fail

研究人员认为跨服务协调是基准测试该领域面临的主要挑战。数据集位于 Hugging Face 上，代码位于 GitHub 上。