人工智能仍然无法击败待命工程师：原因如下

人工智能公司不断推出自主的站点可靠性工程师代理——代替人类调查生产事件的人工智能。 Datadog 对实际中断运行了实际基准，最好的人工智能模型还无法击败他们应该取代的工程师。

基准测试是ARFBench（异常推理框架基准测试），这是 Datadog 和卡内基梅隆大学的联合项目。根据 63 个真实生产事件构建，这些事件是从工程师在现场紧急情况下自己的 Slack 线程中提取的 - 750 个多项选择题，涵盖 142 个监控指标和 538 万个数据点，每个问题都经过手工验证。没有合成数据。没有教科书场景。

“每年由于系统中断造成数万亿美元的损失，”研究人员写道。该基准测试人工智能是否真的可以帮助改变这一现状。

“尽管这种问题驱动的分析在事件响应中发挥着核心作用，但目前尚不清楚现代基础模型是否能够可靠地回答工程师在实践中提出的各种时间序列问题，”论文中写道。

&amp;amp;amp;amp;amp;lt;span style="display: inline-block; width: 0px; 溢出:隐藏；行高：0；” data-mce-type="bookmark" class="mce_SELRES_start"&amp;amp;amp;amp;gt;&amp;amp;amp;amp;lt;/span&amp;amp;amp;amp;amp;gt;

问题分为三层。第一层：该图表中是否存在异常？第二级：什么时候开始的，严重程度如何，是什么类型？

第三层——最难的——需要交叉度量推理：这个图表是否导致了另一个图表中的问题？这就是人工智能崩溃的地方。 GPT-5 在第 III 级问题上的 F1 得分仅为 47.5%，该指标通过选择最常见的类别来惩罚模型的游戏答案。

“尽管这种问题驱动的分析在事件响应中发挥着核心作用，但目前尚不清楚现代基础模型是否能够可靠地回答工程师在实践中提出的各种时间序列问题，”研究人员写道。

每个模型如何叠加

GPT-5 以 62.7% 的准确率领先于所有现有模型 — 在随机猜测的测试中，准确率达到 24.5%。 Gemini 3 Pro得分为58.1%。克劳德作品 4.6：54.8%。克劳德十四行诗 4.5：47.2%。

领域专家的准确度为 72.7%。非领域专家——Datadog 的时间序列研究人员，没有丰富的可观测经验——仍然达到 69.7%。

没有任何人工智能模型能够超越人类基线。

由 Decrypt 基于 ARFBench 排行榜构建的图像CSV

实际上在整个排行榜上名列前茅的模型是 Datadog 自己的混合模型：Toto（他们的内部时间序列预测模型）与 Qwen3-VL 32B 的结合。 Toto-1.0-QA-Experimental 的准确率达到 63.9%，在使用一小部分参数的情况下超越了 GPT-5。具体来说，在异常识别方面，它在 F1 中比其他所有模型至少高出 8.8 个百分点。

预期的结果是，一个专门构建的领域模型，经过可观测性数据的训练，在此特定任务上优于前沿通用系统。这就是重点。

最有价值的发现不是哪个模型得分最高。

研究人员写道：“我们观察到领先模型和人类专家之间存在显着不同的错误情况，这表明他们的优势是互补的。”模型产生幻觉、错过元数据并丢失领域上下文。人类会误读精确的时间戳，有时会无法执行复杂的指令。这些错误几乎没有重叠。

对理论上的“模型专家预言机”进行建模——一个总是在人工智能和人类之间选择正确答案的完美法官——你将获得 87.2% 的准确率和 82.8% 的 F1。远远高于单独的任何一个。

那不是产品。这是一个记录在案的目标——根据真实的紧急情况而不是精心策划的数据集构建——准确量化了人类与人工智能协作可以执行的效果。排行榜实时显示在 Hugging Face 上。 GPT-5 占 62.7%。上限为87.2%。