Anthropic 的 Claude Opus 4.8 发布，设定新的法律人工智能基准

Blockchain News DeFi 2026-05-29 02:06:06 1 阅读

Claude Opus 4.8 在 LAB 上达到创纪录的 10.4%，在 BigLaw Bench 上达到 91.1%，重新定义了法律工作流程中的人工智能性能。

Anthropic's Claude Opus 4.8 Launches, Sets New Legal AI Benchmarks

Anthropic 于 2026 年 5 月 28 日推出了其最新旗舰大语言模型 Claude Opus 4.8。该模型专为复杂的法律工作流程而设计，设定了新的性能基准，在 Harvey’s Legal Agent Benchmark (LAB) 上取得了破纪录的 10.4% 分数，在 BigLaw Bench 上取得了破纪录的 91.1% 分数。

这些指标比其前身 Opus 4.7 有了显着改进，后者在 LAB 上的得分为 7.1%。 LAB 测试在严格的全通系统下评估复杂法律任务的端到端完成情况。与此同时，BigLaw Bench 的结果显示，43% 的满分，88% 的结果得分高于 0.80，在交易管理、合规性和风险评估方面表现突出。

根据 Harvey 应用研究主管 Niko Grupen 的说法，Opus 4.8 独特的自我审查和完善输出的能力有助于其卓越的绘图准确性。 “Opus 4.8 是第一个在 LAB 严格的全通评分中突破 10% 的模型。它的审查和修改行为导致在起草任务上表现更强，”他表示。

该模型在各个实践领域的法律准确性方面也表现出色，包括在准确应用理论框架的同时识别正确的案件标题、当事人和法律条款。然而，评估人员指出，在处理歧义和标记需要人工审查的领域方面还有一些改进的空间。

除了法律任务之外，Opus 4.8 通过其“动态工作流程”工具引入了增强的编码功能，该工具支持大规模代码库迁移。它还具有更快的处理速度——与早期迭代相比，在快速模式下速度提高了 2.5 倍——而且成本更低。这些更新不仅巩固了 Opus 4.8 在法律技术领域的地位，而且还巩固了其作为适用于更广泛企业应用的多功能 AI 平台的地位。

Opus 4.8 将在未来几天向美国和欧盟符合条件的客户推出，预计随后也会在澳大利亚推出。该模型可通过 claude.ai、Anthropic 的 API 平台和主要云提供商访问。

Anthropic 发布 Opus 4.8 之际，该公司正准备扩大其更先进的“Claude Mythos”系列的访问范围，该系列旨在网络安全和高安全性用例。随着 Opus 4.8 的发布建立了新的性能基准，它表明 Anthropic 打算在竞争激烈的人工智能领域保持领先地位。

书签