导航菜单
首页
排名 涨幅榜 跌幅榜 24h成交额 新币榜
快讯 机构 观点 人物 专题

Anthropic 的 Claude Opus 4.8 发布,设定新的法律人工智能基准

Claude Opus 4.8 在 LAB 上达到创纪录的 10.4%,在 BigLaw Bench 上达到 91.1%,重新定义了法律工作流程中的人工智能性能。

Anthropic's Claude Opus 4.8 Launches, Sets New Legal AI Benchmarks

Anthropic 于 2026 年 5 月 28 日推出了其最新旗舰大语言模型 Claude Opus 4.8。该模型专为复杂的法律工作流程而设计,设定了新的性能基准,在 Harvey’s Legal Agent Benchmark (LAB) 上取得了破纪录的 10.4% 分数,在 BigLaw Bench 上取得了破纪录的 91.1% 分数。

这些指标比其前身 Opus 4.7 有了显着改进,后者在 LAB 上的得分为 7.1%。 LAB 测试在严格的全通系统下评估复杂法律任务的端到端完成情况。与此同时,BigLaw Bench 的结果显示,43% 的满分,88% 的结果得分高于 0.80,在交易管理、合规性和风险评估方面表现突出。

根据 Harvey 应用研究主管 Niko Grupen 的说法,Opus 4.8 独特的自我审查和完善输出的能力有助于其卓越的绘图准确性。 “Opus 4.8 是第一个在 LAB 严格的全通评分中突破 10% 的模型。它的审查和修改行为导致在起草任务上表现更强,”他表示。

该模型在各个实践领域的法律准确性方面也表现出色,包括在准确应用理论框架的同时识别正确的案件标题、当事人和法律条款。然而,评估人员指出,在处理歧义和标记需要人工审查的领域方面还有一些改进的空间。

除了法律任务之外,Opus 4.8 通过其“动态工作流程”工具引入了增强的编码功能,该工具支持大规模代码库迁移。它还具有更快的处理速度——与早期迭代相比,在快速模式下速度提高了 2.5 倍——而且成本更低。这些更新不仅巩固了 Opus 4.8 在法律技术领域的地位,而且还巩固了其作为适用于更广泛企业应用的多功能 AI 平台的地位。

Opus 4.8 将在未来几天向美国和欧盟符合条件的客户推出,预计随后也会在澳大利亚推出。该模型可通过 claude.ai、Anthropic 的 API 平台和主要云提供商访问。

Anthropic 发布 Opus 4.8 之际,该公司正准备扩大其更先进的“Claude Mythos”系列的访问范围,该系列旨在网络安全和高安全性用例。随着 Opus 4.8 的发布建立了新的性能基准,它表明 Anthropic 打算在竞争激烈的人工智能领域保持领先地位。

书签