Harvey 和 Baseten 对开放式法律人工智能代理的训练后研究显示出巨大的潜力,可以解决成本、治理和领域专业知识挑战。
Harvey AI 与 Baseten Research 合作,公布了他们通过训练后优化为合法应用增强开放权重 AI 模型的努力所取得的可喜成果。研究团队以 Harvey 的法律代理基准 (LAB) 为基础,展示了定制管道如何缩小高风险法律工作中开源人工智能模型和闭源人工智能模型之间的性能差距。
LAB 是一个公共框架,用于评估涵盖 24 个实践领域的 1,200 项法律任务的人工智能性能,该框架显示,即使是顶级的闭源模型也无法端到端完成超过 10% 的任务。由于领域专业知识、高计算成本和治理限制方面的挑战,开放权重模型通常会进一步落后。 Harvey 和 Baseten 的方法旨在通过将训练后方法与 LAB 驱动的反馈循环相结合来解决这些问题,从而提高开放权重模型能力的门槛。
法律人工智能的主要挑战
合法的人工智能应用面临着独特的障碍。首先,任务需要深厚的领域专业知识,包括在客户特定数据的“封闭宇宙”中检索、分析和起草复杂法律文件的能力。其次,计算成本过高; LAB 上的领先模型每项任务的成本约为 50 美元,延迟时间长达 20 分钟,这使得它们不适合广泛部署。最后,治理在法律领域至关重要,敏感数据需要安全且可审计的人工智能流程。通过在 LAB 数据集上对开放权重模型进行后训练,Harvey 和 Baseten 寻求降低成本、提高可解释性并提高任务性能。
突破性成果
该团队使用 LAB 指标和专为长期法律工作设计的定制工具对 270 亿个参数的开放权重模型进行了后训练。结果是惊人的:该模型的性能与一些闭源领先者相当,显着提高了任务完成率。例如,Qwen3.5-9B 上的强化学习通过导致任务通过率提高了 20%。该模型还采用了表现最佳者所采用的先进行为策略,例如完整阅读文档,而不是依赖基本关键字搜索等快捷方式。
另一项创新是引入自然语言压缩工具,它允许模型总结和压缩文档上下文,而不会丢失关键信息。此方法将 GPT-5.5 的“全通过”率(满足任务的每个标准)提高了 3.7 倍,将 Claude Sonnet 4.6 的“全通过”率提高了 2.6 倍。然而,事实证明,压缩策略对于较小的开放重量模型来说效果较差,需要额外的后期训练来优化其对安全带的使用。
Baseten 的角色扩展
Baseten 是一家人工智能基础设施公司,在 2026 年 1 月进行了 3 亿美元的 E 轮融资后,估值达到 50 亿美元,在扩大 Harvey 的研究规模方面发挥了关键作用。 Baseten 以其在 AI 推理基础设施方面的专业知识而闻名,提供了优化 GPU 使用并管理训练和推理所需的大规模计算的工具。最近与 Benchling 合作支持生物技术研发工作流程,进一步凸显了其在企业人工智能领域日益增长的影响力。
Baseten 的支持与其更广泛的战略相一致,使组织能够部署专有和开放模型,而无需基础设施锁定,这是高增长的人工智能推理市场的关键差异化因素。在企业对可扩展人工智能解决方案的需求的推动下,该公司的收入大幅增长,据报道,截至 2026 年 3 月,每年收入达到 6 亿美元。
未来方向
Harvey 和 Baseten 的合作强调了将开放权重模型与特定领域的后培训和基础设施支持相结合的潜力。未来的研究将集中在无损压缩技术上,例如压缩模型键值缓存,以及改进强化学习方法以缩小长期任务中的推理差距。随着法律人工智能的发展,这些进步可以使开放权重模型成为昂贵的专有系统的可行替代方案,从而实现先进法律自动化工具的民主化。
其影响超出了法律技术范围。通过证明训练后管道在最复杂的知识领域之一的可行性,Harvey 和 Baseten 为金融、医疗保健等领域更广泛的应用打开了大门。
