斯坦福大学最近领导的一项研究表明,与其他教授撰写的答案相比,法学教授更喜欢人工智能生成的答案,该研究检查了大型语言模型在法律推理任务上的表现。
在研究中,来自 14 所美国法学院(包括斯坦福大学、耶鲁大学、纽约大学、芝加哥大学、乔治城大学、加州大学洛杉矶分校和弗吉尼亚大学)的 16 名教授提出了 40 个合同法问题,涵盖法律原则、判例法、假设和政策问题。研究人员认为这是测试现代人工智能能力的理想方式。
“大型语言模型(LLM)越来越多地被宣传为教育导师,但大多数评估都集中在具有单一基本事实的领域,”研究人员写道。 “然而,许多学科都依赖于判断:推理、权衡歧义并得出站得住脚的结论。法律提供了严峻的考验。”
在 2,918 次盲法比较中,教授们选择了他们更愿意给学生的答案。 Google 的 Gemini 2.5 Pro 在与人类教练的比赛中获胜率为 75.92%,而这家科技巨头的 NotebookLM 则赢得了 74.75% 的胜率,这使得人工智能生成的结果在大约四分之三的情况下优于人类。回应。
研究人员表示,为了确定结果是否反映了更广泛的专业共识,研究人员分析了教授在评估相同答案对时达成一致的频率。
“如果判断完全是特殊的,那么观察到的一致性超出了预期的水平,这表明法学硕士的成功反映了与共同纪律标准的一致性,”他们写道。
研究发现,人工智能模型在多个类别上的表现也优于人类教师,包括与案例、代码或原则、假设和政策讨论相关的回忆问题。
“为了探究法学硕士的优势是否可能是由表面写作风格而不是实质内容驱动的,我们还设计了一组词汇句法特征——答案长度、结构组织、推理细微差别、法律锚点、信心语气、清晰度和教学支持——并测试了它们可以解释多少偏好模式,”研究称。
人工智能生成的答案被标记为有害的频率也低于教授编写的答案,Gemini 的有害率为 3.41%,NotebookLM 的有害率为 3.64%,而人类教师的有害率为 12.06%。在对其他模型的单独分析中,Anthropic 的 Claude Opus 4.7 排名第一,其次是 OpenAI 的 ChatGPT 5.4 和 Gemini 2.5 Pro,而每个 AI 模型的平均评估结果都优于人类教练。
研究人员警告说,该研究并未衡量答案是否符合每位教授的个人教学偏好,因此人工智能生成的答案有可能被视为普遍可接受的,而不是针对任何一位教师的方法量身定制的。
“虽然法学硕士的反应通常比人类讲师的反应更受欢迎,但我们的评估设置不允许我们直接衡量讲师偏好的满足程度,”该研究称。 “至少从理论上讲,法学硕士虽然通常会提供更强的回应,但仍然会产生仅仅被视为“足够好”的答案。
这项研究发布之际,法院、律师事务所和法学院越来越多地思考如何在法律行业中使用人工智能。
3 月份,洛杉矶高等法院开始测试人工智能工具,以帮助法官管理不断增长的案件量,而法学院正在增加人工智能培训计划。
“这些新技术在法律实践中作为力量倍增器的潜在好处是不容忽视的,”密西西比学院法学院院长 John P. Anderson 此前告诉 Decrypt。 “无论我们的学生计划成为诉讼律师还是交易律师,他们未来的雇主都会期望熟悉这些人工智能工具。我们希望雇用我们学生的公司能够相信每一位 MC Law 毕业生都能够胜任人工智能技术。
然而,与此同时,律师事务所继续面临因幻觉和其他人工智能产生的错误而破坏的案件。今年 4 月,Sullivan & Cromwell 律师事务所向美国破产法院承认,最近提交的一份备受瞩目的案件中包含人工智能生成的虚假引文。
