EU法律自动化中的测量空白:基于欧盟AI法案的教义性法律推理基准

The Measurement Gap in the Automation of EU Law: Benchmarking Doctrinal Legal Reasoning under the EU AI Act

精选理由

这篇论文直击法律AI评测的核心缺陷——现有基准只测写文书,不测真正懂法理。做法律AI或合规的朋友值得看看。

AI 摘要

大型语言模型已能生成至少中位质量的法律文本,但现有法律AI评估仅测量辅助性任务,无法评价其是否执行教义性法律推理。欧盟AI法案对高风险司法AI要求“适当准确性”,却因缺乏教义性推理基准而无操作内容。这篇论文首次系统定义该测量空白,并呼吁建立对应的标准化评估。

AI 翻译 · 中文

大型语言模型已能生成至少中位质量的法律文本,但现有法律AI评估仅测量辅助性任务,无法评价其是否执行教义性法律推理。欧盟AI法案对高风险司法AI要求“适当准确性”,却因缺乏教义性推理基准而无操作内容。这篇论文首次系统定义该测量空白,并呼吁建立对应的标准化评估。

arXiv cs.AILarge language models now produce legal text of at least median quality, yet no existing benchmark can evaluate whether they perform doctrinal legal reasoning, which forms the interpretive core of legal work, rather than