论文精选

RAG在法律领域的结构性局限:超越概率相似性

Beyond Probabilistic Similarity: Structural, Temporal, and Causal Limitations of Retrieval-Augmented Generation in the Legal Domain

精选理由

法律AI从业者终于有了一个严肃的理论框架来理解RAG的失败原因——不是模型不够大,而是检索架构与法律知识的本质不匹配。做法律科技或合规自动化的团队,建议仔细读读这篇,能帮你避开很多坑。

AI 摘要

本文指出,检索增强生成(RAG)在法律AI中的失败并非简单的模型幻觉,而是概率检索与法律知识层次、时间性和制度结构之间的架构不匹配。作者从法律理论出发,提出法律知识具有层次性、动态性和因果可追溯性三个本体论属性,并对应识别出三种检索病理:整体性盲视、历时性盲视和因果不透明性。通过分析现有方法,作者认为它们未能将这些要求视为共同构成性因素,并提出了四个确定性设计方向:本体优先、事件具体化、双时正确性和确定性交互协议。该框架主要关注法律规范适用问题,而非下游任务。

AI 翻译 · 中文

本文指出,检索增强生成(RAG)在法律AI中的失败并非简单的模型幻觉,而是概率检索与法律知识层次、时间性和制度结构之间的架构不匹配。作者从法律理论出发,提出法律知识具有层次性、动态性和因果可追溯性三个本体论属性,并对应识别出三种检索病理:整体性盲视、历时性盲视和因果不透明性。通过分析现有方法,作者认为它们未能将这些要求视为共同构成性因素,并提出了四个确定性设计方向:本体优先、事件具体化、双时正确性和确定性交互协议。该框架主要关注法律规范适用问题,而非下游任务。

arXiv cs.AIRetrieval-Augmented Generation (RAG) has become a standard architectural response to unreliability in legal AI, yet high-profile failures, including fabricated citations submitted to courts and anachronistic legal conten