10:06arXiv: DeepSeek@Aniket Deroy, Kripabandhu Ghosh, Saptarshi Ghosh该论文提出一种受树状思维(Tree-of-Thoughts)启发的提取-抽象混合方法,用于法律判决摘要生成。实验使用DeepSeek和LLama两种LLM,对比了纯提取、纯抽象及混合式摘要。结果显示,混合式提示生成的摘要质量优于其他类型提示。论文DeepSeekLLamaTree-of-Thoughts法律AI文本摘要推荐理由:这篇论文把思维树和提取-生成结合起来做法律摘要,用DeepSeek和Llama对比,发现混合方法效果更好。原文
05:24LangChain@LangChainAIPatlytics 是一个专门为专利全生命周期设计的企业级法律AI平台。它使用LangSmith来编排从提示管理到工作流评估的端到端AI堆栈。该平台旨在提升专利流程的效率和质量。Patlytics 被LangSmith Spotlight 收录,展示了其在法律AI领域的应用。AI产品patlyticsLangSmithLangChain法律AI专利生命周期推荐理由:Patlytics 用 LangSmith 搭建了专利全流程 AI 平台,从提示到评估都管,法律行业可以看看。原文
01:10Clement Delangue@ClementDelangueJohn Sarihan 创立的 Crosby Intelligence 发布了一个新的法律 AI 基准数据集。该基准托管在 Hugging Face 平台上。旨在推动法律领域 AI 的评测与发展。AI模型Crosby IntelligenceHugging Face法律基准法律AI推荐理由:想看看法律 AI 谁更强?Crosby Intelligence 搞了个新基准,已经在 Hugging Face 上线了。原文
12:49arXiv cs.AI@Hudson de Martim精选本文指出,检索增强生成(RAG)在法律AI中的失败并非简单的模型幻觉,而是概率检索与法律知识层次、时间性和制度结构之间的架构不匹配。作者从法律理论出发,提出法律知识具有层次性、动态性和因果可追溯性三个本体论属性,并对应识别出三种检索病理:整体性盲视、历时性盲视和因果不透明性。通过分析现有方法,作者认为它们未能将这些要求视为共同构成性因素,并提出了四个确定性设计方向:本体优先、事件具体化、双时正确性和确定性交互协议。该框架主要关注法律规范适用问题,而非下游任务。论文RAG法律AI知识检索架构分析确定性设计推荐理由:法律AI从业者终于有了一个严肃的理论框架来理解RAG的失败原因——不是模型不够大,而是检索架构与法律知识的本质不匹配。做法律科技或合规自动化的团队,建议仔细读读这篇,能帮你避开很多坑。原文
00:12Y Combinator@ycombinator瑞典大学生Max Junestrand放弃麦肯锡offer,与两位联合创始人创立法律AI公司Legora。18个月内,Legora年经常性收入突破1亿美元,估值达56亿美元,服务全球50多个市场的1000多家律所。在YC斯德哥尔摩活动上,Junestrand分享了如何说服保守的法律行业接受AI、在YC后快速扩张、以及面对基础模型竞争时的护城河策略。Legora的野心已超越法律科技,目标是成为欧洲的下一代Google。行业法律AIYC企业级AI欧洲AI创业Legora推荐理由:法律AI赛道跑出56亿美元独角兽,18个月做到1亿ARR,做企业级AI产品的团队值得研究它的增长逻辑和行业破局方法。原文
23:46LangChain@LangChainAILangChain Labs 与法律 AI 公司 Harvey 合作发布了一项联合研究,探讨如何设计更高效的 AI 工作流。研究聚焦于 LangChain 框架在法律场景中的应用,包括文档分析、合同审查等任务。该研究提供了实际案例和最佳实践,帮助开发者利用 LangChain 构建专业级 AI 应用。对于关注 AI 与法律结合、或使用 LangChain 的团队,这份研究值得参考。AI产品LangChainHarvey法律AI工作流AI应用推荐理由:LangChain 与 Harvey 的联合研究展示了 AI 在法律领域的落地路径,做法律 AI 或企业级应用的开发者可以直接参考其中的工作流设计。原文
01:46Fireworks AI@FireworksAI_HQFireworks AI 在 Harvey 的法律智能体基准上测试了稀疏顾问模式:用 GLM 5.1 作为执行工人,Claude Opus 4.7 作为稀疏顾问,结果全部通过率从 Opus 单独运行的 14/100 提升至 18/100,成本仅为 Opus 单独运行的 39%。该模式通过让强大模型仅在关键步骤提供建议,显著降低了推理成本。Fireworks 已开源相关 harness 设计、顾问模式及训练结果。AI产品智能体法律AIGLM 5.1Claude Opus 4.7开源/仓库1 个信源在谈推荐理由:法律 AI 团队终于有了降本增效的实战方案——用 GLM 5.1 搭配 Claude Opus 4.7 做稀疏顾问,性能提升 28% 的同时成本砍掉 61%,做法律智能体或长链推理的开发者值得一试。原文
21:15LangChain@LangChainAI精选LangChain 与法律 AI 公司 Harvey 联合发布了一项研究,聚焦于为法律智能体(legal agents)设计和测量高效验证器(verifiers)。该研究评估了不同验证方法的性能,旨在提升法律领域 AI 系统的可靠性和准确性,为法律 AI 应用提供新的评估框架。论文LangChainHarvey法律AI智能体验证器推荐理由:LangChain和Harvey最新的法律AI验证器研究原文
08:32rohanpaul_ai@rohanpaul_ai精选斯坦福大学研究发现,在合同法律问题解答中,法律教授有75%的时间更偏爱AI(如GPT)的回答,而非同行教授的答案。研究测试了LLM在法律领域处理非事实性、依赖规则与判断的论证能力。教授们提出了40个真实学生风格的问题,并盲评了近3000组人机回答对比。AI回答被标记为“有害”的比例仅为3.5%,远低于人类回答的12%。这表明AI不仅能流畅表达,还能匹配法律教授在解释模糊性时的教学标准。论文LLM法律AI教育应用斯坦福研究合同法律推荐理由:法律教育者或法学院学生可以重新思考AI在教学辅助中的角色——它不仅能提供准确答案,还能减少有害误导,值得在课程中尝试整合。原文
11:40Marc Andreessen@pmarcaMarc Andreessen在X上发帖称,Legal AI首次让没有法律背景的普通人能在知识和技能上与大型机构在法庭和官僚体系中平等对抗,这是AI最鼓舞人心的应用之一。Jeff Huber则反驳称Legal AI可能是最不鼓舞人心的应用,引发讨论。该观点凸显了AI在民主化法律资源方面的潜力,但也面临争议。AI产品Legal AI法律AI社会公平AI应用Marc Andreessen推荐理由:Legal AI正在打破法律资源的不平等,让普通人也能在法庭上与大机构抗衡,关注社会公平和AI应用的读者值得一看。原文
09:52arXiv: Anthropic@Max Prior, Andreas Schultz, Matthias Grabmair精选大型语言模型在静态知识截止日期与动态法律条文之间存在根本矛盾,导致两种时间失效模式:一是模型在立法修订后仍使用旧规则(后截止日期失效),二是模型偏好新条款而忽略历史版本(近因偏差)。研究者构建了包含312个专家验证的德语法律问答基准,涵盖三类时间敏感问题,并评估了OpenAI、Anthropic和DeepSeek的五种模型。实验发现,在无辅助的推理设置下,模型在后截止日期场景中表现严重下降;检索增强生成(RAG)方法通过提取事实日期和版本过滤显著提升所有问题类型的准确性,而网络搜索则不稳定且加剧近因偏差。研究结论指出,可靠的法律问答必须将时间有效性作为硬约束。论文法律问答时间失效检索增强生成LLM评估法律AI10 个信源在谈推荐理由:法律从业者和AI开发者会关心:LLM 在法律场景中的时间失效问题直接关系到合规风险,RAG 方案已被证明能有效缓解,值得在实务中尝试。原文
09:46arXiv cs.AI@Souvick Das, Sallam Abualhaija, Domenico Bianculli精选法律领域对检索增强生成(RAG)系统的可靠性要求极高,但现有基准缺乏细粒度评估,且多为英文、面向专家。研究者提出ClaimRAG-LAW数据集,支持法语和英语,覆盖专家与非专家用户,包含多样问题类型。通过细粒度评估框架分析现有法律RAG系统,揭示了检索、生成及声明级分析的局限性。该工作为法律AI的可靠性评估提供了更精准的工具。论文法律AIRAG/检索增强生成基准测试细粒度评估多语言推荐理由:法律AI的幻觉问题一直难量化,这个基准把检索和生成拆开评估,做法律NLP或合规系统的团队可以直接用来测试自己的RAG管线。原文