全部 AI 动态 · AI 热点

6月29日

10:06

arXiv: DeepSeek@Aniket Deroy, Kripabandhu Ghosh, Saptarshi Ghosh

该论文提出一种受树状思维（Tree-of-Thoughts）启发的提取-抽象混合方法，用于法律判决摘要生成。实验使用DeepSeek和LLama两种LLM，对比了纯提取、纯抽象及混合式摘要。结果显示，混合式提示生成的摘要质量优于其他类型提示。

论文 DeepSeek LLama Tree-of-Thoughts 法律AI 文本摘要

推荐理由：这篇论文把思维树和提取-生成结合起来做法律摘要，用DeepSeek和Llama对比，发现混合方法效果更好。

原文

6月23日

05:24

LangChain@LangChainAI

Patlytics 是一个专门为专利全生命周期设计的企业级法律AI平台。它使用LangSmith来编排从提示管理到工作流评估的端到端AI堆栈。该平台旨在提升专利流程的效率和质量。Patlytics 被LangSmith Spotlight 收录，展示了其在法律AI领域的应用。

AI产品 patlytics LangSmith LangChain 法律AI 专利生命周期

推荐理由：Patlytics 用 LangSmith 搭建了专利全流程 AI 平台，从提示到评估都管，法律行业可以看看。

原文

6月18日

01:10

Clement Delangue@ClementDelangue

John Sarihan 创立的 Crosby Intelligence 发布了一个新的法律 AI 基准数据集。该基准托管在 Hugging Face 平台上。旨在推动法律领域 AI 的评测与发展。

AI模型 Crosby Intelligence Hugging Face 法律基准法律AI

推荐理由：想看看法律 AI 谁更强？Crosby Intelligence 搞了个新基准，已经在 Hugging Face 上线了。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月9日

12:49

arXiv cs.AI@Hudson de Martim

精选

本文指出，检索增强生成（RAG）在法律AI中的失败并非简单的模型幻觉，而是概率检索与法律知识层次、时间性和制度结构之间的架构不匹配。作者从法律理论出发，提出法律知识具有层次性、动态性和因果可追溯性三个本体论属性，并对应识别出三种检索病理：整体性盲视、历时性盲视和因果不透明性。通过分析现有方法，作者认为它们未能将这些要求视为共同构成性因素，并提出了四个确定性设计方向：本体优先、事件具体化、双时正确性和确定性交互协议。该框架主要关注法律规范适用问题，而非下游任务。

论文 RAG 法律AI 知识检索架构分析确定性设计

推荐理由：法律AI从业者终于有了一个严肃的理论框架来理解RAG的失败原因——不是模型不够大，而是检索架构与法律知识的本质不匹配。做法律科技或合规自动化的团队，建议仔细读读这篇，能帮你避开很多坑。

原文

6月6日

00:12

Y Combinator@ycombinator

瑞典大学生Max Junestrand放弃麦肯锡offer，与两位联合创始人创立法律AI公司Legora。18个月内，Legora年经常性收入突破1亿美元，估值达56亿美元，服务全球50多个市场的1000多家律所。在YC斯德哥尔摩活动上，Junestrand分享了如何说服保守的法律行业接受AI、在YC后快速扩张、以及面对基础模型竞争时的护城河策略。Legora的野心已超越法律科技，目标是成为欧洲的下一代Google。

行业法律AI YC 企业级AI 欧洲AI创业 Legora

推荐理由：法律AI赛道跑出56亿美元独角兽，18个月做到1亿ARR，做企业级AI产品的团队值得研究它的增长逻辑和行业破局方法。

原文

6月5日

23:46

LangChain@LangChainAI

LangChain Labs 与法律 AI 公司 Harvey 合作发布了一项联合研究，探讨如何设计更高效的 AI 工作流。研究聚焦于 LangChain 框架在法律场景中的应用，包括文档分析、合同审查等任务。该研究提供了实际案例和最佳实践，帮助开发者利用 LangChain 构建专业级 AI 应用。对于关注 AI 与法律结合、或使用 LangChain 的团队，这份研究值得参考。

AI产品 LangChain Harvey 法律AI 工作流 AI应用

推荐理由：LangChain 与 Harvey 的联合研究展示了 AI 在法律领域的落地路径，做法律 AI 或企业级应用的开发者可以直接参考其中的工作流设计。

原文

6月4日

01:46

Fireworks AI@FireworksAI_HQ

Fireworks AI 在 Harvey 的法律智能体基准上测试了稀疏顾问模式：用 GLM 5.1 作为执行工人，Claude Opus 4.7 作为稀疏顾问，结果全部通过率从 Opus 单独运行的 14/100 提升至 18/100，成本仅为 Opus 单独运行的 39%。该模式通过让强大模型仅在关键步骤提供建议，显著降低了推理成本。Fireworks 已开源相关 harness 设计、顾问模式及训练结果。

AI产品智能体法律AI GLM 5.1 Claude Opus 4.7 开源/仓库

推荐理由：法律 AI 团队终于有了降本增效的实战方案——用 GLM 5.1 搭配 Claude Opus 4.7 做稀疏顾问，性能提升 28% 的同时成本砍掉 61%，做法律智能体或长链推理的开发者值得一试。

原文

6月3日

21:15

LangChain@LangChainAI

精选

LangChain 与法律 AI 公司 Harvey 联合发布了一项研究，聚焦于为法律智能体（legal agents）设计和测量高效验证器（verifiers）。该研究评估了不同验证方法的性能，旨在提升法律领域 AI 系统的可靠性和准确性，为法律 AI 应用提供新的评估框架。

论文 LangChain Harvey 法律AI 智能体验证器

推荐理由：LangChain和Harvey最新的法律AI验证器研究

原文

08:32

rohanpaul_ai@rohanpaul_ai

精选

斯坦福大学研究发现，在合同法律问题解答中，法律教授有75%的时间更偏爱AI（如GPT）的回答，而非同行教授的答案。研究测试了LLM在法律领域处理非事实性、依赖规则与判断的论证能力。教授们提出了40个真实学生风格的问题，并盲评了近3000组人机回答对比。AI回答被标记为“有害”的比例仅为3.5%，远低于人类回答的12%。这表明AI不仅能流畅表达，还能匹配法律教授在解释模糊性时的教学标准。

论文 LLM 法律AI 教育应用斯坦福研究合同法律

推荐理由：法律教育者或法学院学生可以重新思考AI在教学辅助中的角色——它不仅能提供准确答案，还能减少有害误导，值得在课程中尝试整合。

原文

5月30日

11:40

Marc Andreessen@pmarca

Marc Andreessen在X上发帖称，Legal AI首次让没有法律背景的普通人能在知识和技能上与大型机构在法庭和官僚体系中平等对抗，这是AI最鼓舞人心的应用之一。Jeff Huber则反驳称Legal AI可能是最不鼓舞人心的应用，引发讨论。该观点凸显了AI在民主化法律资源方面的潜力，但也面临争议。

AI产品 Legal AI 法律AI 社会公平 AI应用 Marc Andreessen

推荐理由：Legal AI正在打破法律资源的不平等，让普通人也能在法庭上与大机构抗衡，关注社会公平和AI应用的读者值得一看。

原文

5月25日

09:52

arXiv: Anthropic@Max Prior, Andreas Schultz, Matthias Grabmair

精选

大型语言模型在静态知识截止日期与动态法律条文之间存在根本矛盾，导致两种时间失效模式：一是模型在立法修订后仍使用旧规则（后截止日期失效），二是模型偏好新条款而忽略历史版本（近因偏差）。研究者构建了包含312个专家验证的德语法律问答基准，涵盖三类时间敏感问题，并评估了OpenAI、Anthropic和DeepSeek的五种模型。实验发现，在无辅助的推理设置下，模型在后截止日期场景中表现严重下降；检索增强生成（RAG）方法通过提取事实日期和版本过滤显著提升所有问题类型的准确性，而网络搜索则不稳定且加剧近因偏差。研究结论指出，可靠的法律问答必须将时间有效性作为硬约束。

论文法律问答时间失效检索增强生成 LLM评估法律AI

推荐理由：法律从业者和AI开发者会关心：LLM 在法律场景中的时间失效问题直接关系到合规风险，RAG 方案已被证明能有效缓解，值得在实务中尝试。

原文

5月21日

09:46

arXiv cs.AI@Souvick Das, Sallam Abualhaija, Domenico Bianculli

精选

法律领域对检索增强生成（RAG）系统的可靠性要求极高，但现有基准缺乏细粒度评估，且多为英文、面向专家。研究者提出ClaimRAG-LAW数据集，支持法语和英语，覆盖专家与非专家用户，包含多样问题类型。通过细粒度评估框架分析现有法律RAG系统，揭示了检索、生成及声明级分析的局限性。该工作为法律AI的可靠性评估提供了更精准的工具。

论文法律AI RAG/检索增强生成基准测试细粒度评估多语言

推荐理由：法律AI的幻觉问题一直难量化，这个基准把检索和生成拆开评估，做法律NLP或合规系统的团队可以直接用来测试自己的RAG管线。

原文