10:11arXiv cs.LG@Nianyi Lin, Jiajie Zhang, Lei Hou, Juanzi Li精选LongTraceRL 是一种新方法,旨在解决大语言模型在长上下文推理中难以定位和整合关键信息的问题。它通过知识图谱随机游走生成多跳问题,并利用搜索智能体的轨迹构建高混淆度的干扰文档,使训练上下文更具挑战性。同时,它提出了一种基于实体级过程监督的“评分奖励”,只对正确答案的推理过程进行细粒度评估,避免奖励作弊。在 4B 到 30B 的多个推理模型上,LongTraceRL 在五个长上下文基准测试中持续优于强基线,并促进了基于证据的推理。代码、数据集和模型已开源。论文长上下文推理强化学习搜索智能体奖励设计开源/仓库推荐理由:长上下文推理是当前大模型的瓶颈,LongTraceRL 用搜索轨迹和细粒度奖励解决了干扰项和奖励稀疏的问题,做推理模型训练或长文档理解的团队可以直接用开源代码复现。原文
11:32arXiv cs.AI@HuiMing Fan, Xiao Wang, Zheng Chu, Qianyu Wang, Zhuoyao Wang, Ming Liu, Bing Qin, XingYu精选72°研究团队发现,基于LLM的搜索智能体在BrowseComp基准测试中,高达44.5%的问题无需工具即可回答,超过一半的搜索查询来自内部假设而非检索线索,表现出对内在知识的依赖而非真正的证据驱动搜索。当移除支持答案的外部证据后,智能体表现甚至不如闭卷基线。为此,团队推出了LiveBrowseComp,一个包含335个依赖90天内发布事实的问题的深度搜索基准,所有智能体在该基准上的闭卷准确率低于2%,搜索增强得分比BrowseComp下降25-40点,且模型排名不再可靠。该基准旨在评估智能体超越内在知识覆盖的真实搜索能力。论文搜索智能体基准测试内在知识依赖LLM评估LiveBrowseComp推荐理由:这项研究戳穿了搜索智能体的真实能力——它们可能只是在验证已知信息而非真正搜索。做搜索Agent或评估AI检索能力的团队,值得看看LiveBrowseComp这个新基准,避免被静态测试误导。原文