论文精选72°

Deep-Research 代理错误定位:DRIFT 框架提升 30% 准确率

Where Do Deep-Research Agents Go Wrong? Span-Level Error Localization in Agent Trajectories

精选理由

做 AI 代理评估或可靠性研究的团队会感兴趣——DRIFT 框架直接解决了「只看结果不看过程」的盲区,建议点开看看方法细节。

AI 摘要

论文研究深度研究代理在长轨迹中的错误定位问题,指出仅靠最终答案评估无法揭示轨迹中的不可靠部分。作者收集了 2,790 条真实轨迹,通过 LLM 辅助专家标注构建了 TELBench 基准,包含 1,000 个实例用于识别错误跨度。提出 DRIFT 框架,以声明为中心审计代理轨迹,追踪声明并检查证据支持,在多个模型和审计框架上将跨度级错误定位和首次错误准确率提升最多 30 个百分点。该工作为深度研究代理的可靠性提供了过程级视角。

AI 翻译 · 中文

论文研究深度研究代理在长轨迹中的错误定位问题,指出仅靠最终答案评估无法揭示轨迹中的不可靠部分。作者收集了 2,790 条真实轨迹,通过 LLM 辅助专家标注构建了 TELBench 基准,包含 1,000 个实例用于识别错误跨度。提出 DRIFT 框架,以声明为中心审计代理轨迹,追踪声明并检查证据支持,在多个模型和审计框架上将跨度级错误定位和首次错误准确率提升最多 30 个百分点。该工作为深度研究代理的可靠性提供了过程级视角。

arXiv cs.AIDeep-research agents solve tasks through long trajectories of search, tool use, evidence inspection, and answer synthesis. Evaluation based on final answers shows whether an agent succeeds, but not which parts of the tra