论文精选

τ-Rec:面向智能体推荐系统的可验证基准

$τ$-Rec: A Verifiable Benchmark for Agentic Recommender Systems

精选理由

做推荐系统或对话智能体评估的团队,终于有了一个可复现、低成本的客观基准,直接拿来测自己的模型会看到真实差距。

AI 摘要

推荐系统正转向多轮对话式智能体,但现有评估依赖“LLM作为裁判”,存在主观性、高成本和不一致问题。τ-Rec 基准用可验证奖励和揭示标签引导机制替代主观评估,通过结构化目录谓词和 pass^k 可靠性指标测试智能体的推理一致性。对 GPT-5.4、Claude Sonnet 4.6 等 9 种配置的评估显示,最佳模型 pass^1 仅约 57%,pass^4 约 38%,暴露了当前对话智能体部署中的可靠性悬崖。所有代码和数据已开源。

AI 翻译 · 中文

推荐系统正转向多轮对话式智能体,但现有评估依赖“LLM作为裁判”,存在主观性、高成本和不一致问题。τ-Rec 基准用可验证奖励和揭示标签引导机制替代主观评估,通过结构化目录谓词和 pass^k 可靠性指标测试智能体的推理一致性。对 GPT-5.4、Claude Sonnet 4.6 等 9 种配置的评估显示,最佳模型 pass^1 仅约 57%,pass^4 约 38%,暴露了当前对话智能体部署中的可靠性悬崖。所有代码和数据已开源。

arXiv: DeepSeekAs recommender systems transition toward agentic, multi-turn conversational interfaces, evaluation paradigms have struggled to keep pace. Current benchmarks often rely on "LLM-as-a-judge" evaluations, which introduce sub