τ-Rec：面向智能体推荐系统的可验证基准

精选理由

做推荐系统或对话智能体评估的团队，终于有了一个可复现、低成本的客观基准，直接拿来测自己的模型会看到真实差距。

AI 摘要

推荐系统正转向多轮对话式智能体，但现有评估依赖“LLM作为裁判”，存在主观性、高成本和不一致问题。τ-Rec 基准用可验证奖励和揭示标签引导机制替代主观评估，通过结构化目录谓词和 pass^k 可靠性指标测试智能体的推理一致性。对 GPT-5.4、Claude Sonnet 4.6 等 9 种配置的评估显示，最佳模型 pass^1 仅约 57%，pass^4 约 38%，暴露了当前对话智能体部署中的可靠性悬崖。所有代码和数据已开源。

AI 翻译 · 中文

arXiv: DeepSeekAs recommender systems transition toward agentic, multi-turn conversational interfaces, evaluation paradigms have struggled to keep pace. Current benchmarks often rely on "LLM-as-a-judge" evaluations, which introduce sub…

阅读原文