02:23elvis@omarsar0论文提出Human-on-the-Bridge方法,将人类判断前置到可复用的评估资产中,用于生产环境下的AI Agent评估。Agent作为行为系统需要跨轮推理、调用工具、保持上下文和遵循策略,现有方法如静态Benchmarks、LLM-as-judge、红队测试各有局限。该方法由专家在测试前策划可复用的评估智能,而非在循环中逐条审查输出。论文编号2606.16871,展示了提升可扩展性的具体路径。论文智能体评估Human-on-the-Bridge可扩展评估推荐理由:跑Agent生产评估的看过来,这篇把人类专家放在上游,评估资产能复用,不用每次输出都人工审,效率高多了。原文