10:30arXiv: DeepSeek@Jasmine Brazilek, Oliver Tulio, Joel Christoph, Miles Tidmarsh, Carol Kline, Arturs Kanepajs新基准TAC(Travel Agent Compassion)测试AI代理在12个旅行预订场景中是否避免动物剥削选项,涵盖6类动物剥削,扩展至48个样本以控制价格、评分和位置干扰。7个前沿模型得分均低于64%的随机水平,最佳Claude Opus 4.7为53%。在系统提示中加入一句福利意识语句后,Claude和GPT-5.5提升47-63个百分点,GPT-5.2提升26个百分点,DeepSeek和Gemini提升不到12个百分点。对前两名模型的288条基底记录审计未发现评估意识,表明低分并非因识别出测试。论文TAC动物福利AI Agent基准测试Claude Opus 4.71 个信源在谈推荐理由:动物福利问题有了AI专属的代理基准TAC,实测Claude Opus 4.7刚过一半,加个提示词能暴增60%,暴露了模型在实际行动中的盲区。原文