AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:TAC×
6月17日
10:30
10:30arXiv: DeepSeek@Jasmine Brazilek, Oliver Tulio, Joel Christoph, Miles Tidmarsh, Carol Kline, Arturs Kanepajs
新基准TAC(Travel Agent Compassion)测试AI代理在12个旅行预订场景中是否避免动物剥削选项,涵盖6类动物剥削,扩展至48个样本以控制价格、评分和位置干扰。7个前沿模型得分均低于64%的随机水平,最佳Claude Opus 4.7为53%。在系统提示中加入一句福利意识语句后,Claude和GPT-5.5提升47-63个百分点,GPT-5.2提升26个百分点,DeepSeek和Gemini提升不到12个百分点。对前两名模型的288条基底记录审计未发现评估意识,表明低分并非因识别出测试。
论文TAC动物福利AI Agent基准测试Claude Opus 4.7

推荐理由:动物福利问题有了AI专属的代理基准TAC,实测Claude Opus 4.7刚过一半,加个提示词能暴增60%,暴露了模型在实际行动中的盲区。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
精选全部日报登录