10:30arXiv: DeepSeek@Jasmine Brazilek, Oliver Tulio, Joel Christoph, Miles Tidmarsh, Carol Kline, Arturs Kanepajs新基准TAC(Travel Agent Compassion)测试AI代理在12个旅行预订场景中是否避免动物剥削选项,涵盖6类动物剥削,扩展至48个样本以控制价格、评分和位置干扰。7个前沿模型得分均低于64%的随机水平,最佳Claude Opus 4.7为53%。在系统提示中加入一句福利意识语句后,Claude和GPT-5.5提升47-63个百分点,GPT-5.2提升26个百分点,DeepSeek和Gemini提升不到12个百分点。对前两名模型的288条基底记录审计未发现评估意识,表明低分并非因识别出测试。论文TAC动物福利AI Agent基准测试Claude Opus 4.71 个信源在谈推荐理由:动物福利问题有了AI专属的代理基准TAC,实测Claude Opus 4.7刚过一半,加个提示词能暴增60%,暴露了模型在实际行动中的盲区。原文
10:05arXiv: Anthropic@Linus Bantel, Anna-Lena Roth, Jonas Posner, Dirk Pflüger一项新研究使用基于OpenCode的智能体扩展Julia文档MCP服务器,评估了OpenAI GPT-5.5、Anthropic Claude Opus 4.7和开源Qwen3-Coder-Next在三个并行问题(π近似、分块矩阵乘、分块Cholesky分解)上生成Dagger.jl代码的能力。实验在共享内存192核和分布式两节点上进行,与Base.Threads和MPI.jl基线对比。结果显示智能体能生成小规模可执行代码,但在大规模下因死锁、过订阅或内存溢出失败,其中开源模型受影响最严重。商业模型在Base.Threads和MPI.jl上可扩展性相当,但Dagger.jl实现存在任务依赖、粒度和调度方面的反复弱点。论文GPT-5.5Claude Opus 4.7Qwen3-Coder-NextJulia并行计算10 个信源在谈推荐理由:这篇论文测试了GPT-5.5、Claude Opus 4.7和Qwen3-Coder-Next用智能体写并行Julia代码,在超算上跑192核,发现小规模还行,大规模容易死锁或OOM,开源模型最差。做HPC或Julia并行开发的人值得看。原文
10:26arXiv: Anthropic@Isaac David, Arthur Gervais精选Anthropic在2026年4月发布的Mythos材料中声称其模型能发现真实漏洞,但本文通过控制实验复现了这些漏洞发现任务。实验让GPT-5.5、Claude Opus 4.7和Kimi K2在给定目标文件、只读源码和手动匹配规则下,尝试复现6个已知漏洞。结果显示,GPT-5.5在54次尝试中仅成功5次(覆盖2/6任务),Claude Opus 4.7成功1次,Kimi K2为0次。主要失败原因是模型过早锁定看似合理的候选错误,而忽略了补丁证据中的具体不变性。该结果不否定Anthropic未公开的工作流程,但表明在有利的靶标文件框架下,系统特定提示仅产生少量匹配。论文漏洞发现基准测试GPT-5.5Claude Opus 4.7Kimi K210 个信源在谈推荐理由:这个实验戳破了AI漏洞发现能力的泡沫——即使给定了目标文件,顶级模型复现已知漏洞的成功率也极低。做AI安全评估或漏洞研究的团队,看完会重新审视benchmark的可靠性。原文