全部 AI 动态 · AI 热点

6月17日

10:30

10:30

arXiv: DeepSeek@Jasmine Brazilek, Oliver Tulio, Joel Christoph, Miles Tidmarsh, Carol Kline, Arturs Kanepajs

新基准TAC（Travel Agent Compassion）测试AI代理在12个旅行预订场景中是否避免动物剥削选项，涵盖6类动物剥削，扩展至48个样本以控制价格、评分和位置干扰。7个前沿模型得分均低于64%的随机水平，最佳Claude Opus 4.7为53%。在系统提示中加入一句福利意识语句后，Claude和GPT-5.5提升47-63个百分点，GPT-5.2提升26个百分点，DeepSeek和Gemini提升不到12个百分点。对前两名模型的288条基底记录审计未发现评估意识，表明低分并非因识别出测试。

论文 TAC 动物福利 AI Agent 基准测试 Claude Opus 4.7

推荐理由：动物福利问题有了AI专属的代理基准TAC，实测Claude Opus 4.7刚过一半，加个提示词能暴增60%，暴露了模型在实际行动中的盲区。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

10:05

10:05

arXiv: Anthropic@Linus Bantel, Anna-Lena Roth, Jonas Posner, Dirk Pflüger

一项新研究使用基于OpenCode的智能体扩展Julia文档MCP服务器，评估了OpenAI GPT-5.5、Anthropic Claude Opus 4.7和开源Qwen3-Coder-Next在三个并行问题（π近似、分块矩阵乘、分块Cholesky分解）上生成Dagger.jl代码的能力。实验在共享内存192核和分布式两节点上进行，与Base.Threads和MPI.jl基线对比。结果显示智能体能生成小规模可执行代码，但在大规模下因死锁、过订阅或内存溢出失败，其中开源模型受影响最严重。商业模型在Base.Threads和MPI.jl上可扩展性相当，但Dagger.jl实现存在任务依赖、粒度和调度方面的反复弱点。

论文 GPT-5.5 Claude Opus 4.7 Qwen3-Coder-Next Julia 并行计算

推荐理由：这篇论文测试了GPT-5.5、Claude Opus 4.7和Qwen3-Coder-Next用智能体写并行Julia代码，在超算上跑192核，发现小规模还行，大规模容易死锁或OOM，开源模型最差。做HPC或Julia并行开发的人值得看。

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月19日

10:26

10:26

arXiv: Anthropic@Isaac David, Arthur Gervais

精选

Anthropic在2026年4月发布的Mythos材料中声称其模型能发现真实漏洞，但本文通过控制实验复现了这些漏洞发现任务。实验让GPT-5.5、Claude Opus 4.7和Kimi K2在给定目标文件、只读源码和手动匹配规则下，尝试复现6个已知漏洞。结果显示，GPT-5.5在54次尝试中仅成功5次（覆盖2/6任务），Claude Opus 4.7成功1次，Kimi K2为0次。主要失败原因是模型过早锁定看似合理的候选错误，而忽略了补丁证据中的具体不变性。该结果不否定Anthropic未公开的工作流程，但表明在有利的靶标文件框架下，系统特定提示仅产生少量匹配。

论文漏洞发现基准测试 GPT-5.5 Claude Opus 4.7 Kimi K2

推荐理由：这个实验戳破了AI漏洞发现能力的泡沫——即使给定了目标文件，顶级模型复现已知漏洞的成功率也极低。做AI安全评估或漏洞研究的团队，看完会重新审视benchmark的可靠性。