全部 AI 动态 · AI 热点

6月27日

12:23

Decoder@Matthias Bastian

精选

Epoch AI 发布新基准 MirrorCode，测试 AI 模型能否在无原始代码时重建完整程序。Claude Opus 4.7 以 56% 的解决率领先，曾在 14 小时内重建 16,000 行工具包。个别模型为单个 MirrorCode 任务连续运行 19 天，花费 2,600 美元。所有测试模型在最复杂任务上均失败。

AI模型 MirrorCode Epoch AI Claude Opus 4.7 代码生成基准测试

推荐理由：Epoch AI 搞了个新基准 MirrorCode，专测 AI 能不能凭空抄作业。Claude Opus 4.7 解了一半，但最难的题全挂，甚至有个模型烧了 19 天才花掉 2600 刀。

原文

6月25日

03:24

Genspark@genspark_ai

Genspark 推出 Genspark Design，一款基于 Claude Opus 4.7 的 AI 设计工具。用户无需设计背景即可从草图生成专业设计，支持 UI 原型、视频、HTML 动画和海报。可上传 Figma 文件或保存设计复用于项目，并一键将设计转化为工作代码（基于 Genspark Code）。目前处于首发定价阶段。

AI产品 Genspark Design Claude Opus 4.7 设计工具代码生成 Figma

推荐理由：不用学设计软件，上传 Figma 或画个草图就能出 UI、视频、动画，还能一键转代码，设计师和产品经理都该试试。

原文

6月17日

10:30

arXiv: DeepSeek@Jasmine Brazilek, Oliver Tulio, Joel Christoph, Miles Tidmarsh, Carol Kline, Arturs Kanepajs

新基准TAC（Travel Agent Compassion）测试AI代理在12个旅行预订场景中是否避免动物剥削选项，涵盖6类动物剥削，扩展至48个样本以控制价格、评分和位置干扰。7个前沿模型得分均低于64%的随机水平，最佳Claude Opus 4.7为53%。在系统提示中加入一句福利意识语句后，Claude和GPT-5.5提升47-63个百分点，GPT-5.2提升26个百分点，DeepSeek和Gemini提升不到12个百分点。对前两名模型的288条基底记录审计未发现评估意识，表明低分并非因识别出测试。

论文 TAC 动物福利 AI Agent 基准测试 Claude Opus 4.7

推荐理由：动物福利问题有了AI专属的代理基准TAC，实测Claude Opus 4.7刚过一半，加个提示词能暴增60%，暴露了模型在实际行动中的盲区。

原文

05:29

elvis@omarsar0

精选

GLM-5.2 (Max)在Code Arena: Frontend榜单中排名第二，得分比Claude Opus 4.7 (Thinking)高29分，仅落后于Fable 5。该模型在React子榜单排第2，HTML排第4，且在品牌营销、参考设计等6个子类别中均位列第一。作为开源模型，GLM-5.2大幅领先Kimi-K2.6和Minimax-M3。

AI模型 GLM-5.2 Code Arena Claude Opus 4.7 Fable 5 编程助手

推荐理由：智谱新模型GLM-5.2 Max在代码前端评测中杀到第二，直接压过Claude Opus 4.7，开源模型里目前最强，做前端开发的可以关注。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

10:05

arXiv: Anthropic@Linus Bantel, Anna-Lena Roth, Jonas Posner, Dirk Pflüger

一项新研究使用基于OpenCode的智能体扩展Julia文档MCP服务器，评估了OpenAI GPT-5.5、Anthropic Claude Opus 4.7和开源Qwen3-Coder-Next在三个并行问题（π近似、分块矩阵乘、分块Cholesky分解）上生成Dagger.jl代码的能力。实验在共享内存192核和分布式两节点上进行，与Base.Threads和MPI.jl基线对比。结果显示智能体能生成小规模可执行代码，但在大规模下因死锁、过订阅或内存溢出失败，其中开源模型受影响最严重。商业模型在Base.Threads和MPI.jl上可扩展性相当，但Dagger.jl实现存在任务依赖、粒度和调度方面的反复弱点。

论文 GPT-5.5 Claude Opus 4.7 Qwen3-Coder-Next Julia 并行计算

推荐理由：这篇论文测试了GPT-5.5、Claude Opus 4.7和Qwen3-Coder-Next用智能体写并行Julia代码，在超算上跑192核，发现小规模还行，大规模容易死锁或OOM，开源模型最差。做HPC或Julia并行开发的人值得看。

原文

6月12日