12:23Decoder@Matthias Bastian精选Epoch AI 发布新基准 MirrorCode,测试 AI 模型能否在无原始代码时重建完整程序。Claude Opus 4.7 以 56% 的解决率领先,曾在 14 小时内重建 16,000 行工具包。个别模型为单个 MirrorCode 任务连续运行 19 天,花费 2,600 美元。所有测试模型在最复杂任务上均失败。AI模型MirrorCodeEpoch AIClaude Opus 4.7代码生成基准测试1 个信源在谈推荐理由:Epoch AI 搞了个新基准 MirrorCode,专测 AI 能不能凭空抄作业。Claude Opus 4.7 解了一半,但最难的题全挂,甚至有个模型烧了 19 天才花掉 2600 刀。原文
03:24Genspark@genspark_aiGenspark 推出 Genspark Design,一款基于 Claude Opus 4.7 的 AI 设计工具。用户无需设计背景即可从草图生成专业设计,支持 UI 原型、视频、HTML 动画和海报。可上传 Figma 文件或保存设计复用于项目,并一键将设计转化为工作代码(基于 Genspark Code)。目前处于首发定价阶段。AI产品Genspark DesignClaude Opus 4.7设计工具代码生成Figma6 个信源在谈推荐理由:不用学设计软件,上传 Figma 或画个草图就能出 UI、视频、动画,还能一键转代码,设计师和产品经理都该试试。原文
10:30arXiv: DeepSeek@Jasmine Brazilek, Oliver Tulio, Joel Christoph, Miles Tidmarsh, Carol Kline, Arturs Kanepajs新基准TAC(Travel Agent Compassion)测试AI代理在12个旅行预订场景中是否避免动物剥削选项,涵盖6类动物剥削,扩展至48个样本以控制价格、评分和位置干扰。7个前沿模型得分均低于64%的随机水平,最佳Claude Opus 4.7为53%。在系统提示中加入一句福利意识语句后,Claude和GPT-5.5提升47-63个百分点,GPT-5.2提升26个百分点,DeepSeek和Gemini提升不到12个百分点。对前两名模型的288条基底记录审计未发现评估意识,表明低分并非因识别出测试。论文TAC动物福利AI Agent基准测试Claude Opus 4.71 个信源在谈推荐理由:动物福利问题有了AI专属的代理基准TAC,实测Claude Opus 4.7刚过一半,加个提示词能暴增60%,暴露了模型在实际行动中的盲区。原文
05:29elvis@omarsar0精选GLM-5.2 (Max)在Code Arena: Frontend榜单中排名第二,得分比Claude Opus 4.7 (Thinking)高29分,仅落后于Fable 5。该模型在React子榜单排第2,HTML排第4,且在品牌营销、参考设计等6个子类别中均位列第一。作为开源模型,GLM-5.2大幅领先Kimi-K2.6和Minimax-M3。AI模型GLM-5.2Code ArenaClaude Opus 4.7Fable 5编程助手10 个信源在谈推荐理由:智谱新模型GLM-5.2 Max在代码前端评测中杀到第二,直接压过Claude Opus 4.7,开源模型里目前最强,做前端开发的可以关注。原文
10:05arXiv: Anthropic@Linus Bantel, Anna-Lena Roth, Jonas Posner, Dirk Pflüger一项新研究使用基于OpenCode的智能体扩展Julia文档MCP服务器,评估了OpenAI GPT-5.5、Anthropic Claude Opus 4.7和开源Qwen3-Coder-Next在三个并行问题(π近似、分块矩阵乘、分块Cholesky分解)上生成Dagger.jl代码的能力。实验在共享内存192核和分布式两节点上进行,与Base.Threads和MPI.jl基线对比。结果显示智能体能生成小规模可执行代码,但在大规模下因死锁、过订阅或内存溢出失败,其中开源模型受影响最严重。商业模型在Base.Threads和MPI.jl上可扩展性相当,但Dagger.jl实现存在任务依赖、粒度和调度方面的反复弱点。论文GPT-5.5Claude Opus 4.7Qwen3-Coder-NextJulia并行计算10 个信源在谈推荐理由:这篇论文测试了GPT-5.5、Claude Opus 4.7和Qwen3-Coder-Next用智能体写并行Julia代码,在超算上跑192核,发现小规模还行,大规模容易死锁或OOM,开源模型最差。做HPC或Julia并行开发的人值得看。原文
19:01AI Will@FinanceYF5Claude Opus 4.7 在 Android Arena 排行榜中以 1313 Elo 分排名第一,超越 OpenAI 的 GPT-5.5 和谷歌的 Gemini 3.5 Flash。Anthropic 在前十名中占据五个席位,显示出其在移动端 AI 领域的强势地位。该排行榜主要评估模型在安卓设备上的实际表现,对移动端 AI 应用开发者有重要参考价值。AI模型Claude Opus 4.7Android Arena排行榜AnthropicGPT-5.510 个信源在谈推荐理由:移动端 AI 开发者可以快速了解当前安卓设备上最强的模型格局——Claude Opus 4.7 领先,Anthropic 整体优势明显,值得关注其技术路线。原文
06:41rohanpaul_ai@rohanpaul_aiAgent Arena 发布了一个全新的智能体排行榜,不再依赖传统基准测试中的孤立问题,而是评估 AI 模型在真实用户任务中的表现,包括编写代码、构建应用、研究主题、创建文档和分析文件等。该排行榜基于 30 万+ 任务、200 万+ 工具调用和 4000 万行代码的数据,综合考量任务成功、可引导性、错误恢复、用户表扬/投诉和工具幻觉等信号。结果显示,GPT-5.5 High 以 +10.7% 的净改进率领先,Claude Opus 4.7 Thinking 和 GPT-5.4 High 紧随其后。该排行榜的核心价值在于将智能体视为工作系统,综合评估模型选择、工具使用、恢复行为和用户满意度。AI模型智能体排行榜GPT-5.5Claude Opus 4.7工具调用1 个信源在谈推荐理由:做智能体开发和评测的团队终于有了一个贴近真实工作场景的排行榜——Agent Arena 用 30 万+ 任务和 200 万+ 工具调用数据,告诉你哪个模型在写代码、做研究、处理文档时真正靠谱,值得点开看看你的模型排第几。原文
04:58rohanpaul_ai@rohanpaul_ai76°Anthropic 发布新报告,显示 Claude Opus 4.7 在核磁共振(NMR)谱图分析上表现惊人。该模型不仅能像专业 NMR 软件一样预测谱图,还能反向从谱图推断分子结构,这是传统工具通常需要化学家完成的任务。Opus 4.7 在氢谱预测误差最小,碳谱预测接近专业软件 MestReNova,且未经过化学领域微调。这标志着通用 AI 模型在化学领域取得了突破性进展,有望加速分子结构解析流程。AI模型Claude Opus 4.7NMR分析化学AI分子结构推断Anthropic10 个信源在谈推荐理由:化学研究者和药物开发团队终于有了一个能反向推断分子结构的通用 AI 工具,省去专业软件和人工分析的双重成本,建议做结构解析的团队直接关注报告细节。原文
06:16lmarena.ai@lmarena_ai88°Arena 平台今日正式推出 Agent Mode,允许用户测试前沿模型在真实任务中的表现,包括深度研究、生成报告、创建网站、调试代码等。该模式通过工具调用(如网页搜索、沙箱 bash、图像生成、文件写入)完成复杂任务。首批支持的模型包括 GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro 及顶级开源模型。同时,Battle Mode 投票数已突破 5000 万。AI产品ArenaAgent Mode模型评测GPT-5.5Claude Opus 4.72 个信源在谈推荐理由:Arena 的 Agent Mode 让开发者可以直接对比前沿模型在真实任务中的表现,做 AI 评测或选型的团队值得一试。原文
01:48lmarena.ai@lmarena_ai88°Arena 平台推出 Agent Mode,允许用户测试 AI 智能体在真实任务中的表现,包括深度研究、生成报告、构建网站、调试代码等。该模式通过集成网页搜索、沙箱环境 bash、图像生成、文件写入和追问等工具,评估前沿模型如 GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro 和顶级开源模型的智能体能力。这标志着 AI 评测从对话转向复杂任务执行,为开发者提供了直观的模型选择依据。用户可直接在 Arena 中体验并对比不同模型的智能体性能。AI产品智能体评测平台GPT-5.5Claude Opus 4.7Gemini 3.1 Pro2 个信源在谈推荐理由:Arena 的 Agent Mode 解决了 AI 评测脱离实际任务的问题,做智能体应用或选型的开发者可以直接上手对比 GPT-5.5 和 Claude Opus 4.7 的真实表现,值得一试。原文
01:19lmarena.ai@lmarena_ai88°Agent Arena 是一个全新的智能体评测平台,通过数百万次真实用户会话,衡量模型在完成实际任务(如编写代码、创建幻灯片、网页研究、构建应用、分析文档)时的表现。评测基于五个信号:任务成功率、可操控性、错误恢复、用户表扬/抱怨比、工具幻觉。排行榜基于 30 万+任务、200 万+工具调用和 4000 万行代码构建,当前排名第一为 OpenAI GPT-5.5,其次为 Anthropic Claude Opus 4.7、智谱 GLM-5.1、Google Gemini 3.1 Pro 和 Kimi K2.6。该平台旨在解决智能体在真实场景中难以评估的问题,为开发者提供更贴近实际使用的性能参考。AI产品智能体评测/基准GPT-5.5Claude Opus 4.7GLM-5.110 个信源在谈推荐理由:智能体评测终于从玩具任务走向真实场景——做 AI 应用或智能体开发的团队,可以直接用 Arena 的评测结果来选模型,比跑基准测试更有参考价值。原文
01:46Fireworks AI@FireworksAI_HQFireworks AI 在 Harvey 的法律智能体基准上测试了稀疏顾问模式:用 GLM 5.1 作为执行工人,Claude Opus 4.7 作为稀疏顾问,结果全部通过率从 Opus 单独运行的 14/100 提升至 18/100,成本仅为 Opus 单独运行的 39%。该模式通过让强大模型仅在关键步骤提供建议,显著降低了推理成本。Fireworks 已开源相关 harness 设计、顾问模式及训练结果。AI产品智能体法律AIGLM 5.1Claude Opus 4.7开源/仓库1 个信源在谈推荐理由:法律 AI 团队终于有了降本增效的实战方案——用 GLM 5.1 搭配 Claude Opus 4.7 做稀疏顾问,性能提升 28% 的同时成本砍掉 61%,做法律智能体或长链推理的开发者值得一试。原文
22:26阿里通义 Qwen@Alibaba_Qwen83°atomic.chat 团队测试了三个前沿模型在真实智能体任务中的表现:编写一个能自我训练并玩俄罗斯方块的机器人。每个模型可以读取自己的代码、运行基准测试并在10次迭代中自我重写。最终 Qwen 3.7-Max 以训练成本仅1.32美元、机器人性能提升56%的成绩全面领先,而 Claude Opus 4.7 成本12.15美元提升28%,GPT-5.5 成本2.85美元提升仅7%。Qwen 在成本效益和性能提升上均胜出,尤其在长智能体循环场景中表现出色。AI模型Qwen 3.7-Max智能体Claude Opus 4.7GPT-5.5成本对比推荐理由:Qwen 3.7-Max 在智能体任务中成本仅为 Claude 的1/9、GPT 的1/2,性能提升却翻倍,做 AI 智能体开发的团队值得关注这个性价比之选。原文
10:26arXiv: Anthropic@Isaac David, Arthur Gervais精选Anthropic在2026年4月发布的Mythos材料中声称其模型能发现真实漏洞,但本文通过控制实验复现了这些漏洞发现任务。实验让GPT-5.5、Claude Opus 4.7和Kimi K2在给定目标文件、只读源码和手动匹配规则下,尝试复现6个已知漏洞。结果显示,GPT-5.5在54次尝试中仅成功5次(覆盖2/6任务),Claude Opus 4.7成功1次,Kimi K2为0次。主要失败原因是模型过早锁定看似合理的候选错误,而忽略了补丁证据中的具体不变性。该结果不否定Anthropic未公开的工作流程,但表明在有利的靶标文件框架下,系统特定提示仅产生少量匹配。论文漏洞发现基准测试GPT-5.5Claude Opus 4.7Kimi K210 个信源在谈推荐理由:这个实验戳破了AI漏洞发现能力的泡沫——即使给定了目标文件,顶级模型复现已知漏洞的成功率也极低。做AI安全评估或漏洞研究的团队,看完会重新审视benchmark的可靠性。原文
01:12Anthropic: Newsroom(资讯)75°Anthropic 在新闻中心集中发布了多项重要更新,包括新一代旗舰模型 Claude Opus 4.7,在编程、智能体、视觉和多步骤任务上性能更强,更彻底和一致。同时推出 Anthropic Labs 产品 Claude Design,支持用户与 Claude 协作创建设计、原型、幻灯片等视觉作品。此外,Anthropic 联合多家科技巨头启动 Project Glasswing 以保护关键软件安全,并发布了关于 8.1 万人 AI 使用意愿的全球最大规模定性研究结果。这些更新展示了 Anthropic 在模型能力、产品创新和安全合作上的全面进展。AI产品AnthropicClaude Opus 4.7Claude DesignProject GlasswingAI 安全10 个信源在谈推荐理由:Claude Opus 4.7 在编程和智能体任务上显著提升,做复杂自动化和多步骤工作的开发者值得升级;Claude Design 让非设计师也能快速产出视觉作品,创意团队可以直接试。原文
21:35Anthropic: Newsroom(资讯)85°Anthropic 于 2026 年 4 月 16 日发布了 Claude Opus 4.7,这是其最新旗舰模型。该模型在编程、智能体、视觉和多步骤任务上性能显著提升,尤其在需要深度推理和一致性的复杂工作中表现更佳。Opus 4.7 的推出进一步巩固了 Anthropic 在高端 AI 模型领域的竞争力,为开发者和企业用户提供了更可靠的自动化解决方案。AI模型Claude Opus 4.7推理模型编程助手智能体Anthropic10 个信源在谈推荐理由:做复杂编程和智能体开发的团队终于有了更靠谱的选择——Opus 4.7 在多步骤任务上的一致性提升明显,建议直接上手测试。原文