全部 AI 动态 · AI 热点

6月29日

17:45

Browser Use@browser_use

Browser Use 团队使用 v4 版本构建 QA 基准测试，将 GLM 5.2、Opus 4.7、GPT 5.5 和 Minimax M3 四个模型在 LLM Arena 数据集上的任务进行对比。每个模型生成网站后由人工评估打分，测试涵盖多个任务类型。结果揭示了开源权重模型在特定场景下的表现差异。

AI模型 GLM 5.2 Opus 4.7 GPT 5.5 Minimax M3 基准测试

推荐理由：他们用 Browser Use v4 搞了个新基准，测了 GLM 5.2、Opus 4.7、GPT 5.5 和 Minimax M3，人工打分告诉你谁在 QA 任务上更强。

原文

13:48

Ethan Mollick@emollick

一项实验测试了AI在端到端编码任务中的能力。Opus 4.7在14小时内构建了一个软件包，相当于人类工程师2-17周的工作量，总花费251美元。虽然模型仍不完美，但进步速度显著。

AI模型 Opus 4.7 编程助手编码能力 AI基准测试

推荐理由：Opus 4.7只用14小时和251块就干完了人类几周的活，虽然还有瑕疵，但进步真的快。

原文

11:51

Browser Use@browser_use

Browser Use 团队对 Opus 4.7 和 GLM 5.2 进行前端设计基准测试。测试使用 Browser Use v4 工具，从 LLM Arena 数据集中选取一个 prompt。每个模型根据该 prompt 生成网站并自动评分。结果对比了这两款模型在代码生成和界面设计上的能力。

AI模型 Opus 4.7 GLM 5.2 Browser Use LLM Arena 前端生成

推荐理由：Browser Use 团队拿 Opus 4.7 和 GLM 5.2 比前端设计，一个 prompt 生成网站打分，看看谁画页面更强。

原文

6月27日

12:57

OpenRouter@OpenRouterAI

精选

OpenRouter发布了一个MCP演示，展示agent如何通过MCP从DesignArena拉取实时设计模型排行。演示中，agent同时启动GLM-5.2、Opus 4.7和Kimi 2.6三个子模型，各自生成自画像网页并排展示。用户可以直接对比三个模型的输出，选择最喜欢的设计。这种方式省去了手动注册多个平台、重复输入提示词的繁琐流程。

技巧 OpenRouter MCP/工具 GLM-5.2 Opus 4.7 Kimi 2.6

推荐理由：OpenRouter演示了怎么用MCP让agent自动调用GLM-5.2、Opus 4.7、Kimi 2.6三个模型并排出设计图，再也不用一个个手动试了。

原文

6月25日

01:33

Decoder@Matthias Bastian

智谱AI的GLM-5.2在Snowflake的103项编程任务基准测试中，性能接近Claude Opus 4.7，但每输出token成本仅为后者的五分之一。不过GLM-5.2每任务消耗的token数量几乎是Opus 4.7的两倍。这一价格差异对Anthropic和OpenAI构成压力，可能影响西方AI实验室的估值。

AI模型 GLM-5.2 Opus 4.7 智谱AI Snowflake 推理模型

推荐理由：智谱AI新模型GLM-5.2用Opus 4.7五分之一的价格做差不多的活，就是更费token，性价比很猛。

原文

6月19日

01:43

Anthropic@AnthropicAI

精选

Anthropic 发布 Frontier Red Team 博客，介绍 Project Fetch 第二阶段：测试 Claude 编程机器人狗的能力。Opus 4.7 自主完成编程任务，速度比去年最佳人类团队（使用 Opus 4.1）快约 20 倍。尽管速度提升显著，机器人狗仍未成功取回沙滩球。该研究旨在评估前沿模型在物理世界中的自主能力与安全风险。

AI模型 Claude Opus 4.7 Anthropic 机器人编程安全测试

推荐理由：Anthropic 让 Claude 自己写代码控制机器狗，速度比人快20倍，虽然最后没抓到球，但过程特别有意思

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月13日

10:41

AI Will@FinanceYF5

精选

《Memory》方法让模型在多个 session 间积累知识，路径分为失败、调查、验证、提炼规则、查用规则五步。Sonnet 4.6 仅完成第1步（记录失败但不查询）；Opus 4.7 可到第3步，但校验覆盖率仅7–33%；Fable 5 能走完全程，验证覆盖率最高达73%。该方法旨在提升模型跨会话知识复用能力。

论文 Sonnet 4.6 Opus 4.7 Fable 5 记忆机制推理模型

推荐理由：Fable 5 跨 session 记忆覆盖率73%

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月8日

14:42

歸藏(guizang.ai)@op7418

Notion官方在状态页面公开指出Anthropic的Opus 4.7和4.8模型出现性能下降，导致用户使用Notion AI时失败率升高。为缓解影响，Notion已禁用所有Anthropic模型并将请求路由到其他供应商。Anthropic回应称此类问题在所有模型中都会发生，目前性能已恢复。但观察者指出，Anthropic模型出问题的频率明显高于其他两家，其状态页面甚至显示可用性未达99%。

AI产品 Anthropic Opus 4.7 Opus 4.8 模型性能 Notion AI

推荐理由：Anthropic模型频繁出问题，做AI产品集成的团队需要评估供应商稳定性——Notion的公开点名就是信号，建议关注Anthropic的可用性记录再决定是否深度依赖。

原文

6月6日

04:18

Anthropic@AnthropicAI

Anthropic发布新博客，展示其AI模型Claude Opus 4.7在核磁共振波谱（NMR）分析任务上的表现。NMR是化学家理解分子结构的关键工具。研究发现，Opus 4.7在部分任务上甚至超越了专用的NMR软件。这一进展表明AI在科学领域，尤其是化学分析中，具有巨大潜力。

AI模型 Claude Opus 4.7 化学 NMR 科学AI

推荐理由：化学研究者或药物开发团队可以关注：Claude Opus 4.7在NMR分析上达到专业软件水平，意味着AI可能简化分子结构解析流程，值得尝试用于辅助实验。

原文

5月21日

08:01

AI Breakfast@AiBreakfast

据 AI Breakfast 报道，Google 的 Gemini 3.5 Flash 模型在多个关键基准测试中超越了 Anthropic 的 Opus 4.7，包括终端基准、MCP Atlas、OSWorld 验证、金融代理、CharXiv 推理等。更重要的是，Gemini 3.5 Flash 的成本仅为 Opus 4.7 的一小部分。这一结果挑战了“贵即更好”的认知，表明轻量级模型在特定任务上可能更具性价比。对于预算有限但追求高性能的开发者或团队，这是一个值得关注的信号。

AI模型 Gemini 3.5 Flash Opus 4.7 基准测试性价比模型对比

推荐理由：轻量模型在多个实际任务上反超旗舰模型，做 AI 应用选型的团队可以直接参考这份基准对比来优化成本与效果。

原文

5月19日

14:56

14:56IT之家（博客/媒体）

精选

Anthropic 宣布上调所有套餐中 Claude Design 的 Token 上限翻倍，减少设计中断，支持更长上下文和更多迭代。同时，Claude Code 的快速模式默认切换为 Opus 4.7 模型，速度提升 2.5 倍，适合快速代码迭代和实时调试。快速模式定价为百万 Token 输入 30 美元、输出 150 美元，与 Opus 4.6 共享速率限制池。这些更新提升了创作和编程效率，尤其对需要频繁交互的用户有利。

AI产品 Claude Design Claude Code Opus 4.7 Token 上限快速模式

推荐理由：Claude Design 上限翻倍解决了复杂设计项目频繁中断的痛点，做原型和演示的团队可以更流畅地迭代；Claude Code 切到 Opus 4.7 让交互式编程快 2.5 倍，写代码的开发者值得立刻试试快速模式。

原文

05:12

claudedevs@claudedevs

76°

Claude Code 的快速模式现已默认使用 Opus 4.7 模型，提升了代码生成和推理的效率。用户可以通过 /fast 命令立即体验。这一更新意味着开发者在使用 Claude Code 进行编程时，能获得更快的响应速度和更强的模型能力，尤其适合需要频繁迭代代码的场景。

AI产品 Claude Code Opus 4.7 编程助手快速模式模型升级

推荐理由：Claude Code 用户现在默认用上 Opus 4.7，代码生成更快更聪明，做编程的可以直接用 /fast 试试。

原文

5月16日

14:54

Ate-a-Pi@svpino

72°

一位开发者提出了一个多模型架构模式，该模式将用户提示分解为子任务，并路由到最适合的模型执行：推理任务交给 Opus 4.7，视频生成用 Seedance，图像生成用 GPT Image。这种系统还包含三层记忆，使得上下文能在会话间累积，而不是每次重置。该模式有望取代单一模型工具，通过组合多个专长模型实现更高效、更精准的任务处理。

AI产品多模型架构路由系统 Opus 4.7 Seedance GPT Image

推荐理由：这个多模型路由架构解决了单一模型能力不足的问题，做 AI 应用开发的团队可以直接参考这种设计，让不同模型各展所长，值得关注。

原文