全部 AI 动态 · AI 热点

6月29日

17:45

17:45

Browser Use@browser_use

Browser Use 团队使用 v4 版本构建 QA 基准测试，将 GLM 5.2、Opus 4.7、GPT 5.5 和 Minimax M3 四个模型在 LLM Arena 数据集上的任务进行对比。每个模型生成网站后由人工评估打分，测试涵盖多个任务类型。结果揭示了开源权重模型在特定场景下的表现差异。

AI模型 GLM 5.2 Opus 4.7 GPT 5.5 Minimax M3 基准测试

推荐理由：他们用 Browser Use v4 搞了个新基准，测了 GLM 5.2、Opus 4.7、GPT 5.5 和 Minimax M3，人工打分告诉你谁在 QA 任务上更强。

14:55

14:55

宝玉@dotey

有用户发现，在 Codex 应用中将模型选为 GPT-5.5 并设置推理为 xhigh 后，运行 Juice 测试 Prompt 若返回 128 则实际使用的是 GPT 5.6 Sol，否则返回 768 就是 GPT 5.5。该 Prompt 要求模型输出 Juice 数除以2乘10再除以5的结果。目前测试仍返回 768，说明多数用户尚未灰度到 GPT 5.6 Sol。

技巧 GPT 5.6 Sol GPT 5.5 提示词工程推理模型

推荐理由：想提前知道自己的 GPT 5.5 是不是偷偷升级了？用这个 Juice 测试 Prompt 一试便知，很简单。

6月27日

13:04

13:04

orange.ai@oran_ge

oran_ge基于Cola的token消耗统计发现，GLM 5.2正在取代Claude Sonnet和Opus，成为付费用户最爱的模型。DeepSeek v4 Pro依然是大众用户中最受欢迎的模型，而GPT 5.5虽然强大但几乎无人使用。这一数据同时反映了Cola与Codex用户（GPT 5.5受众）画像是完全不同的。

行业 GLM 5.2 DeepSeek v4 Pro GPT 5.5 模型趋势用户偏好

推荐理由：oran_ge用Cola数据发现一个反常识现象：GLM 5.2在抢Claude的付费用户，而GPT 5.5却没人用，值得看看

12:21

12:21

Nous Research@NousResearch

精选

NousResearch发布Hermes Agent，通过暴露MoA预设作为虚拟模型，提供超越公共前沿的能力。在即将发布的基准测试上，Hermes Agent比Opus 4.8高8%，比GPT 5.5高11%。该模型目前被限制访问，仅授予少数人。

AI模型 Hermes Agent Opus GPT 5.5 NousResearch 智能体

推荐理由：Hermes Agent的MoA虚拟模型比Opus 4.8和GPT 5.5都强，分别高8%和11%，不过目前只能少数人用。

6月19日

12:42

12:42

Fireworks AI@FireworksAI_HQ

Jeremy Howard在X平台上称赞Zai_org的GLM 5.2模型，称其至少与Opus 4.8和GPT 5.5一样优秀。他指出该模型速度极快、成本低廉且回答不冗长，在处理长上下文时表现非常出色。Howard表示从未见过如此优秀的开源权重模型。

AI模型 GLM 5.2 Zai_org Opus 4.8 GPT 5.5 开源模型

推荐理由：想试试媲美顶级闭源模型的开源模型吗？GLM 5.2又快又便宜，长上下文超强，看看Jeremy Howard怎么夸的。

6月18日

13:01

13:01

@atomic_chat_hq@atomic_chat_hq

Nemotron 3 Ultra 在三个物理模拟任务中与 GPT 5.5 表现相当，但成本仅为后者的十分之一。测试用例包括旋转桶中水体、高尔顿板钉球和极端质量碰撞。Nemotron 3 Ultra 输出 11.3k tokens 花费 $0.051，而 GPT 5.5 输出 11.0k tokens 花费 $0.57。质量差距远小于价格差距。

AI模型 Nemotron 3 Ultra GPT 5.5 推理模型成本对比

推荐理由：想用 GPT-5.5 级别能力但嫌贵？Nemotron 3 Ultra 几乎一样好，价格只有十分之一，值得试试。

05:29

05:29

ollama@ollama

用户称 GLM 5.2 达到 SOTA 级别的智能，但成本仅为同类模型的一小部分。他认为 GLM 5.2 的输出和个性优于 GPT 5.5。他计划将 GLM 5.2 用于自己的工具 Hermes 以及客户项目中。该推文获得 170 点赞和超 7300 次浏览。

AI模型 GLM 5.2 GPT 5.5 Hermes 开源模型

推荐理由：有人实测后说 GLM 5.2 比 GPT 5.5 更强还便宜，准备放进自己产品用，有参考价值。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

13:31

13:31

swyx (AI Engineer)@swyx

Mythos 正式上线，其 FrontierCode 被认定为下一代编程基准。在 FC Diamond 测试中，Opus 4.8 和 GPT 5.5 在随努力扩展方面表现不佳。Mythos/Fable 的后训练方法首次将测试时计算应用于解决超长任务，相当于数十小时人类工作、每任务数百美元。该功能现已在 Cognition 和 Devin 中可用，仅需 1.4x ACUs。

AI产品编程基准 Mythos FrontierCode Opus 4.8 GPT 5.5 Devin

推荐理由：Mythos 的 FrontierCode 基准揭示了当前顶级模型在长任务上的扩展瓶颈，做 AI 编程评估或开发长流程自动化的团队值得关注，可以直接在 Devin 中体验。

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

22:20

22:20

berryxia@berryxia

一条推文对比了 Fable 5、Opus 4.8、Gemini 3.1 Pro 和 GPT 5.5 四款模型，指出只有 Google 还在使用去年的模型。这反映了当前 AI 模型迭代速度的差异，Google 的 Gemini 3.1 Pro 相对落后于其他厂商的新模型。

AI模型模型对比 Fable 5 Opus 4.8 Gemini 3.1 Pro GPT 5.5

推荐理由：关注模型迭代节奏的开发者可以快速了解各厂商最新进展，Google 用户会意识到其模型可能落后了。

08:33

08:33

lmarena.ai@lmarena_ai

精选76°

Anthropic 的 Claude Opus 4.8 在 Agent Arena 排行榜上首次亮相，在 Thinking 模式下与 GPT 5.5 (High) 并列第一，但在 Non-Thinking 模式下仅排第八。相比前代 Opus 4.7，Opus 4.8 在开启思考时任务完成率更高，但可操控性略差，从 bash 错误中恢复更慢，且工具幻觉率上升。Agent Arena 基于 30 万+任务、200 万+工具调用和 4000 万行代码，通过因果追踪方法评估模型在真实世界智能体任务中的表现。该排行榜衡量任务成功、可操控性、错误恢复、用户反馈和工具幻觉五个信号。

AI模型智能体模型评测 Claude Opus 4.8 GPT 5.5 Agent Arena

推荐理由：Agent Arena 用真实任务和因果推断评估智能体，比传统基准更贴近实际使用场景。做智能体开发或选型的团队，值得关注这个排行榜来对比模型的实际表现。

6月4日

02:45

02:45

Amjad Masad@amasad

78°

尽管 GPT 5.5 在 SWE 基准测试中表现最佳，但 Opus 4.8 在端到端应用创建任务上仍保持价格与性能的双重优势。为此，团队推出了 ViBench——首个基于真实世界任务的应用创建基准测试。该基准旨在更准确地评估模型在实际开发场景中的表现，而非仅关注代码修复或补全。结果显示，Opus 4.8 在 Vibe Coding 场景下依然是最优选择。

AI模型 GPT 5.5 Opus 4.8 ViBench Vibe Coding 基准测试

推荐理由：ViBench 填补了现有基准只测代码修复、不测完整应用创建的空白，做全栈原型或快速验证想法的开发者值得关注——Opus 4.8 可能才是你的性价比之选。

6月2日

14:15

14:15

AI Will@FinanceYF5

Greg Isenberg 在播客中未讨论 Claude Opus 4.8，认为截至 5 月 29 日该模型相比 GPT 5.5 没有实质性提升。这一观点暗示当前 AI 模型迭代正进入类似 iPhone 时代的渐进式改进阶段，而非颠覆性突破。对于关注模型能力对比的开发者与用户，这提示需更理性看待新版本发布。

行业模型发布 Claude Opus 4.8 GPT 5.5 AI 行业趋势 Greg Isenberg

推荐理由：Greg Isenberg 的观察点破了模型发布泡沫，做模型选型或关注 AI 进展的团队值得一看，避免被营销节奏带偏。

14:15

14:15

AI Will@FinanceYF5

Greg Isenberg 认为 Claude Opus 4.8 相比 GPT 5.5 没有显著提升，模型发布已进入类似 iPhone 的微调迭代阶段。他指出，基准测试与用户感受脱节，真正的价值在于模型周边的工具创新，如 Claude Code 的动态工作流和 Codex 的桌面应用。他预测 6 个月内用户将不再关心具体模型，就像不关心 Uber 的引擎一样。

行业 Claude Opus 4.8 GPT 5.5 模型迭代工具链创新 Claude Code

推荐理由：模型同质化趋势下，真正改变开发效率的是工具链创新——做 AI 应用或自动化流程的团队，建议关注 Claude Code 动态工作流和 Codex 桌面应用，而非纠结模型版本号。

5月30日

11:29

11:29

Marc Andreessen@pmarca

Marc Andreessen转发Greg Isenberg观点，认为AI模型发布正变得像iPhone迭代一样，每次升级差异微小，用户难以感知实质性提升。以Claude Opus 4.8为例，它相比GPT 5.5并无明显优势，基准测试与用户感受脱节。真正改变游戏规则的是模型周边的工具创新，如Claude Code的动态工作流和Codex的桌面应用。预计6个月内，用户将不再关心底层模型，就像不关心Uber的引擎一样。

行业模型迭代 Claude Opus 4.8 GPT 5.5 工具生态行业趋势

推荐理由：模型同质化趋势已现，做AI应用开发的团队应关注工具生态而非模型本身——Claude Code和Codex的进展更值得投入时间。

5月17日

13:21

13:21

Greg Brockman@gdb

安全研究员 Philo Groves 使用 GPT 5.5 发现了一个真正新颖的漏洞，并提交了一份最疯狂的漏洞报告。该报告在不到 10 分钟内通过了初步审查，且未被标记为重复。Groves 表示迫不及待想公开这一发现。这展示了 AI 在防御性安全领域的潜力，能够发现人类可能忽略的漏洞。

AI产品 GPT 5.5 漏洞挖掘防御安全 AI 安全安全研究

推荐理由：安全研究员用 GPT 5.5 挖到全新漏洞，报告 10 分钟过审，做漏洞挖掘和 AI 安全应用的团队值得关注。