17:45Browser Use@browser_useBrowser Use 团队使用 v4 版本构建 QA 基准测试,将 GLM 5.2、Opus 4.7、GPT 5.5 和 Minimax M3 四个模型在 LLM Arena 数据集上的任务进行对比。每个模型生成网站后由人工评估打分,测试涵盖多个任务类型。结果揭示了开源权重模型在特定场景下的表现差异。AI模型GLM 5.2Opus 4.7GPT 5.5Minimax M3基准测试3 个信源在谈推荐理由:他们用 Browser Use v4 搞了个新基准,测了 GLM 5.2、Opus 4.7、GPT 5.5 和 Minimax M3,人工打分告诉你谁在 QA 任务上更强。原文
14:55宝玉@dotey有用户发现,在 Codex 应用中将模型选为 GPT-5.5 并设置推理为 xhigh 后,运行 Juice 测试 Prompt 若返回 128 则实际使用的是 GPT 5.6 Sol,否则返回 768 就是 GPT 5.5。该 Prompt 要求模型输出 Juice 数除以2乘10再除以5的结果。目前测试仍返回 768,说明多数用户尚未灰度到 GPT 5.6 Sol。技巧GPT 5.6 SolGPT 5.5提示词工程推理模型推荐理由:想提前知道自己的 GPT 5.5 是不是偷偷升级了?用这个 Juice 测试 Prompt 一试便知,很简单。原文
13:04orange.ai@oran_georan_ge基于Cola的token消耗统计发现,GLM 5.2正在取代Claude Sonnet和Opus,成为付费用户最爱的模型。DeepSeek v4 Pro依然是大众用户中最受欢迎的模型,而GPT 5.5虽然强大但几乎无人使用。这一数据同时反映了Cola与Codex用户(GPT 5.5受众)画像是完全不同的。行业GLM 5.2DeepSeek v4 ProGPT 5.5模型趋势用户偏好1 个信源在谈推荐理由:oran_ge用Cola数据发现一个反常识现象:GLM 5.2在抢Claude的付费用户,而GPT 5.5却没人用,值得看看原文
12:21Nous Research@NousResearch精选NousResearch发布Hermes Agent,通过暴露MoA预设作为虚拟模型,提供超越公共前沿的能力。在即将发布的基准测试上,Hermes Agent比Opus 4.8高8%,比GPT 5.5高11%。该模型目前被限制访问,仅授予少数人。AI模型Hermes AgentOpusGPT 5.5NousResearch智能体推荐理由:Hermes Agent的MoA虚拟模型比Opus 4.8和GPT 5.5都强,分别高8%和11%,不过目前只能少数人用。原文
12:42Fireworks AI@FireworksAI_HQJeremy Howard在X平台上称赞Zai_org的GLM 5.2模型,称其至少与Opus 4.8和GPT 5.5一样优秀。他指出该模型速度极快、成本低廉且回答不冗长,在处理长上下文时表现非常出色。Howard表示从未见过如此优秀的开源权重模型。AI模型GLM 5.2Zai_orgOpus 4.8GPT 5.5开源模型3 个信源在谈推荐理由:想试试媲美顶级闭源模型的开源模型吗?GLM 5.2又快又便宜,长上下文超强,看看Jeremy Howard怎么夸的。原文
13:01@atomic_chat_hq@atomic_chat_hqNemotron 3 Ultra 在三个物理模拟任务中与 GPT 5.5 表现相当,但成本仅为后者的十分之一。测试用例包括旋转桶中水体、高尔顿板钉球和极端质量碰撞。Nemotron 3 Ultra 输出 11.3k tokens 花费 $0.051,而 GPT 5.5 输出 11.0k tokens 花费 $0.57。质量差距远小于价格差距。AI模型Nemotron 3 UltraGPT 5.5推理模型成本对比推荐理由:想用 GPT-5.5 级别能力但嫌贵?Nemotron 3 Ultra 几乎一样好,价格只有十分之一,值得试试。原文
05:29ollama@ollama用户称 GLM 5.2 达到 SOTA 级别的智能,但成本仅为同类模型的一小部分。他认为 GLM 5.2 的输出和个性优于 GPT 5.5。他计划将 GLM 5.2 用于自己的工具 Hermes 以及客户项目中。该推文获得 170 点赞和超 7300 次浏览。AI模型GLM 5.2GPT 5.5Hermes开源模型推荐理由:有人实测后说 GLM 5.2 比 GPT 5.5 更强还便宜,准备放进自己产品用,有参考价值。原文
13:31swyx (AI Engineer)@swyxMythos 正式上线,其 FrontierCode 被认定为下一代编程基准。在 FC Diamond 测试中,Opus 4.8 和 GPT 5.5 在随努力扩展方面表现不佳。Mythos/Fable 的后训练方法首次将测试时计算应用于解决超长任务,相当于数十小时人类工作、每任务数百美元。该功能现已在 Cognition 和 Devin 中可用,仅需 1.4x ACUs。AI产品编程基准MythosFrontierCodeOpus 4.8GPT 5.5Devin8 个信源在谈推荐理由:Mythos 的 FrontierCode 基准揭示了当前顶级模型在长任务上的扩展瓶颈,做 AI 编程评估或开发长流程自动化的团队值得关注,可以直接在 Devin 中体验。原文
22:20berryxia@berryxia一条推文对比了 Fable 5、Opus 4.8、Gemini 3.1 Pro 和 GPT 5.5 四款模型,指出只有 Google 还在使用去年的模型。这反映了当前 AI 模型迭代速度的差异,Google 的 Gemini 3.1 Pro 相对落后于其他厂商的新模型。AI模型模型对比Fable 5Opus 4.8Gemini 3.1 ProGPT 5.510 个信源在谈推荐理由:关注模型迭代节奏的开发者可以快速了解各厂商最新进展,Google 用户会意识到其模型可能落后了。原文
08:33lmarena.ai@lmarena_ai精选76°Anthropic 的 Claude Opus 4.8 在 Agent Arena 排行榜上首次亮相,在 Thinking 模式下与 GPT 5.5 (High) 并列第一,但在 Non-Thinking 模式下仅排第八。相比前代 Opus 4.7,Opus 4.8 在开启思考时任务完成率更高,但可操控性略差,从 bash 错误中恢复更慢,且工具幻觉率上升。Agent Arena 基于 30 万+任务、200 万+工具调用和 4000 万行代码,通过因果追踪方法评估模型在真实世界智能体任务中的表现。该排行榜衡量任务成功、可操控性、错误恢复、用户反馈和工具幻觉五个信号。AI模型智能体模型评测Claude Opus 4.8GPT 5.5Agent Arena10 个信源在谈推荐理由:Agent Arena 用真实任务和因果推断评估智能体,比传统基准更贴近实际使用场景。做智能体开发或选型的团队,值得关注这个排行榜来对比模型的实际表现。原文
02:45Amjad Masad@amasad78°尽管 GPT 5.5 在 SWE 基准测试中表现最佳,但 Opus 4.8 在端到端应用创建任务上仍保持价格与性能的双重优势。为此,团队推出了 ViBench——首个基于真实世界任务的应用创建基准测试。该基准旨在更准确地评估模型在实际开发场景中的表现,而非仅关注代码修复或补全。结果显示,Opus 4.8 在 Vibe Coding 场景下依然是最优选择。AI模型GPT 5.5Opus 4.8ViBenchVibe Coding基准测试2 个信源在谈推荐理由:ViBench 填补了现有基准只测代码修复、不测完整应用创建的空白,做全栈原型或快速验证想法的开发者值得关注——Opus 4.8 可能才是你的性价比之选。原文
14:15AI Will@FinanceYF5Greg Isenberg 在播客中未讨论 Claude Opus 4.8,认为截至 5 月 29 日该模型相比 GPT 5.5 没有实质性提升。这一观点暗示当前 AI 模型迭代正进入类似 iPhone 时代的渐进式改进阶段,而非颠覆性突破。对于关注模型能力对比的开发者与用户,这提示需更理性看待新版本发布。行业模型发布Claude Opus 4.8GPT 5.5AI 行业趋势Greg Isenberg2 个信源在谈推荐理由:Greg Isenberg 的观察点破了模型发布泡沫,做模型选型或关注 AI 进展的团队值得一看,避免被营销节奏带偏。原文
14:15AI Will@FinanceYF5Greg Isenberg 认为 Claude Opus 4.8 相比 GPT 5.5 没有显著提升,模型发布已进入类似 iPhone 的微调迭代阶段。他指出,基准测试与用户感受脱节,真正的价值在于模型周边的工具创新,如 Claude Code 的动态工作流和 Codex 的桌面应用。他预测 6 个月内用户将不再关心具体模型,就像不关心 Uber 的引擎一样。行业Claude Opus 4.8GPT 5.5模型迭代工具链创新Claude Code2 个信源在谈推荐理由:模型同质化趋势下,真正改变开发效率的是工具链创新——做 AI 应用或自动化流程的团队,建议关注 Claude Code 动态工作流和 Codex 桌面应用,而非纠结模型版本号。原文
11:29Marc Andreessen@pmarcaMarc Andreessen转发Greg Isenberg观点,认为AI模型发布正变得像iPhone迭代一样,每次升级差异微小,用户难以感知实质性提升。以Claude Opus 4.8为例,它相比GPT 5.5并无明显优势,基准测试与用户感受脱节。真正改变游戏规则的是模型周边的工具创新,如Claude Code的动态工作流和Codex的桌面应用。预计6个月内,用户将不再关心底层模型,就像不关心Uber的引擎一样。行业模型迭代Claude Opus 4.8GPT 5.5工具生态行业趋势10 个信源在谈推荐理由:模型同质化趋势已现,做AI应用开发的团队应关注工具生态而非模型本身——Claude Code和Codex的进展更值得投入时间。原文
13:21Greg Brockman@gdb安全研究员 Philo Groves 使用 GPT 5.5 发现了一个真正新颖的漏洞,并提交了一份最疯狂的漏洞报告。该报告在不到 10 分钟内通过了初步审查,且未被标记为重复。Groves 表示迫不及待想公开这一发现。这展示了 AI 在防御性安全领域的潜力,能够发现人类可能忽略的漏洞。AI产品GPT 5.5漏洞挖掘防御安全AI 安全安全研究推荐理由:安全研究员用 GPT 5.5 挖到全新漏洞,报告 10 分钟过审,做漏洞挖掘和 AI 安全应用的团队值得关注。原文