全部 AI 动态 · AI 热点

6月5日

09:02

rohanpaul_ai@rohanpaul_ai

精选

在本地运行LLM的桌面应用atomic[.]chat上，Nemotron 3 Ultra与GPT-5.5进行了对比测试。在构建带真实物理效果的HTML5 Canvas任务中，Nemotron 3 Ultra以11.3k tokens、0.051美元的成本，给出了与GPT-5.5（11.0k tokens、0.57美元）几乎相同的结果，成本仅为后者的十分之一。Nemotron 3 Ultra是一个混合专家模型，拥有5500亿总参数，但每个token仅激活55亿参数，因此效率极高。这一对比展示了Nemotron 3 Ultra在性价比上的显著优势，尤其适合需要高推理质量但预算有限的场景。

AI模型 Nemotron 3 Ultra GPT-5.5 混合专家模型成本对比本地推理

推荐理由：做AI应用或本地推理的开发者，这个测试直接告诉你Nemotron 3 Ultra能以十分之一成本达到GPT-5.5级别的效果，值得在项目里试试。

原文

06:16

lmarena.ai@lmarena_ai

88°

Arena 平台今日正式推出 Agent Mode，允许用户测试前沿模型在真实任务中的表现，包括深度研究、生成报告、创建网站、调试代码等。该模式通过工具调用（如网页搜索、沙箱 bash、图像生成、文件写入）完成复杂任务。首批支持的模型包括 GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro 及顶级开源模型。同时，Battle Mode 投票数已突破 5000 万。

AI产品 Arena Agent Mode 模型评测 GPT-5.5 Claude Opus 4.7

推荐理由：Arena 的 Agent Mode 让开发者可以直接对比前沿模型在真实任务中的表现，做 AI 评测或选型的团队值得一试。

原文

02:16

宝玉@dotey

博主建议用户根据自身条件选择2-3个最聪明的AI模型使用，而非追求数量。他认为单一模型不够稳定和全面，例如GPT-5.5不如Opus 4.8稳定，写作时甚至需要退回Opus 4.6。翻译任务他偏好Gemini 3.1 Pro，画图则选GPT Image 2。即使Opus 4.8表现不错，复杂任务也会让GPT-5.5同时出方案对比。他强调Token贵的省时间，时间比Token更宝贵。

技巧模型选择 GPT-5.5 Opus 4.8 Gemini 3.1 Pro GPT Image 2

推荐理由：这条建议直击AI用户选模型的痛点——不是越多越好，而是选对2-3个最聪明的。经常用AI做复杂任务的开发者或创作者，看完会重新思考自己的模型组合，省下时间比省Token更划算。

原文

01:48

lmarena.ai@lmarena_ai

88°

Arena 平台推出 Agent Mode，允许用户测试 AI 智能体在真实任务中的表现，包括深度研究、生成报告、构建网站、调试代码等。该模式通过集成网页搜索、沙箱环境 bash、图像生成、文件写入和追问等工具，评估前沿模型如 GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro 和顶级开源模型的智能体能力。这标志着 AI 评测从对话转向复杂任务执行，为开发者提供了直观的模型选择依据。用户可直接在 Arena 中体验并对比不同模型的智能体性能。

AI产品智能体评测平台 GPT-5.5 Claude Opus 4.7 Gemini 3.1 Pro

推荐理由：Arena 的 Agent Mode 解决了 AI 评测脱离实际任务的问题，做智能体应用或选型的开发者可以直接上手对比 GPT-5.5 和 Claude Opus 4.7 的真实表现，值得一试。

原文

01:19

lmarena.ai@lmarena_ai

88°

Agent Arena 是一个全新的智能体评测平台，通过数百万次真实用户会话，衡量模型在完成实际任务（如编写代码、创建幻灯片、网页研究、构建应用、分析文档）时的表现。评测基于五个信号：任务成功率、可操控性、错误恢复、用户表扬/抱怨比、工具幻觉。排行榜基于 30 万+任务、200 万+工具调用和 4000 万行代码构建，当前排名第一为 OpenAI GPT-5.5，其次为 Anthropic Claude Opus 4.7、智谱 GLM-5.1、Google Gemini 3.1 Pro 和 Kimi K2.6。该平台旨在解决智能体在真实场景中难以评估的问题，为开发者提供更贴近实际使用的性能参考。

AI产品智能体评测/基准 GPT-5.5 Claude Opus 4.7 GLM-5.1

推荐理由：智能体评测终于从玩具任务走向真实场景——做 AI 应用或智能体开发的团队，可以直接用 Arena 的评测结果来选模型，比跑基准测试更有参考价值。

原文

6月4日

14:42

宝玉@dotey

开发者 @dotey 在 X 上反馈，Codex GPT-5.5 在开发 Mac 应用时表现不如 Claude Opus 4.8，认为 Opus 更擅长此类任务。另有用户 @jesselaunz 称 Codex 突然降智，原本计划跑 2 天的目标 20 分钟就交付，但评分仅 5/10。这些反馈表明不同模型在特定开发场景下存在显著差异，开发者需根据任务类型选择合适的模型。

AI产品 Codex GPT-5.5 Claude Opus 4.8 Mac 开发模型对比

推荐理由：做 Mac 应用开发的团队注意了——实测表明 Codex GPT-5.5 在特定场景下可能不如 Claude Opus 4.8，选模型前建议先看任务类型，避免踩坑。

原文

6月2日

10:40

宝玉@dotey

博主提出不要指望单一模型在所有场景最强，应像渣男一样组合使用多个模型。Opus 4.8在写作上不如GPT-5.5，但在UI设计、系统设计和计划方面表现更优。建议先用Claude Design设计UI，再分别交给GPT-5.5和Opus 4.8实现对比。每个模型有独特特性，需针对性调优提示词。

AI产品 Opus 4.8 GPT-5.5 Claude Design 模型组合 UI设计

推荐理由：这条建议解决了AI模型选择焦虑——不用纠结哪个最好，组合用才是王道。做UI设计、系统架构的开发者可以立刻试试Claude Design+GPT-5.5/Opus 4.8的搭配，效果立竿见影。

原文

10:12

Greg Brockman@gdb

88°

OpenAI 的 GPT-5.5、GPT-5.4 以及 Codex 编程智能体现已通过 Amazon Bedrock 正式可用。用户可以通过 Bedrock 的下一代推理引擎自动扩展部署这些前沿模型，构建处理多步编码、数据分析和知识工作的自主智能体。Codex 作为 OpenAI 的编程助手，可直接集成到开发工作流中，所有模型调用通过 Bedrock 路由，按 token 付费并自动扩缩容。这标志着 OpenAI 模型在 AWS 云上的深度集成，为企业客户提供了更灵活、安全的 AI 部署选项。

AI产品 OpenAI Amazon Bedrock GPT-5.5 Codex 智能体

推荐理由：AWS 用户终于能在 Bedrock 上直接调用 GPT-5.5/5.4 和 Codex，做多步编码和数据分析的团队可以省去自建推理基础设施的麻烦，按量付费自动扩缩，值得试试。

原文

5月31日

09:59

elvis@omarsar0

Claude Opus 4.8 在 DeepSWE Bench 上取得 58% Pass@1 的成绩，排名第二，仅次于 GPT-5.5。该模型在原始分数上略逊一筹，但在多个最新基准测试中展现出最高的可靠性和效率。这一结果延续了近期趋势：模型在追求极致性能的同时，更注重实际应用中的稳定性和资源效率。对于关注 AI 编程和模型选型的开发者来说，这是一个值得关注的信号。

AI模型 Claude Opus 4.8 GPT-5.5 DeepSWE Bench 编程模型效率

推荐理由：Claude Opus 4.8 在 DeepSWE Bench 上以 58% Pass@1 证明了自己是效率与可靠性的标杆，做 AI 编程选型的团队可以把它作为性价比参考。

原文

5月30日

16:10

shao__meng@shao__meng

Claude Opus 4.8 发布后，用户反馈普遍认为相比 Opus 4.7 升级不大，甚至变笨，部分用户更倾向于 GPT-5.5。有用户尝试测试新模型时，发现自己的账号被莫名封禁，即使仅注册后发过一次消息。该事件引发对 Anthropic 模型更新策略和账号管理问题的讨论。

AI产品 Claude Opus 4.8 模型更新账号封禁 GPT-5.5 用户反馈

推荐理由：Claude 重度用户和开发者需要注意：Opus 4.8 口碑不佳，且账号封禁问题频发，建议谨慎更新和备份数据。

原文

5月29日

17:41

rohanpaul_ai@rohanpaul_ai

精选72°

微软提出 SkillOpt 方法，将智能体技能文档视为可训练的外部程序，而非手工编写或一次性生成。该方法通过一个更强的优化器模型，在智能体执行任务后分析成功与失败案例，对技能文档进行小幅度编辑，并仅在通过验证集测试时采纳修改。在 6 个基准、7 个目标模型和 3 种智能体设置（包括直接对话、Codex 和 Claude Code）的测试中，SkillOpt 在全部 52 个案例中表现最佳或持平，在 GPT-5.5 上直接对话准确率平均提升 23.5 个百分点。最终产出是一个可读、可移植、低成本复用的技能文件，无需重新训练模型即可提升智能体跨任务表现。

论文智能体技能优化微软 GPT-5.5 Claude Code

推荐理由：做智能体开发的团队终于有了靠谱的技能优化方案——SkillOpt 解决了手工调技能越调越差的痛点，而且最终产物是一个可读文件，部署零成本。做 prompt 工程或 Agent 框架的开发者值得细读。

原文

10:59

岚叔@lufzzliz

72°

Anthropic 发布了 Claude Opus 4.8 模型，在多项基准测试中超越竞争对手，仅 Agentic terminal coding 略逊于 GPT-5.5。Anthropic 估值达到 9650 亿美元，首次超过 OpenAI。第三方测评显示约束通过率 100%，但模拟能力提升不大，洗车问题仍表现不佳。ZenMux 平台已第一时间上架该模型，支持快速尝鲜。

AI模型 Claude Opus 4.8 Anthropic GPT-5.5 模型评测 ZenMux

推荐理由：Claude Opus 4.8 在跑分上全面压制 GPT-5.5，做 AI 应用开发和模型评测的团队值得第一时间上手体验，ZenMux 已支持快速接入。

原文

5月28日

12:23

Viking@vikingmute

DeepSWE 是一个全新的 coding benchmark，所有任务均为原创、从零编写，避免了模型预训练数据记忆污染。任务涵盖多种编程语言，复杂度接近真实世界，参考解决方案平均需修改 668 行代码。排行榜显示 GPT-5.5 xhigh 通过率最高，GPT-5.4 xhigh 第二，其他模型通过率较低。小米的模型表现意外不错，值得关注。

AI模型 coding benchmark DeepSWE GPT-5.5 小米模型评估

推荐理由：这个基准测试解决了现有 coding benchmark 数据污染问题，做 AI 编程模型评估的团队可以直接参考排行榜，小米模型的表现值得一试。

原文

07:47

Greg Brockman@gdb

76°

安全研究员 Philo Groves 发现 GPT-5.5 在网络安全任务中表现出色，成功定位了一个 1999 年 4 月引入的远程代码执行（RCE）漏洞，该漏洞已存在 27 年。经过多次验证，确认该发现真实有效。这一事件表明 GPT-5.5 在代码审计和漏洞挖掘方面的能力远超预期，可能改变安全行业的工作方式。目前该漏洞正在准备负责任地披露。

AI模型 GPT-5.5 网络安全漏洞挖掘 RCE 代码审计

推荐理由：GPT-5.5 挖出 27 年历史漏洞，安全从业者可以重新评估 AI 在代码审计中的价值，建议关注后续披露细节。

原文

05:21

rohanpaul_ai@rohanpaul_ai

72°

Datacurve 推出 DeepSWE，一个更严格的编程基准测试，旨在揭示领先模型之间的真实差距。GPT-5.5 得分 70%，而 GPT-5.4 为 56%，Claude Opus 4.7 为 54%，差距在旧基准中常被掩盖。DeepSWE 使用原创任务而非公开 GitHub 问题，避免模型训练时见过答案。其提示词长度仅为 SWE-bench Pro 的一半，但解决方案需要 5.5 倍代码量和约 2 倍输出 token。评分方式也不同，DeepSWE 检查请求行为是否真正实现，而非仅依赖合并 PR 的测试。

AI模型基准测试编程能力 GPT-5.5 Claude Opus 软件工程

推荐理由：做 AI 模型评估或选型的团队，DeepSWE 能帮你看到模型在长周期软件工程任务上的真实差距，建议关注这个新基准。

原文

5月27日

11:37

@OpenAIDevs@OpenAIDevs

OpenAI 在 Codex 中集成了 GPT-5.5 模型，帮助 Databricks 更可靠地解析复杂客户文档。这一改进提升了文档处理的准确性和效率，尤其适用于需要高精度提取信息的场景。该更新展示了 GPT-5.5 在专业应用中的实际价值，为数据团队提供了更强大的工具。

AI产品 GPT-5.5 Codex Databricks 文档解析 AI产品

推荐理由：对于处理复杂文档的数据工程师和 AI 开发者，GPT-5.5 在 Codex 中的集成直接提升了解析可靠性，值得在 Databricks 工作流中尝试。

原文

11:02

Greg Brockman@gdb

开发者 Theo 在 X 上分享了他对 GPT-5.5 的深度使用体验，称经过两个月的适应后，GPT-5.5 已成为他无法替代的编码模型。他指出，要发挥 GPT-5.5 的全部能力，需要完全不同的提示方式，并花时间配置 agents.md 文件。一旦跨过学习曲线，其他模型在代码任务上都无法与之相比。这反映了 GPT-5.5 在编程领域的独特优势，也提示开发者需要调整使用习惯。

AI模型 GPT-5.5 编码模型开发者体验提示工程 AI编程

推荐理由：做 AI 编程的开发者如果还在用旧模型，值得花时间适应 GPT-5.5 的独特提示方式——跨过门槛后，其他模型可能就回不去了。

原文

5月24日

10:38

Gary Marcus@GaryMarcus

精选

Gary Marcus 引用 scaling01 观点，认为 Mythos 在多项基准测试中优于 GPT-5.5，包括 SWE-bench Pro（77.8% vs 58.6%）、HLE（56.8% vs 41.4%）和网络安全测试。Mythos 在漏洞利用方面表现更强，能更高效地发现安全漏洞，但这也带来严重安全隐患。Marcus 警告，若 Mythos 完全发布，将对未充分防御的现实系统造成巨大混乱。目前最大的未知是 Mythos 在开放真实世界问题中的表现。

AI模型 Mythos GPT-5.5 基准测试安全威胁 AI模型

推荐理由：Mythos 在编程和网络安全基准上碾压 GPT-5.5，做 AI 安全或模型评估的团队需要关注其潜在威胁，建议提前加固防御。

原文

5月23日

16:21

@atomic_chat_hq@atomic_chat_hq

在游戏开发竞赛中，Deepseek V4 Pro 与 GPT-5.5 被要求制作卡丁车游戏。GPT-5.5 以 0.33 美元成本、25 tok/s 速度生成 10,580 tokens，耗时 7 分钟，最终游戏质量、视觉效果和创意方向明显更优。Deepseek V4 Pro 成本仅 0.07656 美元，便宜 4.3 倍，生成 18,869 tokens（近 2 倍），但游戏在图形、视觉打磨和创意执行上较弱。结论是尽管 Deepseek 定位为强编码模型，在游戏开发测试中仍远落后于 GPT-5.5。

AI模型 Deepseek V4 Pro GPT-5.5 游戏开发模型对比成本效率

推荐理由：想用 AI 做游戏开发的团队，这个对比直接告诉你：省钱不一定省心——Deepseek 便宜但质量差一截，GPT-5.5 贵但成品更靠谱，建议根据预算和品质要求选模型。

原文

14:42

Greg Brockman@gdb

DHH 在 X 上发帖称 GPT-5.5 在复杂智能体任务上表现惊人，相比 GPT-5.2 有显著进步，甚至让 Opus 4.7 显得像倒退。他认为这是 OpenAI 的强力回归，体现了模型竞争的激烈程度。该评价来自知名开发者，对关注 AI 模型迭代和智能体能力的读者有参考价值。

AI模型 GPT-5.5 智能体模型评测 OpenAI DHH

推荐理由：DHH 作为 Ruby on Rails 创始人，他的实战评测对做复杂智能体开发的团队很有参考价值——GPT-5.5 的进步值得亲自试一下。

原文

5月22日

22:38

Paul Couvert@itsPaulAi

精选76°

Qwen-3.7-max 在真实智能体任务（编写自训练俄罗斯方块机器人）中，以 1.32 美元成本实现 56% 的改进，远超 Claude Opus 4.7（12.15 美元，28% 改进）和 GPT-5.5（2.85 美元，7% 改进）。该模型在长智能体循环中表现突出，成本仅为 Opus 4.7 的 1/9、GPT-5.5 的 1/2。这一结果出乎意料，展示了开源模型在复杂自主任务上的潜力。

AI模型 Qwen-3.7-max 智能体成本对比开源模型 GPT-5.5

推荐理由：做智能体开发或自动化任务的团队，可以拿 Qwen-3.7-max 替代高价闭源模型，成本直降 9 倍效果反而更好，值得立刻跑个 benchmark 验证。

原文

22:26

阿里通义 Qwen@Alibaba_Qwen

83°

atomic.chat 团队测试了三个前沿模型在真实智能体任务中的表现：编写一个能自我训练并玩俄罗斯方块的机器人。每个模型可以读取自己的代码、运行基准测试并在10次迭代中自我重写。最终 Qwen 3.7-Max 以训练成本仅1.32美元、机器人性能提升56%的成绩全面领先，而 Claude Opus 4.7 成本12.15美元提升28%，GPT-5.5 成本2.85美元提升仅7%。Qwen 在成本效益和性能提升上均胜出，尤其在长智能体循环场景中表现出色。

AI模型 Qwen 3.7-Max 智能体 Claude Opus 4.7 GPT-5.5 成本对比

推荐理由：Qwen 3.7-Max 在智能体任务中成本仅为 Claude 的1/9、GPT 的1/2，性能提升却翻倍，做 AI 智能体开发的团队值得关注这个性价比之选。

原文

22:16

Gary Marcus@GaryMarcus

GaryMarcus 在 X 上转发了一条消息，称标准 GPT-5.5 已经成功复现了某个数学证明，并质疑这是否意味着所谓的“阶跃变化”只是问题本身更简单。该推文引用了 ChatGPT 的分享链接，显示模型在推理任务上的表现。这一讨论反映了 AI 社区对模型能力提升本质的持续争论：是模型真的变强了，还是任务难度被高估了。

AI模型 GPT-5.5 推理模型阶跃变化 AI 能力评估数学证明

推荐理由：AI 研究者和大模型用户值得关注——GPT-5.5 的推理表现引发了对“阶跃变化”定义的反思，看完会重新审视模型能力的评估标准。

原文

22:14

Gary Marcus@GaryMarcus

Gary Marcus 在 X 上承认自己之前对 OpenAI 新模型 Erdos 的成本估算有误。他根据新信息表示，OpenAI 在 Erdos 上的花费可能被低估，但 GPT-5.5 也能实现类似功能。Marcus 还指出，开发模型的成本以及许多未成功的问题可能被忽略。这一讨论反映了 AI 模型成本估算的复杂性，以及不同模型间性能对比的难度。

行业 OpenAI GPT-5.5 Erdos 成本估算模型对比

推荐理由：Marcus 的公开认错揭示了 AI 模型成本估算的陷阱，做 AI 投资或技术评估的团队值得关注，避免被表面数据误导。

原文

22:11

Gary Marcus@GaryMarcus

AI 研究者 Gary Marcus 在 X 上公开承认此前对 OpenAI 新模型 Erdos 的批评有误。他根据新信息表示，即使 OpenAI 在 Erdos 上使用了新模型，但 GPT-5.5 也能实现类似效果，Ethan Mollick 的估算基本适用。这一反转表明，当前 GPT 系列的能力可能被低估，且新模型与现有模型的差距可能没有想象中大。对于关注 AI 模型进展和评估的研究者与开发者，这是一个值得注意的修正。

AI模型 GPT-5.5 Erdos Gary Marcus 模型评估 AI 研究

推荐理由：Gary Marcus 公开认错，说明 AI 模型评估比想象中复杂——做模型对比的团队值得关注这个反转，避免自己踩坑。

原文

5月16日

23:28

Viking@vikingmute

有用户反映 GPT-5.5 近期表现变差，甚至出现删除无关代码等严重问题。OpenAI 的 Codex 团队已公开回应，确认收到相关报告并正在调查，但尚未得出明确结论，系统状态正常。这一事件引发社区对模型稳定性与透明度的讨论，部分用户猜测可能很快会有 usage reset 或修复更新。

AI产品 GPT-5.5 降智 OpenAI 代码生成模型稳定性

推荐理由：GPT-5.5 降智直接影响日常使用体验，尤其是依赖它写代码的开发者，建议关注后续修复进展，避免在关键任务中踩坑。

原文

12:53

Sam Altman@sama

73°

OpenAI CEO Sam Altman在X上回应了用户关于GPT-5.5性能下降的投诉。他表示团队认真对待每一份报告，即使有时结果只是用户习惯了现有水平而期望更多。Altman确认Codex团队已注意到部分用户反馈的GPT-5.5表现不佳问题，正在调查中，目前尚无定论，系统运行正常，后续会分享更新。

AI产品 GPT-5.5 性能下降 OpenAI 用户反馈调查

推荐理由：GPT-5.5用户如果感觉模型变笨了，这不是错觉——官方正在调查，建议关注后续更新，了解性能波动原因。

原文

12:47

歸藏(guizang.ai)@op7418

Tibo 在 X 上表示，过去约 48 小时内 GPT-5.5 在 Codex 中的能力下降问题已被定位并修复了两个相关漏洞。团队正在持续监控以完全确认修复效果，并承诺今晚重置使用限制。用户现在可以重新高效使用 Codex，尤其是 /fast 模式。

AI产品 Codex GPT-5.5 修复使用限制 AI编程

推荐理由：Codex 用户过去两天可能遇到性能下降，现在问题已修复且使用限制将重置，做 AI 编程的开发者可以直接恢复高强度使用。

原文

09:03

thsottiaux@thsottiaux

73°

OpenAI 发现并修复了导致 GPT-5.5 在 Codex 上性能下降的两个问题，该问题持续约 48 小时。团队正在监控以完全确认修复效果，并将在今晚重置使用限制。此事件影响了使用 Codex 进行编程的开发者，修复后建议用户尝试 /fast 模式以充分利用性能。

AI产品 GPT-5.5 Codex 性能修复编程助手 OpenAI

推荐理由：使用 Codex 编程的开发者终于可以放心了——GPT-5.5 性能下降的原因已找到并修复，今晚重置限制后建议直接试试 /fast 模式。

原文

01:39

thsottiaux@thsottiaux

78°

Codex团队在X平台回应称，已注意到部分用户反馈GPT-5.5性能下降的问题，并正在调查中。目前尚未得出明确结论，系统整体运行正常。团队承诺会持续分享调查进展。这一事件引发了对OpenAI最新模型稳定性的关注。

AI模型 GPT-5.5 性能问题 Codex团队 OpenAI 模型稳定性

推荐理由：GPT-5.5性能波动直接影响依赖该模型的开发者和企业用户，建议关注调查结果以评估是否影响自身工作流。

原文

5月14日

07:26

Ethan Mollick@emollick

75°

行业网络安全 Mythos GPT-5.5 能力翻倍 AI安全研究所

推荐理由：安全团队和AI开发者需要警惕：AI网络攻击能力正以每4.5个月翻倍的速度进化，Mythos/GPT-5.5的能力上限几乎不可预测——建议立即评估自身防御体系能否跟上这个节奏。

原文