13:49Ethan Mollick@emollickGLM-5.2是一款开源模型,其性能不及GPT-5.5和Opus 4.8,更远不及Mythos。但它表现扎实,表明开源模型持续追赶前沿。当前开源权重已触及GPT-5.2水平,在该能力区间表现显著。这一进展说明开源模型正在缩小与闭源前沿的差距。AI模型GLM-5.2GPT-5.5Opus 4.8Mythos开源模型推荐理由:GLM-5.2虽然没追上GPT-5.5,但开源模型又往前迈了一大步,能力提升明显,值得关注。原文
13:48岚叔@lufzzliz在世界杯小组赛预测中,GLM-5.2在比分榜综合最强,GPT-5.5在胜负榜综合最强且命中率达70%。淘汰赛阶段取消24小时限制,可一次性预测16场比赛。作者分享了提示词示例:"继续预测,可以提交淘汰赛16场的比赛,你需要仔细分析给出你的答案、并提交"。同时附带了opus-4.8和deepseekv4-pro的预测结果。技巧GLM-5.2GPT-5.5提示词工程智能体世界杯推荐理由:作者用GLM-5.2和GPT-5.5预测世界杯,GPT-5.5命中率70%,还给了淘汰赛提示词,试试用自己的agent玩。原文
13:28lmarena.ai@lmarena_ai精选Agent Arena通过代码编写、幻灯片制作等真实任务评估模型性能。Opus 4.8 Thinking每会话消耗较少token,质量提升+9.2%;Fable达到+14.1%的最高质量。GPT-5.5系列模型(+6.2%至+8.6%)以更少token超越前沿。Gemini-3.5 Flash消耗token最多但效果不佳,Grok Build 0.1消耗20K+ token却出现负提升。AI模型Agent ArenaOpusFableGPT-5.5推理模型推荐理由:想找token性价比高的模型?Agent Arena告诉你Opus和Fable有多能打,GPT-5.5也很省token。原文
11:56Sam Altman@sama73°OpenAI CEO Sam Altman宣布推出新模型Sol,定价与GPT-5.5相同。同时发布的Terra(属于GPT-5.6系列)提供GPT-5.5级别的性能但价格仅一半。应美国政府要求,Sol和Terra今日仅限预览而非公开开放。Altman表示正在与政府合作尽快实现全面可用,并强调这种渐进部署方式符合长期策略,但并非最优。AI模型SolTerraGPT-5.5OpenAIAI安全10 个信源在谈推荐理由:Sam Altman发了Sol和Terra,一个和GPT-5.5同价,一个半价性能差不多,但被美国政府卡住只能预览,挺有意思的。原文
02:18Fireworks AI@FireworksAI_HQFireworks与Faros_AI联合对211个真实软件工程任务进行了评估。Claude Code搭配GLM-5.2的Judge得分0.568,每任务耗时321秒,成本0.92美元。对比组Claude Code + Opus 4.8得分为0.521、耗时775秒、成本1.76美元;Codex + GPT-5.5得分为0.466、耗时392秒、成本2.06美元。评测基于Faros自有代码库而非公开基准,更贴近实际开发场景。AI模型GLM-5.2Claude CodeOpus 4.8GPT-5.5编程助手推荐理由:Fireworks和Faros拿真实工程任务实测GLM-5.2,结果比Opus 4.8和GPT-5.5都更便宜更快,得分还高。想为代码任务选模型可以看看这个。原文
08:26Jerry Liu@jerryjliu0精选Jerry Liu 发布了 Mistral OCR 在 ParseBench 上的更新结果。该模型的总体得分超过了 GPT-5.5,仅略低于 Gemini 3.1 Pro。在内容忠实度、语义格式和视觉定位方面表现优秀,在表格处理上表现一般,图表能力有限。这些结果展示了该价格区间内模型的竞争力。AI模型Mistral OCRGPT-5.5Gemini 3.1 ProParseBenchOCR推荐理由:Mistral OCR 在 ParseBench 上打败了 GPT-5.5,离 Gemini 3.1 Pro 也不远,价格还便宜,做文档解析很值。原文
02:12OpenAI@OpenAI73°OpenAI发布新版GPT-5.5 Instant,提升了理解问题意图和自适应回答的能力。新模型能更可靠地处理复杂约束,并让购物与本地推荐更实用连贯。该版本今天向付费用户推送,明天向免费用户开放。AI模型GPT-5.5OpenAI推理模型对话体验10 个信源在谈推荐理由:聊天更懂你,推荐更靠谱,免费用户明天就能用上,赶紧试试。原文
05:58@OpenAIDevs@OpenAIDevs精选76°OpenAI 在 X 上总结了过去6个月为API推出的30多项更新。新模型包括 GPT-5.5、GPT-5.4 mini、GPT-5.4 nano、GPT-Realtime-2、GPT-Realtime-Whisper、GPT-Realtime-Translate 和 GPT-Image-2。Agent 构建模块新增 Agents SDK harness & sandbox、Skills in the Responses API、Server-side compaction、WebSocket mode 和 Hosted shell。此外还推出了 Admin API 增强、OpenAI CLI 以及 Models on Amazon Bedrock 等新功能。AI产品OpenAIGPT-5.5GPT-5.4 miniAPI智能体10 个信源在谈推荐理由:搞API开发的朋友,OpenAI 这半年偷偷发了这么多新模型和Agent工具,GPT-5.5和实时翻译很实用,赶紧看看你漏了哪个。原文
01:19OpenAI@OpenAIOpenAI 宣布启动 Daybreak Cyber Partner Program,与领先的安全软件和服务提供商合作。合作伙伴可在其安全产品和服务中使用 GPT-5.5 with Trusted Access for Cyber。客户能受益于该模型的防御能力,提升软件韧性,但直接模型访问权由合作伙伴控制。该计划旨在通过渠道模式推广 AI 安全能力。行业OpenAIGPT-5.5DaybreakAI安全安全软件10 个信源在谈推荐理由:OpenAI 联合安全厂商,让 GPT-5.5 直接嵌入安全产品,客户不用管理模型,就能享受更强的网络防御。原文
22:24Viking@vikingmute用户反馈OpenAI Codex中GPT-5.5模型token消耗速度突然增加10-20倍。Plus用户原本5小时额度仅用2-3个prompt就耗尽,Pro账户也比原来快很多。该问题在X平台引发大量点赞和讨论,目前尚未有官方回应。AI产品CodexGPT-5.5OpenAI编程助手token消耗10 个信源在谈推荐理由:Codex的GPT-5.5最近token消耗飞快,Plus额度几下就用完,Pro用户也受影响,快看看你的账户。原文
18:39Together AI@togethercomputeTogether Compute 测试了闭源和开源模型构建小型可玩游戏的能力。结果显示,开源模型成本更低、速度更快,生成游戏质量接近闭源模型。例如,Opus 4.8 成本是 MiniMax M3 的 15 倍,GPT-5.5 是 Nemotron Ultra 的 10 倍,而 Kimi K2.7 Code 比 Opus 4.8 便宜 7 倍。AI模型Opus 4.8MiniMax M3GPT-5.5开源模型游戏生成5 个信源在谈推荐理由:Together Compute 实测:闭源模型贵几倍,开源做小游戏又快又便宜,质量还接近,想省钱就选开源。原文
03:03Greg Brockman@gdb76°OpenAI 发布 GPT-5.5 Instant,其健康相关问题的回答水平已与前沿思考模型持平。该模型联合 60 个国家、49 种语言、26 个专科的数百名医生共同开发。每周有超过 2.3 亿用户向 ChatGPT 咨询健康问题。GPT-5.5 Instant 在识别紧急情况、询问上下文、解释不确定性及简化复杂信息方面表现更优。该模型已面向所有免费用户开放。AI模型GPT-5.5OpenAIChatGPT健康问答医疗AI10 个信源在谈推荐理由:OpenAI 出了 GPT-5.5 Instant,免费版就能用,健康问答能力大幅提升,和医生合作训练的,靠谱。原文
13:05@atomic_chat_hq@atomic_chat_hq精选Kimi K2.7 Code在三个物理模拟任务上与GPT-5.5进行对比,使用相同的提示词。弹簧摆和1kg块碰撞100000kg块的任务两者表现持平。但在22球自旋六边形任务中,Kimi生成的球随滚筒旋转,而GPT-5.5的球呈现混沌运动,Kimi表现更优。Kimi推理成本为0.28美元(52.4k tokens),GPT-5.5为0.93美元(23.4k tokens),成本降低约70%。AI模型KimiK2.7 CodeGPT-5.5推理模型编程助手推荐理由:Kimi新出的K2.7 Code模型,花不到三毛钱就能和GPT-5.5打平手,物理模拟甚至更聪明,性价比直接秒杀。原文
05:25OpenAI@OpenAIOpenAI推出LifeSciBench新基准,用于评估AI模型在生物科学中的实际推理能力。该基准包含七个工作流,测试模型从证据推理、处理科学制品、应对不确定性等技能。GPT-Rosalind在所有七个工作流上得分均超过GPT-5.5。结果显示在制品密集、设计密集和操作受限任务上仍有改进空间。AI模型LifeSciBenchGPT-RosalindGPT-5.5OpenAI推理模型10 个信源在谈推荐理由:OpenAI搞了个新基准LifeSciBench,专门测生物科学推理,GPT-Rosalind比GPT-5.5还强,值得看看。原文
04:01elvis@omarsar0GLM 5.2 在 FrontierSWE 基准上排名第 3,得分仅次于 Fable 5 和 Opus 4.8,并超越 GPT-5.5。这是首个缩小 Anthropic/OpenAI 与其他提供商之间差距的模型,同时也是目前最强的开源权重模型。该成绩展示了开源模型在编码任务上的竞争力。AI模型GLM 5.2FrontierSWEGPT-5.5开源模型编码基准10 个信源在谈推荐理由:GLM 5.2 在编码基准上干掉了 GPT-5.5,开源里最强,值得关注。原文
03:37The Rundown AI@therundownai73°Z AI发布了GLM-5.2,一款开源权重模型,支持1M token上下文窗口。在long-horizon coding基准上得分为74.4,超过GPT-5.5的72.6。在SWE-bench Pro上得分为62.1,同样领先GPT-5.5。AIME 2026数学测试得分为99.2,高于Opus 4.8和GPT-5.5。该模型在Designarena排名第一,并以MIT许可证发布。AI模型GLM-5.2Z AIOpus 4.8GPT-5.5开源模型6 个信源在谈推荐理由:Z AI的GLM-5.2开源,百万token上下文,数学和编程全面超过GPT-5.5,值得试玩。原文
03:36@koltregaskes@koltregaskes88°美国政府以国家安全和越狱漏洞为由,强制Anthropic关闭Fable 5和Mythos 5模型。指令仅基于口头证据,未提供具体技术细节。Anthropic声称该漏洞很窄,且GPT-5.5也能实现相同功能。同时禁止所有外国人访问,包括Anthropic的外籍员工。此事发生在Anthropic拒绝与五角大楼签订军事监控合同四个月之后。行业AnthropicFable 5Mythos 5GPT-5.5出口管制10 个信源在谈推荐理由:美国政府让Anthropic关了两个模型,理由含糊,还禁止外国人访问。有人猜是因为Anthropic之前没接五角大楼的军事合同。原文
12:08shao__meng@shao__meng精选Cua与Snorkel AI联合发布Cua-Bench基准,首个公开数据集聚焦KiCad电子设计自动化工具,包含25道专家编写的任务。测试显示最强模型GPT-5.5仅完全通过6道(24%),Claude Sonnet 4.5和Haiku 4.5各通过5道。关键发现:模型在编辑已有原理图方面表现尚可,但16道从零搭建任务全部失败。失败原因包括导航开销大(约84%)、操作粒度过细(约84%)和布线未完成(约72%),同时自我校验不可靠。AI模型Cua-BenchKiCadGPT-5.5Claude Sonnet 4.5Agent推荐理由:想看看AI Agent在专业软件上到底行不行?Cua-Bench用KiCad的25道真实任务给模型打分,最强的也只过了6道,从零建电路全挂。看完你就知道瓶颈在哪了。原文
04:51宝玉@dotey精选Anthropic 推出的 Claude Design 能根据一句话描述生成可交互原型,点哪都有反应,状态保持完整。作者拆解了 Agent 的 Harness 层和模型层,指出 Harness 层技术不复杂,但 Claude Opus 4.8 在 UI/UX 和系统架构设计上远超 GPT-5.5。Claude Design 的产出物是 React 代码和 JSON 数据结构,开发者可直接复用。作者认为 Codex 不推类似产品是因为 GPT-5.5 模型能力不足,无法一次性交付完整可交互原型。AI模型Claude DesignClaude Opus 4.8GPT-5.5Codex智能体10 个信源在谈推荐理由:拆解 Claude Design 为何比 Codex 强原文
04:21elvis@omarsar0精选Elvis 在讨论中分享了运行自主长期编码智能体的经验,指出大多数模型难以协调长期任务,容易过早暂停或出现奖励黑客行为。他建议使用 Opus 4.8 进行规划,GPT-5.5 执行任务,并用 Deepseek、Qwen、Kimi 等模型作为评估器。强调多模态目标比纯文本目标更有效,能帮助智能体保持方向。技巧Opus 4.8GPT-5.5DeepseekQwen智能体5 个信源在谈推荐理由:Opus 4.8 规划 + GPT-5.5 执行,长期智能体实战配方原文
22:57lmarena.ai@lmarena_aiGLM-5.2是Zai_org发布的最新开源模型,已加入Agent Arena评测平台。该平台通过30万+任务、200万+工具调用和4000万行代码评估模型在搜索、文件系统和终端工具上的智能体性能。当前排行榜前五名包括GPT-5.5(第一)、Claude-Opus-4.7(第二)、GLM-5.1(第三)、Gemini-3.1-Pro(第四)和Kimi-K2.6(第五)。GLM-5.2将与其他模型竞争,展示其智能体能力。AI模型GLM-5.2Zai_orgAgent ArenaGPT-5.5Claude-Opus-4.7智能体1 个信源在谈推荐理由:看看GLM-5.2在Agent Arena能排第几原文
13:09elvis@omarsar0精选Omar Sanseviero分享运行自主长时编码智能体的经验,建议用Opus 4.8做规划、GPT-5.5执行,并用Deepseek、Qwen、Kimi或MiniMax等模型作为评估器。他强调多模态目标比纯文本目标更强,能帮助智能体保持方向。清晰定义目标、消除模型假设、避免奖励黑客行为是关键。技巧Opus 4.8GPT-5.5DeepseekQwenKimiMiniMax智能体7 个信源在谈推荐理由:Opus 4.8+GPT-5.5分工跑长任务原文
13:08Epoch AI@EpochAIResearch精选72°Epoch AI 发布 FrontierMath 基准测试 v2 版本,修复了 42% 的问题错误。新版本中,GPT-5.5 (xhigh) 在 Tier 1-3 上取得 85% 的准确率,Google 的 AI co-mathematician 在 Tier 4 上达到 76%。所有模型得分普遍提高,排名基本不变。AI模型FrontierMathGPT-5.5GoogleEpoch AI推理模型推荐理由:数学基准更新,GPT-5.5和Google AI成绩亮眼原文
13:02elvis@omarsar0用户elvis在X上分享使用Opus 4.8进行规划、GPT-5.5执行任务的组合工作流。他指出将步骤分解为更小的部分能显著提升输出质量,并强调动态工作流的重要性被低估。该技巧适用于需要高质量输出的AI任务场景。技巧Opus 4.8GPT-5.5工作流提示词工程6 个信源在谈推荐理由:Opus 4.8规划+GPT-5.5执行原文
11:04elvis@omarsar0精选Anthropic 因美国政府指令暂停 Claude Fable 5 模型访问,所有新会话切换到 Opus 4.8 或用户默认模型,现有 Fable 5 会话报错。AI 研究员 Omar 评论称 Fable 5 对多数任务不划算,且被削弱,而 Opus 4.8(规划)和 GPT-5.5(执行)仍是最佳选择。行业ClaudeFable 5Opus 4.8GPT-5.5监管10 个信源在谈推荐理由:Fable 5 被停,看看大家选谁原文
09:46lmarena.ai@lmarena_aiMiniMax M3 是一款开放权重的模型,现已加入 Agent Arena 平台。Agent Arena 通过真实用户会话评估模型在网页搜索、文件系统和终端工具上的表现,涵盖编写代码、创建幻灯片、研究网页、构建应用和分析文档等任务。排行榜基于 30 万+ 任务、200 万+ 工具调用和 4000 万行代码构建,当前排名第一的是 OpenAI 的 GPT-5.5 (High),第二是 Anthropic 的 Claude-Opus-4.7 (Thinking)。MiniMax M3 的评分即将公布。AI模型MiniMax M3Agent ArenaGPT-5.5Claude-Opus-4.7智能体10 个信源在谈推荐理由:看看 MiniMax M3 在 Agent 任务中能排第几原文
15:09Artificial Analysis@ArtificialAnlys73°Artificial Analysis 更新了其编程智能体指数,用 Datacurve 的 DeepSWE 基准测试取代了 SWE-Bench Pro。DeepSWE 从零编写任务,避免模型从公开 GitHub 问题或 PR 中记忆答案,解决了原基准可被游戏化的问题。更新后,Codex with GPT-5.5 (xhigh) 得分从 65 升至 76,超越 Claude Code with Opus 4.8 (max) 的 73 分;新发布的 Claude Fable 5 (max) 在 Claude Code 中以 77 分位居榜首。这一变化揭示了原基准对某些模型组合的偏差。AI产品编程智能体基准测试Claude Fable 5GPT-5.5DeepSWE10 个信源在谈推荐理由:基准测试更新直接影响了主流编程智能体的排名,做 AI 编程工具选型或评估模型能力的开发者值得关注——Claude Fable 5 新登顶,Codex 也大幅提升,建议点开看具体得分和对比。原文
12:39Noam Brown (OpenAI 推理)@polynoamial73°OpenAI 的 GPT-5.5 模型在一项公开评测中取得了最高分。更令人关注的是,它在考虑 token 消耗、成本和实际运行时间后,依然保持最佳表现。这表明 GPT-5.5 不仅在能力上领先,在效率方面也具备显著优势。对于追求高性能与低成本平衡的开发者来说,这是一个重要信号。AI模型GPT-5.5OpenAI模型评测效率成本优化10 个信源在谈推荐理由:GPT-5.5 在评测中不仅性能第一,还兼顾了 token 和成本效率,做模型选型的团队可以直接参考这个结果来优化预算。原文
06:06elvis@omarsar0一位开发者分享使用 Opus 4.8 进行规划、GPT-5.5 执行代码的体验,强调将任务拆解为小步骤能显著提升输出质量。他提到动态工作流比多数人认为的更重要,并指出用 AI 生成 1 万行代码的 PR 花费 250 美元并不划算。他仍每日使用 Cursor AI,认为小步骤配合高质量模型效果更好。AI产品Opus 4.8GPT-5.5Cursor AI编程助手工作流优化10 个信源在谈推荐理由:这条推文点出了 AI 编程中常被忽视的「步骤拆分」策略,做复杂代码生成的开发者看完会重新评估自己的工作流,值得一试。原文
04:05lmarena.ai@lmarena_ai精选73°GPT-5.5 (xHigh) 在 Agent Arena 中排名第二,净提升 10.6%,成为 OpenAI 排名最高的模型,仅次于 Claude Fable 5 (High)。在 Praise vs. Complaint 和 Bash Recovery 两项指标上,GPT-5.5 甚至超过了 Claude Fable 5。Agent Arena 通过数百万真实世界、长周期智能体任务评估模型,涵盖代码编写、幻灯片制作、网页研究、应用构建和文档分析等复杂工作流。该平台还推出了 Agent Mode,允许用户直接测试 GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro 等前沿模型。AI模型GPT-5.5Agent Arena智能体评测Claude Fable 5OpenAI10 个信源在谈推荐理由:做智能体开发和 AI 评测的团队值得关注——GPT-5.5 在用户满意度和故障恢复上反超 Claude,说明 OpenAI 在实用场景上有了实质提升,建议直接去 Agent Arena 跑跑自己的任务。原文
03:37Simon Willison@simonwSimon Willison 展示了 Datasette 的 JSON extras API 新功能,并为此制作了一个自定义 API 探索工具。该工具由 Fable 5 和 GPT-5.5 协作生成,旨在帮助开发者更直观地理解和使用这一 API。JSON extras API 允许用户通过参数请求额外的数据字段,简化了数据获取流程。这一示例工具降低了 API 的学习门槛,对 Datasette 用户和 API 开发者尤其有用。AI产品DatasetteAPI 工具Fable 5GPT-5.5数据探索10 个信源在谈推荐理由:Datasette 用户终于有了直观的 API 探索工具,Fable 5 和 GPT-5.5 的协作让理解 JSON extras 变得简单,做数据 API 开发的人可以直接试试这个工具。原文
15:11AI Will@FinanceYF5精选Mitchell Hashimoto 对 Fable 模型进行了详细评测。他认为 Fable 在广泛的代码架构设计任务中表现平平,性价比不高。但在高度定向、目标明确的循环任务中,Fable 表现卓越,例如将 SwiftUI 布局解析器的性能从微秒级优化到纳秒级,尽管耗时 2 小时、花费 40 美元。相比之下,在常规的迭代开发任务中,GPT-5.5 和 GLM-5.1 在几分钟内就能完成,且成本更低。Hashimoto 建议将 Fable 保留用于定向、精细的分析工作,而非日常使用。AI模型Fable模型评测代码优化性能对比GPT-5.5推荐理由:Mitchell Hashimoto 的实测揭示了 Fable 模型的真实表现:它并非全能,但在特定优化任务上能带来数量级提升。做高性能计算或深度优化的开发者,可以看看他如何用 Fable 将微秒级操作压到纳秒级,以及是否值得为此付出时间和成本。原文
15:10AI Will@FinanceYF5精选Hashicorp创始人分享使用Fable 5的实测体验:在高度聚焦的循环任务中,Fable 5表现卓越,仅用2小时和40美元就将SwiftUI解析器优化到纳秒级,达到创始人自己无法实现的量级。但在广度任务上,性价比不如GPT-5.5——同样的功能迭代,GPT-5.5仅需几分钟和1.5美元,而Fable 5耗时40分钟、花费9美元。结论是Fable 5适合外科手术式的精准任务,日常开发用不着。AI产品Fable 5GPT-5.5代码优化性能评测AI编程助手10 个信源在谈推荐理由:做性能优化或高精度代码重构的开发者值得关注——Fable 5在聚焦任务上能突破人类极限,但日常开发用GPT更划算,看完能帮你选对工具。原文
05:35lmarena.ai@lmarena_aiAnthropic 发布的 Claude Fable 5 在两项关键指标上以最大优势领先其他顶级模型,包括 Opus-4.8 和 GPT-5.5。这两项指标分别是确认任务成功率和好评与投诉比。这表明 Claude Fable 5 在实际任务执行和用户满意度方面表现突出,可能成为当前最强的 AI 模型之一。该数据来自第三方评测平台,进一步巩固了 Anthropic 在 AI 领域的竞争力。AI模型Claude Fable 5Anthropic模型评测任务成功率GPT-5.510 个信源在谈推荐理由:做 AI 应用选型或关注模型能力排名的开发者,这个评测结果值得一看——Claude Fable 5 在任务成功率上碾压对手,意味着实际落地效果可能更好。原文
17:46AI Will@FinanceYF5Codex 已从编程工具扩展为多领域自动化平台,人们正用 GPT-5.5 运营农场、开发 iOS 应用、在 Figma 中完成设计、创办企业及自动化工作流程。文章列举了 10 个令人惊叹的应用场景,展示了 AI 从代码生成到实际业务落地的跨越。这标志着 AI 工具正从开发者专用走向通用生产力平台,值得关注。AI产品CodexGPT-5.5自动化应用场景生产力工具2 个信源在谈推荐理由:对于想探索 AI 落地场景的创业者、设计师和农场主,这 10 个案例直接展示了 GPT-5.5 如何解决真实业务问题,建议收藏并尝试复现。原文
12:58AI Will@FinanceYF5一条推特展示了Fable 5、Opus 4.8、GPT-5.5 Standard和GPT-5.5 Pro四个模型在相同Prompt下生成纽约天际线图像的结果对比。@aipulseda1ly 称这是目前见过最好的结果,差距肉眼可见。该对比直观反映了各模型在图像生成质量上的差异,对关注AI图像生成能力的用户有参考价值。AI模型Fable 5Opus 4.8GPT-5.5图像生成模型对比10 个信源在谈推荐理由:四个主流模型同Prompt出图对比,做AI绘画或模型评测的可以直接看结果,省去自己跑实验的时间。原文
20:32rohanpaul_ai@rohanpaul_ai72°Cognition 推出 FrontierCode 编码基准测试,评估 AI 生成的代码是否达到人类维护者愿意合并的质量,而不仅仅是能否通过测试。该基准包含 150 个任务,由 20 多位开源维护者设计,每个任务耗时超 40 小时。结果显示,最强模型 Claude Opus 4.8 在最高难度 Diamond 子集上仅得 13.4%,GPT-5.5 得 6.3%,Gemini 3.1 Pro 得 4.7%。评分系统引入“阻塞项”机制,任何导致无法合并的问题(如行为错误、不安全改动)直接判 0 分,通过后才按可读性、类型安全等软质量项加权。这揭示了当前 AI 编程助手在代码设计、约束和项目风格适配上的严重不足。AI产品基准测试代码质量Claude Opus 4.8GPT-5.5Gemini 3.1 Pro3 个信源在谈推荐理由:FrontierCode 把 AI 编程评测从「能跑就行」升级到「能合并才算数」,做代码质量评估或 AI 编程工具的团队值得关注——它暴露了当前模型在真实代码审查中的致命短板。原文
19:01AI Will@FinanceYF5Claude Opus 4.7 在 Android Arena 排行榜中以 1313 Elo 分排名第一,超越 OpenAI 的 GPT-5.5 和谷歌的 Gemini 3.5 Flash。Anthropic 在前十名中占据五个席位,显示出其在移动端 AI 领域的强势地位。该排行榜主要评估模型在安卓设备上的实际表现,对移动端 AI 应用开发者有重要参考价值。AI模型Claude Opus 4.7Android Arena排行榜AnthropicGPT-5.510 个信源在谈推荐理由:移动端 AI 开发者可以快速了解当前安卓设备上最强的模型格局——Claude Opus 4.7 领先,Anthropic 整体优势明显,值得关注其技术路线。原文
06:41rohanpaul_ai@rohanpaul_aiAgent Arena 发布了一个全新的智能体排行榜,不再依赖传统基准测试中的孤立问题,而是评估 AI 模型在真实用户任务中的表现,包括编写代码、构建应用、研究主题、创建文档和分析文件等。该排行榜基于 30 万+ 任务、200 万+ 工具调用和 4000 万行代码的数据,综合考量任务成功、可引导性、错误恢复、用户表扬/投诉和工具幻觉等信号。结果显示,GPT-5.5 High 以 +10.7% 的净改进率领先,Claude Opus 4.7 Thinking 和 GPT-5.4 High 紧随其后。该排行榜的核心价值在于将智能体视为工作系统,综合评估模型选择、工具使用、恢复行为和用户满意度。AI模型智能体排行榜GPT-5.5Claude Opus 4.7工具调用1 个信源在谈推荐理由:做智能体开发和评测的团队终于有了一个贴近真实工作场景的排行榜——Agent Arena 用 30 万+ 任务和 200 万+ 工具调用数据,告诉你哪个模型在写代码、做研究、处理文档时真正靠谱,值得点开看看你的模型排第几。原文
23:31lmarena.ai@lmarena_ai76°Arena 平台推出 Agent Mode 和 Agent Arena 排行榜,用于评估 AI 智能体在真实任务中的表现。用户可以在 Agent Mode 中让模型执行深度研究、复杂 bash 操作、编写代码、创建幻灯片等任务,每次会话都会贡献到排行榜。排行榜基于 30 万+ 任务、200 万+ 工具调用和 4000 万行代码,通过因果推断衡量任务成功、可操控性、错误恢复、用户反馈和工具幻觉五个信号。目前排名第一的是 OpenAI 的 GPT-5.5(High),其次是 Anthropic 的 Claude-Opus-4.7(Thinking)和智谱的 GLM-5.1。AI产品智能体评估/基准排行榜GPT-5.5Claude-Opus-4.710 个信源在谈推荐理由:做 AI 智能体开发或选型的团队终于有了可量化的评估标准——Agent Arena 用真实用户任务和因果推断排出了模型的实际能力,值得参考排行榜来选模型或优化自己的智能体。原文