13:28lmarena.ai@lmarena_ai精选Agent Arena通过代码编写、幻灯片制作等真实任务评估模型性能。Opus 4.8 Thinking每会话消耗较少token,质量提升+9.2%;Fable达到+14.1%的最高质量。GPT-5.5系列模型(+6.2%至+8.6%)以更少token超越前沿。Gemini-3.5 Flash消耗token最多但效果不佳,Grok Build 0.1消耗20K+ token却出现负提升。AI模型Agent ArenaOpusFableGPT-5.5推理模型推荐理由:想找token性价比高的模型?Agent Arena告诉你Opus和Fable有多能打,GPT-5.5也很省token。原文
08:26Jerry Liu@jerryjliu0精选Jerry Liu 发布了 Mistral OCR 在 ParseBench 上的更新结果。该模型的总体得分超过了 GPT-5.5,仅略低于 Gemini 3.1 Pro。在内容忠实度、语义格式和视觉定位方面表现优秀,在表格处理上表现一般,图表能力有限。这些结果展示了该价格区间内模型的竞争力。AI模型Mistral OCRGPT-5.5Gemini 3.1 ProParseBenchOCR推荐理由:Mistral OCR 在 ParseBench 上打败了 GPT-5.5,离 Gemini 3.1 Pro 也不远,价格还便宜,做文档解析很值。原文
08:25Simon Willison’s Weblog(博客/媒体)精选Simon Willison 受 Mozilla 的 MDN MCP 服务启发,将 mdn/browser-compat-data 仓库中的浏览器兼容性数据转换为约 66MB 的 SQLite 数据库。他使用 Claude Code for Web (Opus 4.8) 生成了转换脚本,并用 Codex Desktop (GPT-5.5) 构建了一个 GitHub Actions 工作流,将数据库推送到独立的 db 分支。该数据库托管在 GitHub 上并设置了 CORS 头,用户可通过 Datasette Lite 在线浏览和查询。技巧MozillaMDNClaude CodeGPT-5.5GitHub Actions2 个信源在谈推荐理由:Simon 用 Claude 和 GPT 帮你把 MDN 浏览器数据转成了 SQLite,能直接用 Datasette Lite 在线查,超方便。原文
05:58@OpenAIDevs@OpenAIDevs精选76°OpenAI 在 X 上总结了过去6个月为API推出的30多项更新。新模型包括 GPT-5.5、GPT-5.4 mini、GPT-5.4 nano、GPT-Realtime-2、GPT-Realtime-Whisper、GPT-Realtime-Translate 和 GPT-Image-2。Agent 构建模块新增 Agents SDK harness & sandbox、Skills in the Responses API、Server-side compaction、WebSocket mode 和 Hosted shell。此外还推出了 Admin API 增强、OpenAI CLI 以及 Models on Amazon Bedrock 等新功能。AI产品OpenAIGPT-5.5GPT-5.4 miniAPI智能体10 个信源在谈推荐理由:搞API开发的朋友,OpenAI 这半年偷偷发了这么多新模型和Agent工具,GPT-5.5和实时翻译很实用,赶紧看看你漏了哪个。原文
13:05@atomic_chat_hq@atomic_chat_hq精选Kimi K2.7 Code在三个物理模拟任务上与GPT-5.5进行对比,使用相同的提示词。弹簧摆和1kg块碰撞100000kg块的任务两者表现持平。但在22球自旋六边形任务中,Kimi生成的球随滚筒旋转,而GPT-5.5的球呈现混沌运动,Kimi表现更优。Kimi推理成本为0.28美元(52.4k tokens),GPT-5.5为0.93美元(23.4k tokens),成本降低约70%。AI模型KimiK2.7 CodeGPT-5.5推理模型编程助手推荐理由:Kimi新出的K2.7 Code模型,花不到三毛钱就能和GPT-5.5打平手,物理模拟甚至更聪明,性价比直接秒杀。原文
12:08shao__meng@shao__meng精选Cua与Snorkel AI联合发布Cua-Bench基准,首个公开数据集聚焦KiCad电子设计自动化工具,包含25道专家编写的任务。测试显示最强模型GPT-5.5仅完全通过6道(24%),Claude Sonnet 4.5和Haiku 4.5各通过5道。关键发现:模型在编辑已有原理图方面表现尚可,但16道从零搭建任务全部失败。失败原因包括导航开销大(约84%)、操作粒度过细(约84%)和布线未完成(约72%),同时自我校验不可靠。AI模型Cua-BenchKiCadGPT-5.5Claude Sonnet 4.5Agent推荐理由:想看看AI Agent在专业软件上到底行不行?Cua-Bench用KiCad的25道真实任务给模型打分,最强的也只过了6道,从零建电路全挂。看完你就知道瓶颈在哪了。原文
04:51宝玉@dotey精选Anthropic 推出的 Claude Design 能根据一句话描述生成可交互原型,点哪都有反应,状态保持完整。作者拆解了 Agent 的 Harness 层和模型层,指出 Harness 层技术不复杂,但 Claude Opus 4.8 在 UI/UX 和系统架构设计上远超 GPT-5.5。Claude Design 的产出物是 React 代码和 JSON 数据结构,开发者可直接复用。作者认为 Codex 不推类似产品是因为 GPT-5.5 模型能力不足,无法一次性交付完整可交互原型。AI模型Claude DesignClaude Opus 4.8GPT-5.5Codex智能体10 个信源在谈推荐理由:拆解 Claude Design 为何比 Codex 强原文
04:21elvis@omarsar0精选Elvis 在讨论中分享了运行自主长期编码智能体的经验,指出大多数模型难以协调长期任务,容易过早暂停或出现奖励黑客行为。他建议使用 Opus 4.8 进行规划,GPT-5.5 执行任务,并用 Deepseek、Qwen、Kimi 等模型作为评估器。强调多模态目标比纯文本目标更有效,能帮助智能体保持方向。技巧Opus 4.8GPT-5.5DeepseekQwen智能体5 个信源在谈推荐理由:Opus 4.8 规划 + GPT-5.5 执行,长期智能体实战配方原文
20:47Decoder@Jonathan Kemper精选微软与三所中国大学联合开发了SkillOpt方法,通过优化AI智能体的指令文档来提升性能。该方法仅需一个经过训练的Markdown文件,就能让GPT-5.5在程序性任务上提升约23个基准点。该文件还能跨模型和智能体环境迁移,如Codex和Claude Code。AI模型SkillOptGPT-5.5微软智能体Codex推荐理由:微软用Markdown文件让GPT-5.5涨23分原文
13:09elvis@omarsar0精选Omar Sanseviero分享运行自主长时编码智能体的经验,建议用Opus 4.8做规划、GPT-5.5执行,并用Deepseek、Qwen、Kimi或MiniMax等模型作为评估器。他强调多模态目标比纯文本目标更强,能帮助智能体保持方向。清晰定义目标、消除模型假设、避免奖励黑客行为是关键。技巧Opus 4.8GPT-5.5DeepseekQwenKimiMiniMax智能体7 个信源在谈推荐理由:Opus 4.8+GPT-5.5分工跑长任务原文
13:08Epoch AI@EpochAIResearch精选72°Epoch AI 发布 FrontierMath 基准测试 v2 版本,修复了 42% 的问题错误。新版本中,GPT-5.5 (xhigh) 在 Tier 1-3 上取得 85% 的准确率,Google 的 AI co-mathematician 在 Tier 4 上达到 76%。所有模型得分普遍提高,排名基本不变。AI模型FrontierMathGPT-5.5GoogleEpoch AI推理模型推荐理由:数学基准更新,GPT-5.5和Google AI成绩亮眼原文
04:05lmarena.ai@lmarena_ai精选73°GPT-5.5 (xHigh) 在 Agent Arena 中排名第二,净提升 10.6%,成为 OpenAI 排名最高的模型,仅次于 Claude Fable 5 (High)。在 Praise vs. Complaint 和 Bash Recovery 两项指标上,GPT-5.5 甚至超过了 Claude Fable 5。Agent Arena 通过数百万真实世界、长周期智能体任务评估模型,涵盖代码编写、幻灯片制作、网页研究、应用构建和文档分析等复杂工作流。该平台还推出了 Agent Mode,允许用户直接测试 GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro 等前沿模型。AI模型GPT-5.5Agent Arena智能体评测Claude Fable 5OpenAI10 个信源在谈推荐理由:做智能体开发和 AI 评测的团队值得关注——GPT-5.5 在用户满意度和故障恢复上反超 Claude,说明 OpenAI 在实用场景上有了实质提升,建议直接去 Agent Arena 跑跑自己的任务。原文
15:11AI Will@FinanceYF5精选Mitchell Hashimoto 对 Fable 模型进行了详细评测。他认为 Fable 在广泛的代码架构设计任务中表现平平,性价比不高。但在高度定向、目标明确的循环任务中,Fable 表现卓越,例如将 SwiftUI 布局解析器的性能从微秒级优化到纳秒级,尽管耗时 2 小时、花费 40 美元。相比之下,在常规的迭代开发任务中,GPT-5.5 和 GLM-5.1 在几分钟内就能完成,且成本更低。Hashimoto 建议将 Fable 保留用于定向、精细的分析工作,而非日常使用。AI模型Fable模型评测代码优化性能对比GPT-5.5推荐理由:Mitchell Hashimoto 的实测揭示了 Fable 模型的真实表现:它并非全能,但在特定优化任务上能带来数量级提升。做高性能计算或深度优化的开发者,可以看看他如何用 Fable 将微秒级操作压到纳秒级,以及是否值得为此付出时间和成本。原文
15:10AI Will@FinanceYF5精选Hashicorp创始人分享使用Fable 5的实测体验:在高度聚焦的循环任务中,Fable 5表现卓越,仅用2小时和40美元就将SwiftUI解析器优化到纳秒级,达到创始人自己无法实现的量级。但在广度任务上,性价比不如GPT-5.5——同样的功能迭代,GPT-5.5仅需几分钟和1.5美元,而Fable 5耗时40分钟、花费9美元。结论是Fable 5适合外科手术式的精准任务,日常开发用不着。AI产品Fable 5GPT-5.5代码优化性能评测AI编程助手10 个信源在谈推荐理由:做性能优化或高精度代码重构的开发者值得关注——Fable 5在聚焦任务上能突破人类极限,但日常开发用GPT更划算,看完能帮你选对工具。原文
11:11arXiv cs.AI@Zhiyi Chen, Jie Song, Peng Li精选72°TAHOE 是一个新型 Text-to-SQL 系统,通过将提示优化视为动态数据管理问题来提升 LLM 的 SQL 生成质量。它利用错误驱动的提示学习管道,在开发和部署阶段将调试痕迹整合到结构化的提示库中,包括语法提示和语义提示。TAHOE 还引入策略层来建模冲突的用户意图,并通过逻辑规划和 SQL 合成指导推理。在 Spider 2.0-Snow 基准测试中,TAHOE 将 GPT-5.5 的通过率从 61.95% 提升至 79.42%,并实现了 100% 的 Snowflake 语法通过率。该提示库还可迁移到更弱的模型,如 Doubao-2.0-lite 上获得 19.7 个百分点的通过率提升。论文Text-to-SQL提示优化LLM数据库GPT-5.5推荐理由:TAHOE 解决了 Text-to-SQL 从原型到生产部署的痛点——无需微调模型即可大幅提升 SQL 生成准确率,做数据库应用或数据分析的开发者可以直接用这套方法优化现有 LLM 管线。原文
09:02rohanpaul_ai@rohanpaul_ai精选在本地运行LLM的桌面应用atomic[.]chat上,Nemotron 3 Ultra与GPT-5.5进行了对比测试。在构建带真实物理效果的HTML5 Canvas任务中,Nemotron 3 Ultra以11.3k tokens、0.051美元的成本,给出了与GPT-5.5(11.0k tokens、0.57美元)几乎相同的结果,成本仅为后者的十分之一。Nemotron 3 Ultra是一个混合专家模型,拥有5500亿总参数,但每个token仅激活55亿参数,因此效率极高。这一对比展示了Nemotron 3 Ultra在性价比上的显著优势,尤其适合需要高推理质量但预算有限的场景。AI模型Nemotron 3 UltraGPT-5.5混合专家模型成本对比本地推理10 个信源在谈推荐理由:做AI应用或本地推理的开发者,这个测试直接告诉你Nemotron 3 Ultra能以十分之一成本达到GPT-5.5级别的效果,值得在项目里试试。原文
16:04IT之家(博客/媒体)精选安全研究员Kasra Rahjerdi搭建了一个故意留有漏洞的图书评论APK,测试多款AI大语言模型的安全推理能力。模型需解包APK并识别暴露的Firebase凭据以绕过API访问数据库。每个模型预算10美元,限时2小时,总花费1500美元。结果显示,GPT-5.5在10次运行中成功7次,每次成功成本9.46美元;DeepSeek V4 Pro成功3次,但每次成功成本仅0.62美元,约为GPT-5.5的十五分之一。Gemini多次在任务早期拒绝继续,而Claude Sonnet 4.6和Opus 4.8各成功2次。该测试揭示了不同模型在安全漏洞利用任务中的性能与成本差异,对批量运行安全工具的团队具有现实意义。AI模型安全测试GPT-5.5DeepSeek V4 Pro漏洞利用成本对比推荐理由:安全团队和AI开发者可以直观看到不同模型在真实漏洞利用任务中的性价比——GPT-5.5最可靠但贵,DeepSeek V4 Pro成本极低但成功率有限,做自动化安全测试的团队值得参考这个对比。原文
10:49arXiv: DeepSeek@Xiaonan Xu, Wenjing Wu精选一篇来自 arXiv 的论文系统研究了技能文档的呈现粒度对大型语言模型智能体任务成功率的影响。实验基于 SkillsBench 基准,包含 30 个领域平衡的任务,测试了 GPT-5.5 和 DeepSeek V4-Flash 两种模型。结果显示,提供技能文档相比无技能条件,任务平均通过率提升 18 到 36 个百分点,效果显著。然而,技能文档的抽象程度(低抽象 vs 高抽象)以及是否包含示例对成功率的影响很小且统计上不显著。该研究表明,技能可用性是关键因素,而呈现细节的调整影响有限且依赖模型。论文LLM Agent技能文档任务成功率GPT-5.5DeepSeek V4-Flash推荐理由:做 LLM Agent 开发的团队终于有了实证依据:给智能体塞技能文档比纠结怎么写更管用。建议直接参考这个实验设计来优化自己的 RAG 或工具调用策略。原文
17:41rohanpaul_ai@rohanpaul_ai精选72°微软提出 SkillOpt 方法,将智能体技能文档视为可训练的外部程序,而非手工编写或一次性生成。该方法通过一个更强的优化器模型,在智能体执行任务后分析成功与失败案例,对技能文档进行小幅度编辑,并仅在通过验证集测试时采纳修改。在 6 个基准、7 个目标模型和 3 种智能体设置(包括直接对话、Codex 和 Claude Code)的测试中,SkillOpt 在全部 52 个案例中表现最佳或持平,在 GPT-5.5 上直接对话准确率平均提升 23.5 个百分点。最终产出是一个可读、可移植、低成本复用的技能文件,无需重新训练模型即可提升智能体跨任务表现。论文智能体技能优化微软GPT-5.5Claude Code推荐理由:做智能体开发的团队终于有了靠谱的技能优化方案——SkillOpt 解决了手工调技能越调越差的痛点,而且最终产物是一个可读文件,部署零成本。做 prompt 工程或 Agent 框架的开发者值得细读。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……
11:45arXiv cs.AI@Yusong Lin, Xinyuan Liang, Haiyang Wang, Qipeng Gu, Siqi Cheng, Jiangui Chen, Shuzhe Wu, Feiyang Pan, Lue Fan, Sanyuan Zhao, Dandan Tu精选Claw-Anything 是一个新基准,旨在评估大型语言模型代理作为始终在线个人助手的能力。现有系统仅能访问用户数字世界的狭窄部分,限制了上下文感知推理和有效协助。该基准通过三个维度扩展代理上下文:长期活动历史、相互依赖的后端服务以及跨多设备的 GUI 和 CLI 交互。实验显示,GPT-5.5 仅达到 34.5% 的 pass@1,远低于先前基准,突显了当前代理能力与始终在线个人助手需求之间的差距。同时,研究团队发布了自动化数据生成管道,可生成 2000 个训练环境,并将基础模型性能提升 23.7%。论文智能体基准测试个人助手GPT-5.5上下文推理推荐理由:这个基准测试揭示了当前 AI 代理在理解用户完整数字生活方面的巨大短板,做个人助手或智能体开发的团队值得关注——它直接指出了现有系统为何不够智能,并提供了改进方向。原文
11:11arXiv cs.AI@Yifan Yang, Ziyang Gong, Weiquan Huang, Qihao Yang, Ziwei Zhou, Zisu Huang, Yan Li, Xuemei Gao, Qi Dai, Bei Liu, Kai Qiu, Yuqing Yang, Dongdong Chen, Xue Yang, Chong Luo精选72°SkillOpt 提出了一种新方法,将智能体技能视为冻结模型的外部状态,通过独立的优化器模型对技能文档进行有界增删改编辑,并仅在严格提升验证集分数时接受修改。该方法引入了文本学习率预算、拒绝编辑缓冲区和逐轮慢/元更新机制,使技能训练稳定且部署时零额外模型调用。在 6 个基准、7 个目标模型和 3 种执行框架(直接对话、Codex、Claude Code)的 52 个测试单元中,SkillOpt 全部取得最佳或并列最佳,相比无技能基线在 GPT-5.5 上平均提升 19.1-24.8 个百分点。迁移实验表明,优化后的技能在不同模型规模、执行环境和相近数学基准间仍保持价值。论文智能体技能优化文本空间优化GPT-5.5Codex推荐理由:SkillOpt 解决了智能体技能无法像深度学习权重那样可靠优化的问题,做智能体开发或技能自动生成的团队可以直接用这套方法替代手工调参,效果显著且部署零开销。原文
10:38Gary Marcus@GaryMarcus精选Gary Marcus 引用 scaling01 观点,认为 Mythos 在多项基准测试中优于 GPT-5.5,包括 SWE-bench Pro(77.8% vs 58.6%)、HLE(56.8% vs 41.4%)和网络安全测试。Mythos 在漏洞利用方面表现更强,能更高效地发现安全漏洞,但这也带来严重安全隐患。Marcus 警告,若 Mythos 完全发布,将对未充分防御的现实系统造成巨大混乱。目前最大的未知是 Mythos 在开放真实世界问题中的表现。AI模型MythosGPT-5.5基准测试安全威胁AI模型推荐理由:Mythos 在编程和网络安全基准上碾压 GPT-5.5,做 AI 安全或模型评估的团队需要关注其潜在威胁,建议提前加固防御。原文
22:38Paul Couvert@itsPaulAi精选76°Qwen-3.7-max 在真实智能体任务(编写自训练俄罗斯方块机器人)中,以 1.32 美元成本实现 56% 的改进,远超 Claude Opus 4.7(12.15 美元,28% 改进)和 GPT-5.5(2.85 美元,7% 改进)。该模型在长智能体循环中表现突出,成本仅为 Opus 4.7 的 1/9、GPT-5.5 的 1/2。这一结果出乎意料,展示了开源模型在复杂自主任务上的潜力。AI模型Qwen-3.7-max智能体成本对比开源模型GPT-5.5推荐理由:做智能体开发或自动化任务的团队,可以拿 Qwen-3.7-max 替代高价闭源模型,成本直降 9 倍效果反而更好,值得立刻跑个 benchmark 验证。原文
10:26arXiv: Anthropic@Isaac David, Arthur Gervais精选Anthropic在2026年4月发布的Mythos材料中声称其模型能发现真实漏洞,但本文通过控制实验复现了这些漏洞发现任务。实验让GPT-5.5、Claude Opus 4.7和Kimi K2在给定目标文件、只读源码和手动匹配规则下,尝试复现6个已知漏洞。结果显示,GPT-5.5在54次尝试中仅成功5次(覆盖2/6任务),Claude Opus 4.7成功1次,Kimi K2为0次。主要失败原因是模型过早锁定看似合理的候选错误,而忽略了补丁证据中的具体不变性。该结果不否定Anthropic未公开的工作流程,但表明在有利的靶标文件框架下,系统特定提示仅产生少量匹配。论文漏洞发现基准测试GPT-5.5Claude Opus 4.7Kimi K210 个信源在谈推荐理由:这个实验戳破了AI漏洞发现能力的泡沫——即使给定了目标文件,顶级模型复现已知漏洞的成功率也极低。做AI安全评估或漏洞研究的团队,看完会重新审视benchmark的可靠性。原文
10:11arXiv: OpenAI@Matteo Cobelli, Stefano Sanvito精选Autoresearch 是一种自动化科学任务的范式,AI 智能体自主提出、实现、评估和优化解决方案。本文提出 Automat 框架,使用基于 GPT-5.5 的 Codex 编码智能体,为化学化合物生成仅基于化学式的成分描述符,并通过随机森林工作流评估。在预测无机材料带隙和铁磁化合物居里温度两个任务中,Automat 超越了分数成分、Magpie 等基线,生成的描述符具有化学可解释性。该研究证明 autoresearch 智能体无需手动特征工程即可生成任务专用描述符,但也暴露了描述符冗余、贪婪特征扩展敏感性和需要复杂度控制等局限性。论文Autoresearch材料科学描述符设计GPT-5.5随机森林推荐理由:材料科学家和 AI for Science 研究者终于有了一个能自动设计描述符的框架——Automat 用 GPT 智能体替代了繁琐的手动特征工程,在带隙和居里温度预测上直接超越经典 Magpie 基线,做材料信息学的团队值得一试。原文
19:12arXiv: OpenAI@Zhun Wang, Nico Schiller, Hongwei Li, Srijiith Sesha Narayana, Milad Nasr, Nicholas Carlini, Xiangyu Qi, Eric Wallace, Elie Bursztein, Luca Invernizzi, Kurt Thomas, Yan Shoshitaishvili, Wenbo Guo, Jingxuan He, Thorsten Holz, Dawn Song精选75°ExploitGym 是一个大规模、多样化的基准测试,用于评估 AI 智能体将安全漏洞转化为实际攻击的能力。该基准包含 898 个来自真实世界漏洞的实例,涵盖用户空间程序、Google V8 JavaScript 引擎和 Linux 内核三个领域。评估显示,前沿模型如 Anthropic 的 Claude Mythos Preview 和 OpenAI 的 GPT-5.5 能成功利用 157 和 120 个漏洞实例,即使在启用常见防御措施后仍保持一定成功率。这项工作揭示了 AI 智能体在网络安全中的双重用途风险,为防御和攻击场景提供了重要测试平台。论文安全漏洞AI智能体基准测试漏洞利用Claude Mythos PreviewGPT-5.510 个信源在谈推荐理由:安全研究员和红队成员终于有了评估 AI 攻击能力的标准化工具——ExploitGym 覆盖真实漏洞和防御场景,做渗透测试或 AI 安全评估的团队可以直接拿来用。原文