全部 AI 动态 · AI 热点

6月29日

13:49

Ethan Mollick@emollick

GLM-5.2是一款开源模型，其性能不及GPT-5.5和Opus 4.8，更远不及Mythos。但它表现扎实，表明开源模型持续追赶前沿。当前开源权重已触及GPT-5.2水平，在该能力区间表现显著。这一进展说明开源模型正在缩小与闭源前沿的差距。

AI模型 GLM-5.2 GPT-5.5 Opus 4.8 Mythos 开源模型

推荐理由：GLM-5.2虽然没追上GPT-5.5，但开源模型又往前迈了一大步，能力提升明显，值得关注。

原文

13:48

岚叔@lufzzliz

在世界杯小组赛预测中，GLM-5.2在比分榜综合最强，GPT-5.5在胜负榜综合最强且命中率达70%。淘汰赛阶段取消24小时限制，可一次性预测16场比赛。作者分享了提示词示例："继续预测，可以提交淘汰赛16场的比赛，你需要仔细分析给出你的答案、并提交"。同时附带了opus-4.8和deepseekv4-pro的预测结果。

技巧 GLM-5.2 GPT-5.5 提示词工程智能体世界杯

推荐理由：作者用GLM-5.2和GPT-5.5预测世界杯，GPT-5.5命中率70%，还给了淘汰赛提示词，试试用自己的agent玩。

原文

6月27日

13:28

lmarena.ai@lmarena_ai

精选

Agent Arena通过代码编写、幻灯片制作等真实任务评估模型性能。Opus 4.8 Thinking每会话消耗较少token，质量提升+9.2%；Fable达到+14.1%的最高质量。GPT-5.5系列模型（+6.2%至+8.6%）以更少token超越前沿。Gemini-3.5 Flash消耗token最多但效果不佳，Grok Build 0.1消耗20K+ token却出现负提升。

AI模型 Agent Arena Opus Fable GPT-5.5 推理模型

推荐理由：想找token性价比高的模型？Agent Arena告诉你Opus和Fable有多能打，GPT-5.5也很省token。

原文

11:56

Sam Altman@sama

73°

OpenAI CEO Sam Altman宣布推出新模型Sol，定价与GPT-5.5相同。同时发布的Terra（属于GPT-5.6系列）提供GPT-5.5级别的性能但价格仅一半。应美国政府要求，Sol和Terra今日仅限预览而非公开开放。Altman表示正在与政府合作尽快实现全面可用，并强调这种渐进部署方式符合长期策略，但并非最优。

AI模型 Sol Terra GPT-5.5 OpenAI AI安全

推荐理由：Sam Altman发了Sol和Terra，一个和GPT-5.5同价，一个半价性能差不多，但被美国政府卡住只能预览，挺有意思的。

原文

6月26日

02:18

Fireworks AI@FireworksAI_HQ

Fireworks与Faros_AI联合对211个真实软件工程任务进行了评估。Claude Code搭配GLM-5.2的Judge得分0.568，每任务耗时321秒，成本0.92美元。对比组Claude Code + Opus 4.8得分为0.521、耗时775秒、成本1.76美元；Codex + GPT-5.5得分为0.466、耗时392秒、成本2.06美元。评测基于Faros自有代码库而非公开基准，更贴近实际开发场景。

AI模型 GLM-5.2 Claude Code Opus 4.8 GPT-5.5 编程助手

推荐理由：Fireworks和Faros拿真实工程任务实测GLM-5.2，结果比Opus 4.8和GPT-5.5都更便宜更快，得分还高。想为代码任务选模型可以看看这个。

原文

00:27

Decoder@Matthias Bastian

《华盛顿邮报》的一项调查发现，多数主流AI聊天机器人在政治问题上存在左倾倾向。OpenAI的GPT-5.5在80%的情况下只提供左倾论点。马斯克旗下标榜'反觉醒'的Grok模型也更多偏向左倾。唯一的例外是谷歌Gemini 3.1 Pro，它在93%的测试中呈现了双方观点。

行业 GPT-5.5 Grok Gemini 3.1 Pro AI偏见政治倾向

推荐理由：想知道你用的AI聊天机器人有没有政治立场？《华盛顿邮报》测了GPT-5.5、Grok和Gemini 3.1 Pro，结果左倾现象普遍，连Grok都没逃过。来看看数据。

原文

6月25日

08:26

Jerry Liu@jerryjliu0

精选

Jerry Liu 发布了 Mistral OCR 在 ParseBench 上的更新结果。该模型的总体得分超过了 GPT-5.5，仅略低于 Gemini 3.1 Pro。在内容忠实度、语义格式和视觉定位方面表现优秀，在表格处理上表现一般，图表能力有限。这些结果展示了该价格区间内模型的竞争力。

AI模型 Mistral OCR GPT-5.5 Gemini 3.1 Pro ParseBench OCR

推荐理由：Mistral OCR 在 ParseBench 上打败了 GPT-5.5，离 Gemini 3.1 Pro 也不远，价格还便宜，做文档解析很值。

原文

08:25

08:25Simon Willison’s Weblog（博客/媒体）

精选

Simon Willison 受 Mozilla 的 MDN MCP 服务启发，将 mdn/browser-compat-data 仓库中的浏览器兼容性数据转换为约 66MB 的 SQLite 数据库。他使用 Claude Code for Web (Opus 4.8) 生成了转换脚本，并用 Codex Desktop (GPT-5.5) 构建了一个 GitHub Actions 工作流，将数据库推送到独立的 db 分支。该数据库托管在 GitHub 上并设置了 CORS 头，用户可通过 Datasette Lite 在线浏览和查询。

技巧 Mozilla MDN Claude Code GPT-5.5 GitHub Actions

推荐理由：Simon 用 Claude 和 GPT 帮你把 MDN 浏览器数据转成了 SQLite，能直接用 Datasette Lite 在线查，超方便。

原文

02:12

OpenAI@OpenAI

73°

OpenAI发布新版GPT-5.5 Instant，提升了理解问题意图和自适应回答的能力。新模型能更可靠地处理复杂约束，并让购物与本地推荐更实用连贯。该版本今天向付费用户推送，明天向免费用户开放。

AI模型 GPT-5.5 OpenAI 推理模型对话体验

推荐理由：聊天更懂你，推荐更靠谱，免费用户明天就能用上，赶紧试试。

原文

6月24日

05:58

@OpenAIDevs@OpenAIDevs

精选76°

OpenAI 在 X 上总结了过去6个月为API推出的30多项更新。新模型包括 GPT-5.5、GPT-5.4 mini、GPT-5.4 nano、GPT-Realtime-2、GPT-Realtime-Whisper、GPT-Realtime-Translate 和 GPT-Image-2。Agent 构建模块新增 Agents SDK harness & sandbox、Skills in the Responses API、Server-side compaction、WebSocket mode 和 Hosted shell。此外还推出了 Admin API 增强、OpenAI CLI 以及 Models on Amazon Bedrock 等新功能。

AI产品 OpenAI GPT-5.5 GPT-5.4 mini API 智能体

推荐理由：搞API开发的朋友，OpenAI 这半年偷偷发了这么多新模型和Agent工具，GPT-5.5和实时翻译很实用，赶紧看看你漏了哪个。

原文

6月23日

01:19

OpenAI@OpenAI

OpenAI 宣布启动 Daybreak Cyber Partner Program，与领先的安全软件和服务提供商合作。合作伙伴可在其安全产品和服务中使用 GPT-5.5 with Trusted Access for Cyber。客户能受益于该模型的防御能力，提升软件韧性，但直接模型访问权由合作伙伴控制。该计划旨在通过渠道模式推广 AI 安全能力。

行业 OpenAI GPT-5.5 Daybreak AI安全安全软件

推荐理由：OpenAI 联合安全厂商，让 GPT-5.5 直接嵌入安全产品，客户不用管理模型，就能享受更强的网络防御。

原文

6月21日

22:24

Viking@vikingmute

用户反馈OpenAI Codex中GPT-5.5模型token消耗速度突然增加10-20倍。Plus用户原本5小时额度仅用2-3个prompt就耗尽，Pro账户也比原来快很多。该问题在X平台引发大量点赞和讨论，目前尚未有官方回应。

AI产品 Codex GPT-5.5 OpenAI 编程助手 token消耗

推荐理由：Codex的GPT-5.5最近token消耗飞快，Plus额度几下就用完，Pro用户也受影响，快看看你的账户。

原文

6月19日

18:39

Together AI@togethercompute

Together Compute 测试了闭源和开源模型构建小型可玩游戏的能力。结果显示，开源模型成本更低、速度更快，生成游戏质量接近闭源模型。例如，Opus 4.8 成本是 MiniMax M3 的 15 倍，GPT-5.5 是 Nemotron Ultra 的 10 倍，而 Kimi K2.7 Code 比 Opus 4.8 便宜 7 倍。

AI模型 Opus 4.8 MiniMax M3 GPT-5.5 开源模型游戏生成

推荐理由：Together Compute 实测：闭源模型贵几倍，开源做小游戏又快又便宜，质量还接近，想省钱就选开源。

原文

03:29

Decoder@Matthias Bastian

OpenAI发布了ChatGPT的医疗功能升级，基于GPT-5.5 Instant模型。在内部对比测试中，该模型在准确性、清晰度和完整性上均超过医生撰写的答案。健康相关陈述的错误率降低了71%。OpenAI声称这是医疗问答能力的一次显著提升。

AI模型 GPT-5.5 ChatGPT OpenAI 医疗AI

推荐理由：OpenAI用GPT-5.5 Instant让ChatGPT在医疗问答上比医生答得更好，准确率提升了71%，值得试。

原文

03:03

Greg Brockman@gdb

76°

OpenAI 发布 GPT-5.5 Instant，其健康相关问题的回答水平已与前沿思考模型持平。该模型联合 60 个国家、49 种语言、26 个专科的数百名医生共同开发。每周有超过 2.3 亿用户向 ChatGPT 咨询健康问题。GPT-5.5 Instant 在识别紧急情况、询问上下文、解释不确定性及简化复杂信息方面表现更优。该模型已面向所有免费用户开放。

AI模型 GPT-5.5 OpenAI ChatGPT 健康问答医疗AI

推荐理由：OpenAI 出了 GPT-5.5 Instant，免费版就能用，健康问答能力大幅提升，和医生合作训练的，靠谱。

原文

6月18日

13:05

@atomic_chat_hq@atomic_chat_hq

精选

Kimi K2.7 Code在三个物理模拟任务上与GPT-5.5进行对比，使用相同的提示词。弹簧摆和1kg块碰撞100000kg块的任务两者表现持平。但在22球自旋六边形任务中，Kimi生成的球随滚筒旋转，而GPT-5.5的球呈现混沌运动，Kimi表现更优。Kimi推理成本为0.28美元（52.4k tokens），GPT-5.5为0.93美元（23.4k tokens），成本降低约70%。

AI模型 Kimi K2.7 Code GPT-5.5 推理模型编程助手

推荐理由：Kimi新出的K2.7 Code模型，花不到三毛钱就能和GPT-5.5打平手，物理模拟甚至更聪明，性价比直接秒杀。

原文

10:55

arXiv cs.LG@Hannah Le, Ramesh Ramasamy, Alex Urrutia, Mahsa Yazdani, Tim Proctor, Kenny Workman

TxBench-PP是一个用于评估AI agent在小分子临床前药理学中决策能力的基准，包含100个涉及作用机制、药效学等任务的评估。在16个模型配置（涉及11个模型和4800条轨迹）中，最佳配置Claude Opus 4.8 / Pi仅通过59.3%（178/300）的端点尝试，GPT-5.5 / Pi通过55.3%。结果表明，当前AI系统无法可靠复现临床前药理学决策。

AI模型 TxBench-PP Claude Opus 4.8 GPT-5.5 AI agent 药物发现

推荐理由：想看看AI在药物发现中到底行不行？这个基准测试用4800条轨迹告诉你，Claude Opus 4.8和GPT-5.5都还差得远，最高才59.3%的通过率。

原文

05:25

OpenAI@OpenAI

OpenAI推出LifeSciBench新基准，用于评估AI模型在生物科学中的实际推理能力。该基准包含七个工作流，测试模型从证据推理、处理科学制品、应对不确定性等技能。GPT-Rosalind在所有七个工作流上得分均超过GPT-5.5。结果显示在制品密集、设计密集和操作受限任务上仍有改进空间。

AI模型 LifeSciBench GPT-Rosalind GPT-5.5 OpenAI 推理模型

推荐理由：OpenAI搞了个新基准LifeSciBench，专门测生物科学推理，GPT-Rosalind比GPT-5.5还强，值得看看。

原文

00:36

量子位@一水

某国产模型在多项关键医疗测评中超过GPT-5.5。这些测评覆盖多个专科方向，准确率指标领先。这表明国产医疗AI在核心性能上已实现突破。

AI模型 GPT-5.5 医疗AI 基准测试国产模型

推荐理由：国产医疗AI终于打败GPT-5.5了，评测成绩很能打，值得关心AI落地的人看一看。

原文

6月17日

10:46

arXiv cs.AI@Shanda Li, Qiuhong Anna Wei, Jingwu Tang, Valerie Chen, Nihar B Shah, Tim Dettmers, Yiming Yang, Ameet Talwalkar

ReproRepo是一个可扩展的框架，利用GitHub Issues作为监督信号来评估LLM在可重复性审计中的能力。研究基于1149篇近期机器学习论文，测试了四种前沿智能体配置。最佳配置Codex with GPT-5.5能识别约90%论文的至少一个语义相关的真实可重复性问题。分析表明智能体擅长发现表面故障和语义区域，但精确定位仍不足。代码已开源。

论文 ReproRepo GPT-5.5 Codex 可重复性 LLM智能体

推荐理由：这篇论文提出了一个可扩展的框架，用GitHub Issues来测试LLM智能体找论文代码的复现问题，比现有手动基准好很多，值得看。

原文

04:01

elvis@omarsar0

GLM 5.2 在 FrontierSWE 基准上排名第 3，得分仅次于 Fable 5 和 Opus 4.8，并超越 GPT-5.5。这是首个缩小 Anthropic/OpenAI 与其他提供商之间差距的模型，同时也是目前最强的开源权重模型。该成绩展示了开源模型在编码任务上的竞争力。

AI模型 GLM 5.2 FrontierSWE GPT-5.5 开源模型编码基准

推荐理由：GLM 5.2 在编码基准上干掉了 GPT-5.5，开源里最强，值得关注。

原文

03:37

The Rundown AI@therundownai

73°

Z AI发布了GLM-5.2，一款开源权重模型，支持1M token上下文窗口。在long-horizon coding基准上得分为74.4，超过GPT-5.5的72.6。在SWE-bench Pro上得分为62.1，同样领先GPT-5.5。AIME 2026数学测试得分为99.2，高于Opus 4.8和GPT-5.5。该模型在Designarena排名第一，并以MIT许可证发布。

AI模型 GLM-5.2 Z AI Opus 4.8 GPT-5.5 开源模型

推荐理由：Z AI的GLM-5.2开源，百万token上下文，数学和编程全面超过GPT-5.5，值得试玩。

原文

03:36

@koltregaskes@koltregaskes

88°

美国政府以国家安全和越狱漏洞为由，强制Anthropic关闭Fable 5和Mythos 5模型。指令仅基于口头证据，未提供具体技术细节。Anthropic声称该漏洞很窄，且GPT-5.5也能实现相同功能。同时禁止所有外国人访问，包括Anthropic的外籍员工。此事发生在Anthropic拒绝与五角大楼签订军事监控合同四个月之后。

行业 Anthropic Fable 5 Mythos 5 GPT-5.5 出口管制

推荐理由：美国政府让Anthropic关了两个模型，理由含糊，还禁止外国人访问。有人猜是因为Anthropic之前没接五角大楼的军事合同。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

12:25

12:25IT之家（博客/媒体）

谷歌 6 月 15 日更新 Android Bench 榜单，测评 AI 模型在安卓开发任务中的表现。OpenAI 的 GPT-5.5 以 74 分排名第一，GPT-5.4 以 72.4 分第二，谷歌 Gemini 3.1 Pro Preview 同分第三。谷歌自家 Gemini 3.5 Flash 仅得 63.7 分，排第六，且单次运行平均成本 147.1 美元，为榜单最贵。DeepSeek V4 Flash 得分 52.7 排第 12，成本仅 8.4 美元，Gemini 3.5 Flash 成本是其 17.5 倍。

AI模型 Android Bench Gemini 3.5 Flash GPT-5.5 DeepSeek V4 Flash 开发辅助

推荐理由：谷歌新榜单实测，Gemini 3.5 Flash 在安卓开发任务中得分低、成本高，性价比远不如 DeepSeek V4 Flash。

原文

12:08

shao__meng@shao__meng

精选

Cua与Snorkel AI联合发布Cua-Bench基准，首个公开数据集聚焦KiCad电子设计自动化工具，包含25道专家编写的任务。测试显示最强模型GPT-5.5仅完全通过6道（24%），Claude Sonnet 4.5和Haiku 4.5各通过5道。关键发现：模型在编辑已有原理图方面表现尚可，但16道从零搭建任务全部失败。失败原因包括导航开销大（约84%）、操作粒度过细（约84%）和布线未完成（约72%），同时自我校验不可靠。

AI模型 Cua-Bench KiCad GPT-5.5 Claude Sonnet 4.5 Agent

推荐理由：想看看AI Agent在专业软件上到底行不行？Cua-Bench用KiCad的25道真实任务给模型打分，最强的也只过了6道，从零建电路全挂。看完你就知道瓶颈在哪了。

原文

10:05

arXiv: Anthropic@Linus Bantel, Anna-Lena Roth, Jonas Posner, Dirk Pflüger

一项新研究使用基于OpenCode的智能体扩展Julia文档MCP服务器，评估了OpenAI GPT-5.5、Anthropic Claude Opus 4.7和开源Qwen3-Coder-Next在三个并行问题（π近似、分块矩阵乘、分块Cholesky分解）上生成Dagger.jl代码的能力。实验在共享内存192核和分布式两节点上进行，与Base.Threads和MPI.jl基线对比。结果显示智能体能生成小规模可执行代码，但在大规模下因死锁、过订阅或内存溢出失败，其中开源模型受影响最严重。商业模型在Base.Threads和MPI.jl上可扩展性相当，但Dagger.jl实现存在任务依赖、粒度和调度方面的反复弱点。

论文 GPT-5.5 Claude Opus 4.7 Qwen3-Coder-Next Julia 并行计算

推荐理由：这篇论文测试了GPT-5.5、Claude Opus 4.7和Qwen3-Coder-Next用智能体写并行Julia代码，在超算上跑192核，发现小规模还行，大规模容易死锁或OOM，开源模型最差。做HPC或Julia并行开发的人值得看。

原文

6月14日

04:51

宝玉@dotey

精选

Anthropic 推出的 Claude Design 能根据一句话描述生成可交互原型，点哪都有反应，状态保持完整。作者拆解了 Agent 的 Harness 层和模型层，指出 Harness 层技术不复杂，但 Claude Opus 4.8 在 UI/UX 和系统架构设计上远超 GPT-5.5。Claude Design 的产出物是 React 代码和 JSON 数据结构，开发者可直接复用。作者认为 Codex 不推类似产品是因为 GPT-5.5 模型能力不足，无法一次性交付完整可交互原型。

AI模型 Claude Design Claude Opus 4.8 GPT-5.5 Codex 智能体

推荐理由：拆解 Claude Design 为何比 Codex 强

原文

04:21

elvis@omarsar0

精选

Elvis 在讨论中分享了运行自主长期编码智能体的经验，指出大多数模型难以协调长期任务，容易过早暂停或出现奖励黑客行为。他建议使用 Opus 4.8 进行规划，GPT-5.5 执行任务，并用 Deepseek、Qwen、Kimi 等模型作为评估器。强调多模态目标比纯文本目标更有效，能帮助智能体保持方向。

技巧 Opus 4.8 GPT-5.5 Deepseek Qwen 智能体

推荐理由：Opus 4.8 规划 + GPT-5.5 执行，长期智能体实战配方

原文

6月13日

22:57

lmarena.ai@lmarena_ai

AI模型 GLM-5.2 Zai_org Agent Arena GPT-5.5 Claude-Opus-4.7 智能体

推荐理由：看看GLM-5.2在Agent Arena能排第几

原文

20:47

Decoder@Jonathan Kemper

精选

微软与三所中国大学联合开发了SkillOpt方法，通过优化AI智能体的指令文档来提升性能。该方法仅需一个经过训练的Markdown文件，就能让GPT-5.5在程序性任务上提升约23个基准点。该文件还能跨模型和智能体环境迁移，如Codex和Claude Code。

AI模型 SkillOpt GPT-5.5 微软智能体 Codex

推荐理由：微软用Markdown文件让GPT-5.5涨23分

原文

18:21

Decoder@Matthias Bastian

73°

Anthropic 的 Claude Fable 5 在 FrontierMath 最难层级上达到 88% 准确率，较 Opus 4.5 在 2026 年初低于 10% 的成绩大幅提升。OpenAI 的 GPT-5.5 在同一层级上达到约 75%。两者差距为 13 个百分点，显示 AI 数学能力加速提升。

AI模型 Claude Fable 5 GPT-5.5 FrontierMath Anthropic 推理模型

推荐理由：Anthropic 新模型数学碾压 GPT-5.5

原文

16:54

Decoder@Matthias Bastian

Moonshot AI 发布了开源模型 Kimi K2.7 Code，拥有 1 万亿参数，专为编程任务设计。在编程基准测试中，Kimi K2.7 Code 仍落后于 GPT-5.5 和 Claude Opus 4.8，但每 token 价格比它们低 12 倍。用户需权衡：在相同预算下，使用 Kimi K2.7 Code 能获得更多推理次数，但质量可能有所下降。

AI模型 Kimi K2.7 Code Moonshot AI GPT-5.5 Claude Opus 4.8 开源模型

推荐理由：编程省钱利器，12倍性价比

原文

13:09

elvis@omarsar0

精选

Omar Sanseviero分享运行自主长时编码智能体的经验，建议用Opus 4.8做规划、GPT-5.5执行，并用Deepseek、Qwen、Kimi或MiniMax等模型作为评估器。他强调多模态目标比纯文本目标更强，能帮助智能体保持方向。清晰定义目标、消除模型假设、避免奖励黑客行为是关键。

技巧 Opus 4.8 GPT-5.5 Deepseek Qwen Kimi MiniMax 智能体

推荐理由：Opus 4.8+GPT-5.5分工跑长任务

原文

13:08

Epoch AI@EpochAIResearch

精选72°

Epoch AI 发布 FrontierMath 基准测试 v2 版本，修复了 42% 的问题错误。新版本中，GPT-5.5 (xhigh) 在 Tier 1-3 上取得 85% 的准确率，Google 的 AI co-mathematician 在 Tier 4 上达到 76%。所有模型得分普遍提高，排名基本不变。

AI模型 FrontierMath GPT-5.5 Google Epoch AI 推理模型

推荐理由：数学基准更新，GPT-5.5和Google AI成绩亮眼

原文

13:02

elvis@omarsar0

用户elvis在X上分享使用Opus 4.8进行规划、GPT-5.5执行任务的组合工作流。他指出将步骤分解为更小的部分能显著提升输出质量，并强调动态工作流的重要性被低估。该技巧适用于需要高质量输出的AI任务场景。

技巧 Opus 4.8 GPT-5.5 工作流提示词工程

推荐理由：Opus 4.8规划+GPT-5.5执行

原文

11:04

elvis@omarsar0

精选

Anthropic 因美国政府指令暂停 Claude Fable 5 模型访问，所有新会话切换到 Opus 4.8 或用户默认模型，现有 Fable 5 会话报错。AI 研究员 Omar 评论称 Fable 5 对多数任务不划算，且被削弱，而 Opus 4.8（规划）和 GPT-5.5（执行）仍是最佳选择。

行业 Claude Fable 5 Opus 4.8 GPT-5.5 监管

推荐理由：Fable 5 被停，看看大家选谁

原文

09:46

lmarena.ai@lmarena_ai

MiniMax M3 是一款开放权重的模型，现已加入 Agent Arena 平台。Agent Arena 通过真实用户会话评估模型在网页搜索、文件系统和终端工具上的表现，涵盖编写代码、创建幻灯片、研究网页、构建应用和分析文档等任务。排行榜基于 30 万+ 任务、200 万+ 工具调用和 4000 万行代码构建，当前排名第一的是 OpenAI 的 GPT-5.5 (High)，第二是 Anthropic 的 Claude-Opus-4.7 (Thinking)。MiniMax M3 的评分即将公布。

AI模型 MiniMax M3 Agent Arena GPT-5.5 Claude-Opus-4.7 智能体

推荐理由：看看 MiniMax M3 在 Agent 任务中能排第几

原文

6月12日

15:09

Artificial Analysis@ArtificialAnlys

73°

Artificial Analysis 更新了其编程智能体指数，用 Datacurve 的 DeepSWE 基准测试取代了 SWE-Bench Pro。DeepSWE 从零编写任务，避免模型从公开 GitHub 问题或 PR 中记忆答案，解决了原基准可被游戏化的问题。更新后，Codex with GPT-5.5 (xhigh) 得分从 65 升至 76，超越 Claude Code with Opus 4.8 (max) 的 73 分；新发布的 Claude Fable 5 (max) 在 Claude Code 中以 77 分位居榜首。这一变化揭示了原基准对某些模型组合的偏差。

AI产品编程智能体基准测试 Claude Fable 5 GPT-5.5 DeepSWE

推荐理由：基准测试更新直接影响了主流编程智能体的排名，做 AI 编程工具选型或评估模型能力的开发者值得关注——Claude Fable 5 新登顶，Codex 也大幅提升，建议点开看具体得分和对比。

原文

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

12:39

Noam Brown (OpenAI 推理)@polynoamial

73°

OpenAI 的 GPT-5.5 模型在一项公开评测中取得了最高分。更令人关注的是，它在考虑 token 消耗、成本和实际运行时间后，依然保持最佳表现。这表明 GPT-5.5 不仅在能力上领先，在效率方面也具备显著优势。对于追求高性能与低成本平衡的开发者来说，这是一个重要信号。

AI模型 GPT-5.5 OpenAI 模型评测效率成本优化

推荐理由：GPT-5.5 在评测中不仅性能第一，还兼顾了 token 和成本效率，做模型选型的团队可以直接参考这个结果来优化预算。

原文

10:15

arXiv cs.AI@Harihara Muralidharan, Reema Baskar, Soo Hee Lee, Tim Proctor, Kenny Workman

研究人员推出了EpiBench，一个用于短周期表观基因组学分析的可验证基准测试。该基准包含106个评估任务，覆盖CUT&Tag/CUT&RUN、ATAC-seq、ChIP-seq和DNA甲基化等流程。在16个模型-工具组合的5088条有效轨迹中，没有系统通过大部分尝试：GPT-5.5/Pi以45.0%的通过率领先，GPT-5.5/OpenAI Codex以39.9%紧随其后。性能因检测类型而异，许多失败运行仍包含部分正确答案，但任务需要更深入的、检测特定的科学判断时，智能体往往失败。这表明当前AI在需要专业领域知识的复杂分析中仍有明显短板。

论文基准测试表观基因组学 AI智能体 GPT-5.5 科学判断

推荐理由：做基因组学分析的团队终于有了一个可复现的AI能力评估标准——EpiBench揭示了当前最强模型在专业科学判断上的天花板，做生物信息学工具开发或AI+生命科学研究的建议点开看看差距在哪。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？