13:49Ethan Mollick@emollickGLM-5.2是一款开源模型,其性能不及GPT-5.5和Opus 4.8,更远不及Mythos。但它表现扎实,表明开源模型持续追赶前沿。当前开源权重已触及GPT-5.2水平,在该能力区间表现显著。这一进展说明开源模型正在缩小与闭源前沿的差距。AI模型GLM-5.2GPT-5.5Opus 4.8Mythos开源模型推荐理由:GLM-5.2虽然没追上GPT-5.5,但开源模型又往前迈了一大步,能力提升明显,值得关注。原文
13:48岚叔@lufzzliz在世界杯小组赛预测中,GLM-5.2在比分榜综合最强,GPT-5.5在胜负榜综合最强且命中率达70%。淘汰赛阶段取消24小时限制,可一次性预测16场比赛。作者分享了提示词示例:"继续预测,可以提交淘汰赛16场的比赛,你需要仔细分析给出你的答案、并提交"。同时附带了opus-4.8和deepseekv4-pro的预测结果。技巧GLM-5.2GPT-5.5提示词工程智能体世界杯推荐理由:作者用GLM-5.2和GPT-5.5预测世界杯,GPT-5.5命中率70%,还给了淘汰赛提示词,试试用自己的agent玩。原文
13:28lmarena.ai@lmarena_ai精选Agent Arena通过代码编写、幻灯片制作等真实任务评估模型性能。Opus 4.8 Thinking每会话消耗较少token,质量提升+9.2%;Fable达到+14.1%的最高质量。GPT-5.5系列模型(+6.2%至+8.6%)以更少token超越前沿。Gemini-3.5 Flash消耗token最多但效果不佳,Grok Build 0.1消耗20K+ token却出现负提升。AI模型Agent ArenaOpusFableGPT-5.5推理模型推荐理由:想找token性价比高的模型?Agent Arena告诉你Opus和Fable有多能打,GPT-5.5也很省token。原文
11:56Sam Altman@sama73°OpenAI CEO Sam Altman宣布推出新模型Sol,定价与GPT-5.5相同。同时发布的Terra(属于GPT-5.6系列)提供GPT-5.5级别的性能但价格仅一半。应美国政府要求,Sol和Terra今日仅限预览而非公开开放。Altman表示正在与政府合作尽快实现全面可用,并强调这种渐进部署方式符合长期策略,但并非最优。AI模型SolTerraGPT-5.5OpenAIAI安全10 个信源在谈推荐理由:Sam Altman发了Sol和Terra,一个和GPT-5.5同价,一个半价性能差不多,但被美国政府卡住只能预览,挺有意思的。原文
02:18Fireworks AI@FireworksAI_HQFireworks与Faros_AI联合对211个真实软件工程任务进行了评估。Claude Code搭配GLM-5.2的Judge得分0.568,每任务耗时321秒,成本0.92美元。对比组Claude Code + Opus 4.8得分为0.521、耗时775秒、成本1.76美元;Codex + GPT-5.5得分为0.466、耗时392秒、成本2.06美元。评测基于Faros自有代码库而非公开基准,更贴近实际开发场景。AI模型GLM-5.2Claude CodeOpus 4.8GPT-5.5编程助手推荐理由:Fireworks和Faros拿真实工程任务实测GLM-5.2,结果比Opus 4.8和GPT-5.5都更便宜更快,得分还高。想为代码任务选模型可以看看这个。原文
00:27Decoder@Matthias Bastian《华盛顿邮报》的一项调查发现,多数主流AI聊天机器人在政治问题上存在左倾倾向。OpenAI的GPT-5.5在80%的情况下只提供左倾论点。马斯克旗下标榜'反觉醒'的Grok模型也更多偏向左倾。唯一的例外是谷歌Gemini 3.1 Pro,它在93%的测试中呈现了双方观点。行业GPT-5.5GrokGemini 3.1 ProAI偏见政治倾向10 个信源在谈推荐理由:想知道你用的AI聊天机器人有没有政治立场?《华盛顿邮报》测了GPT-5.5、Grok和Gemini 3.1 Pro,结果左倾现象普遍,连Grok都没逃过。来看看数据。原文
08:26Jerry Liu@jerryjliu0精选Jerry Liu 发布了 Mistral OCR 在 ParseBench 上的更新结果。该模型的总体得分超过了 GPT-5.5,仅略低于 Gemini 3.1 Pro。在内容忠实度、语义格式和视觉定位方面表现优秀,在表格处理上表现一般,图表能力有限。这些结果展示了该价格区间内模型的竞争力。AI模型Mistral OCRGPT-5.5Gemini 3.1 ProParseBenchOCR推荐理由:Mistral OCR 在 ParseBench 上打败了 GPT-5.5,离 Gemini 3.1 Pro 也不远,价格还便宜,做文档解析很值。原文
08:25Simon Willison’s Weblog(博客/媒体)精选Simon Willison 受 Mozilla 的 MDN MCP 服务启发,将 mdn/browser-compat-data 仓库中的浏览器兼容性数据转换为约 66MB 的 SQLite 数据库。他使用 Claude Code for Web (Opus 4.8) 生成了转换脚本,并用 Codex Desktop (GPT-5.5) 构建了一个 GitHub Actions 工作流,将数据库推送到独立的 db 分支。该数据库托管在 GitHub 上并设置了 CORS 头,用户可通过 Datasette Lite 在线浏览和查询。技巧MozillaMDNClaude CodeGPT-5.5GitHub Actions2 个信源在谈推荐理由:Simon 用 Claude 和 GPT 帮你把 MDN 浏览器数据转成了 SQLite,能直接用 Datasette Lite 在线查,超方便。原文
02:12OpenAI@OpenAI73°OpenAI发布新版GPT-5.5 Instant,提升了理解问题意图和自适应回答的能力。新模型能更可靠地处理复杂约束,并让购物与本地推荐更实用连贯。该版本今天向付费用户推送,明天向免费用户开放。AI模型GPT-5.5OpenAI推理模型对话体验10 个信源在谈推荐理由:聊天更懂你,推荐更靠谱,免费用户明天就能用上,赶紧试试。原文
05:58@OpenAIDevs@OpenAIDevs精选76°OpenAI 在 X 上总结了过去6个月为API推出的30多项更新。新模型包括 GPT-5.5、GPT-5.4 mini、GPT-5.4 nano、GPT-Realtime-2、GPT-Realtime-Whisper、GPT-Realtime-Translate 和 GPT-Image-2。Agent 构建模块新增 Agents SDK harness & sandbox、Skills in the Responses API、Server-side compaction、WebSocket mode 和 Hosted shell。此外还推出了 Admin API 增强、OpenAI CLI 以及 Models on Amazon Bedrock 等新功能。AI产品OpenAIGPT-5.5GPT-5.4 miniAPI智能体10 个信源在谈推荐理由:搞API开发的朋友,OpenAI 这半年偷偷发了这么多新模型和Agent工具,GPT-5.5和实时翻译很实用,赶紧看看你漏了哪个。原文
01:19OpenAI@OpenAIOpenAI 宣布启动 Daybreak Cyber Partner Program,与领先的安全软件和服务提供商合作。合作伙伴可在其安全产品和服务中使用 GPT-5.5 with Trusted Access for Cyber。客户能受益于该模型的防御能力,提升软件韧性,但直接模型访问权由合作伙伴控制。该计划旨在通过渠道模式推广 AI 安全能力。行业OpenAIGPT-5.5DaybreakAI安全安全软件10 个信源在谈推荐理由:OpenAI 联合安全厂商,让 GPT-5.5 直接嵌入安全产品,客户不用管理模型,就能享受更强的网络防御。原文
22:24Viking@vikingmute用户反馈OpenAI Codex中GPT-5.5模型token消耗速度突然增加10-20倍。Plus用户原本5小时额度仅用2-3个prompt就耗尽,Pro账户也比原来快很多。该问题在X平台引发大量点赞和讨论,目前尚未有官方回应。AI产品CodexGPT-5.5OpenAI编程助手token消耗10 个信源在谈推荐理由:Codex的GPT-5.5最近token消耗飞快,Plus额度几下就用完,Pro用户也受影响,快看看你的账户。原文
18:39Together AI@togethercomputeTogether Compute 测试了闭源和开源模型构建小型可玩游戏的能力。结果显示,开源模型成本更低、速度更快,生成游戏质量接近闭源模型。例如,Opus 4.8 成本是 MiniMax M3 的 15 倍,GPT-5.5 是 Nemotron Ultra 的 10 倍,而 Kimi K2.7 Code 比 Opus 4.8 便宜 7 倍。AI模型Opus 4.8MiniMax M3GPT-5.5开源模型游戏生成5 个信源在谈推荐理由:Together Compute 实测:闭源模型贵几倍,开源做小游戏又快又便宜,质量还接近,想省钱就选开源。原文
03:29Decoder@Matthias BastianOpenAI发布了ChatGPT的医疗功能升级,基于GPT-5.5 Instant模型。在内部对比测试中,该模型在准确性、清晰度和完整性上均超过医生撰写的答案。健康相关陈述的错误率降低了71%。OpenAI声称这是医疗问答能力的一次显著提升。AI模型GPT-5.5ChatGPTOpenAI医疗AI10 个信源在谈推荐理由:OpenAI用GPT-5.5 Instant让ChatGPT在医疗问答上比医生答得更好,准确率提升了71%,值得试。原文
03:03Greg Brockman@gdb76°OpenAI 发布 GPT-5.5 Instant,其健康相关问题的回答水平已与前沿思考模型持平。该模型联合 60 个国家、49 种语言、26 个专科的数百名医生共同开发。每周有超过 2.3 亿用户向 ChatGPT 咨询健康问题。GPT-5.5 Instant 在识别紧急情况、询问上下文、解释不确定性及简化复杂信息方面表现更优。该模型已面向所有免费用户开放。AI模型GPT-5.5OpenAIChatGPT健康问答医疗AI10 个信源在谈推荐理由:OpenAI 出了 GPT-5.5 Instant,免费版就能用,健康问答能力大幅提升,和医生合作训练的,靠谱。原文
13:05@atomic_chat_hq@atomic_chat_hq精选Kimi K2.7 Code在三个物理模拟任务上与GPT-5.5进行对比,使用相同的提示词。弹簧摆和1kg块碰撞100000kg块的任务两者表现持平。但在22球自旋六边形任务中,Kimi生成的球随滚筒旋转,而GPT-5.5的球呈现混沌运动,Kimi表现更优。Kimi推理成本为0.28美元(52.4k tokens),GPT-5.5为0.93美元(23.4k tokens),成本降低约70%。AI模型KimiK2.7 CodeGPT-5.5推理模型编程助手推荐理由:Kimi新出的K2.7 Code模型,花不到三毛钱就能和GPT-5.5打平手,物理模拟甚至更聪明,性价比直接秒杀。原文
10:55arXiv cs.LG@Hannah Le, Ramesh Ramasamy, Alex Urrutia, Mahsa Yazdani, Tim Proctor, Kenny WorkmanTxBench-PP是一个用于评估AI agent在小分子临床前药理学中决策能力的基准,包含100个涉及作用机制、药效学等任务的评估。在16个模型配置(涉及11个模型和4800条轨迹)中,最佳配置Claude Opus 4.8 / Pi仅通过59.3%(178/300)的端点尝试,GPT-5.5 / Pi通过55.3%。结果表明,当前AI系统无法可靠复现临床前药理学决策。AI模型TxBench-PPClaude Opus 4.8GPT-5.5AI agent药物发现1 个信源在谈推荐理由:想看看AI在药物发现中到底行不行?这个基准测试用4800条轨迹告诉你,Claude Opus 4.8和GPT-5.5都还差得远,最高才59.3%的通过率。原文
05:25OpenAI@OpenAIOpenAI推出LifeSciBench新基准,用于评估AI模型在生物科学中的实际推理能力。该基准包含七个工作流,测试模型从证据推理、处理科学制品、应对不确定性等技能。GPT-Rosalind在所有七个工作流上得分均超过GPT-5.5。结果显示在制品密集、设计密集和操作受限任务上仍有改进空间。AI模型LifeSciBenchGPT-RosalindGPT-5.5OpenAI推理模型10 个信源在谈推荐理由:OpenAI搞了个新基准LifeSciBench,专门测生物科学推理,GPT-Rosalind比GPT-5.5还强,值得看看。原文
00:36量子位@一水某国产模型在多项关键医疗测评中超过GPT-5.5。这些测评覆盖多个专科方向,准确率指标领先。这表明国产医疗AI在核心性能上已实现突破。AI模型GPT-5.5医疗AI基准测试国产模型推荐理由:国产医疗AI终于打败GPT-5.5了,评测成绩很能打,值得关心AI落地的人看一看。原文
10:46arXiv cs.AI@Shanda Li, Qiuhong Anna Wei, Jingwu Tang, Valerie Chen, Nihar B Shah, Tim Dettmers, Yiming Yang, Ameet TalwalkarReproRepo是一个可扩展的框架,利用GitHub Issues作为监督信号来评估LLM在可重复性审计中的能力。研究基于1149篇近期机器学习论文,测试了四种前沿智能体配置。最佳配置Codex with GPT-5.5能识别约90%论文的至少一个语义相关的真实可重复性问题。分析表明智能体擅长发现表面故障和语义区域,但精确定位仍不足。代码已开源。论文ReproRepoGPT-5.5Codex可重复性LLM智能体推荐理由:这篇论文提出了一个可扩展的框架,用GitHub Issues来测试LLM智能体找论文代码的复现问题,比现有手动基准好很多,值得看。原文
04:01elvis@omarsar0GLM 5.2 在 FrontierSWE 基准上排名第 3,得分仅次于 Fable 5 和 Opus 4.8,并超越 GPT-5.5。这是首个缩小 Anthropic/OpenAI 与其他提供商之间差距的模型,同时也是目前最强的开源权重模型。该成绩展示了开源模型在编码任务上的竞争力。AI模型GLM 5.2FrontierSWEGPT-5.5开源模型编码基准10 个信源在谈推荐理由:GLM 5.2 在编码基准上干掉了 GPT-5.5,开源里最强,值得关注。原文
03:37The Rundown AI@therundownai73°Z AI发布了GLM-5.2,一款开源权重模型,支持1M token上下文窗口。在long-horizon coding基准上得分为74.4,超过GPT-5.5的72.6。在SWE-bench Pro上得分为62.1,同样领先GPT-5.5。AIME 2026数学测试得分为99.2,高于Opus 4.8和GPT-5.5。该模型在Designarena排名第一,并以MIT许可证发布。AI模型GLM-5.2Z AIOpus 4.8GPT-5.5开源模型6 个信源在谈推荐理由:Z AI的GLM-5.2开源,百万token上下文,数学和编程全面超过GPT-5.5,值得试玩。原文
03:36@koltregaskes@koltregaskes88°美国政府以国家安全和越狱漏洞为由,强制Anthropic关闭Fable 5和Mythos 5模型。指令仅基于口头证据,未提供具体技术细节。Anthropic声称该漏洞很窄,且GPT-5.5也能实现相同功能。同时禁止所有外国人访问,包括Anthropic的外籍员工。此事发生在Anthropic拒绝与五角大楼签订军事监控合同四个月之后。行业AnthropicFable 5Mythos 5GPT-5.5出口管制10 个信源在谈推荐理由:美国政府让Anthropic关了两个模型,理由含糊,还禁止外国人访问。有人猜是因为Anthropic之前没接五角大楼的军事合同。原文
12:25IT之家(博客/媒体)谷歌 6 月 15 日更新 Android Bench 榜单,测评 AI 模型在安卓开发任务中的表现。OpenAI 的 GPT-5.5 以 74 分排名第一,GPT-5.4 以 72.4 分第二,谷歌 Gemini 3.1 Pro Preview 同分第三。谷歌自家 Gemini 3.5 Flash 仅得 63.7 分,排第六,且单次运行平均成本 147.1 美元,为榜单最贵。DeepSeek V4 Flash 得分 52.7 排第 12,成本仅 8.4 美元,Gemini 3.5 Flash 成本是其 17.5 倍。AI模型Android BenchGemini 3.5 FlashGPT-5.5DeepSeek V4 Flash开发辅助10 个信源在谈推荐理由:谷歌新榜单实测,Gemini 3.5 Flash 在安卓开发任务中得分低、成本高,性价比远不如 DeepSeek V4 Flash。原文
12:08shao__meng@shao__meng精选Cua与Snorkel AI联合发布Cua-Bench基准,首个公开数据集聚焦KiCad电子设计自动化工具,包含25道专家编写的任务。测试显示最强模型GPT-5.5仅完全通过6道(24%),Claude Sonnet 4.5和Haiku 4.5各通过5道。关键发现:模型在编辑已有原理图方面表现尚可,但16道从零搭建任务全部失败。失败原因包括导航开销大(约84%)、操作粒度过细(约84%)和布线未完成(约72%),同时自我校验不可靠。AI模型Cua-BenchKiCadGPT-5.5Claude Sonnet 4.5Agent推荐理由:想看看AI Agent在专业软件上到底行不行?Cua-Bench用KiCad的25道真实任务给模型打分,最强的也只过了6道,从零建电路全挂。看完你就知道瓶颈在哪了。原文
10:05arXiv: Anthropic@Linus Bantel, Anna-Lena Roth, Jonas Posner, Dirk Pflüger一项新研究使用基于OpenCode的智能体扩展Julia文档MCP服务器,评估了OpenAI GPT-5.5、Anthropic Claude Opus 4.7和开源Qwen3-Coder-Next在三个并行问题(π近似、分块矩阵乘、分块Cholesky分解)上生成Dagger.jl代码的能力。实验在共享内存192核和分布式两节点上进行,与Base.Threads和MPI.jl基线对比。结果显示智能体能生成小规模可执行代码,但在大规模下因死锁、过订阅或内存溢出失败,其中开源模型受影响最严重。商业模型在Base.Threads和MPI.jl上可扩展性相当,但Dagger.jl实现存在任务依赖、粒度和调度方面的反复弱点。论文GPT-5.5Claude Opus 4.7Qwen3-Coder-NextJulia并行计算10 个信源在谈推荐理由:这篇论文测试了GPT-5.5、Claude Opus 4.7和Qwen3-Coder-Next用智能体写并行Julia代码,在超算上跑192核,发现小规模还行,大规模容易死锁或OOM,开源模型最差。做HPC或Julia并行开发的人值得看。原文
04:51宝玉@dotey精选Anthropic 推出的 Claude Design 能根据一句话描述生成可交互原型,点哪都有反应,状态保持完整。作者拆解了 Agent 的 Harness 层和模型层,指出 Harness 层技术不复杂,但 Claude Opus 4.8 在 UI/UX 和系统架构设计上远超 GPT-5.5。Claude Design 的产出物是 React 代码和 JSON 数据结构,开发者可直接复用。作者认为 Codex 不推类似产品是因为 GPT-5.5 模型能力不足,无法一次性交付完整可交互原型。AI模型Claude DesignClaude Opus 4.8GPT-5.5Codex智能体10 个信源在谈推荐理由:拆解 Claude Design 为何比 Codex 强原文
04:21elvis@omarsar0精选Elvis 在讨论中分享了运行自主长期编码智能体的经验,指出大多数模型难以协调长期任务,容易过早暂停或出现奖励黑客行为。他建议使用 Opus 4.8 进行规划,GPT-5.5 执行任务,并用 Deepseek、Qwen、Kimi 等模型作为评估器。强调多模态目标比纯文本目标更有效,能帮助智能体保持方向。技巧Opus 4.8GPT-5.5DeepseekQwen智能体5 个信源在谈推荐理由:Opus 4.8 规划 + GPT-5.5 执行,长期智能体实战配方原文
22:57lmarena.ai@lmarena_aiGLM-5.2是Zai_org发布的最新开源模型,已加入Agent Arena评测平台。该平台通过30万+任务、200万+工具调用和4000万行代码评估模型在搜索、文件系统和终端工具上的智能体性能。当前排行榜前五名包括GPT-5.5(第一)、Claude-Opus-4.7(第二)、GLM-5.1(第三)、Gemini-3.1-Pro(第四)和Kimi-K2.6(第五)。GLM-5.2将与其他模型竞争,展示其智能体能力。AI模型GLM-5.2Zai_orgAgent ArenaGPT-5.5Claude-Opus-4.7智能体1 个信源在谈推荐理由:看看GLM-5.2在Agent Arena能排第几原文
20:47Decoder@Jonathan Kemper精选微软与三所中国大学联合开发了SkillOpt方法,通过优化AI智能体的指令文档来提升性能。该方法仅需一个经过训练的Markdown文件,就能让GPT-5.5在程序性任务上提升约23个基准点。该文件还能跨模型和智能体环境迁移,如Codex和Claude Code。AI模型SkillOptGPT-5.5微软智能体Codex推荐理由:微软用Markdown文件让GPT-5.5涨23分原文
18:21Decoder@Matthias Bastian73°Anthropic 的 Claude Fable 5 在 FrontierMath 最难层级上达到 88% 准确率,较 Opus 4.5 在 2026 年初低于 10% 的成绩大幅提升。OpenAI 的 GPT-5.5 在同一层级上达到约 75%。两者差距为 13 个百分点,显示 AI 数学能力加速提升。AI模型Claude Fable 5GPT-5.5FrontierMathAnthropic推理模型10 个信源在谈推荐理由:Anthropic 新模型数学碾压 GPT-5.5原文
16:54Decoder@Matthias BastianMoonshot AI 发布了开源模型 Kimi K2.7 Code,拥有 1 万亿参数,专为编程任务设计。在编程基准测试中,Kimi K2.7 Code 仍落后于 GPT-5.5 和 Claude Opus 4.8,但每 token 价格比它们低 12 倍。用户需权衡:在相同预算下,使用 Kimi K2.7 Code 能获得更多推理次数,但质量可能有所下降。AI模型Kimi K2.7 CodeMoonshot AIGPT-5.5Claude Opus 4.8开源模型7 个信源在谈推荐理由:编程省钱利器,12倍性价比原文
13:09elvis@omarsar0精选Omar Sanseviero分享运行自主长时编码智能体的经验,建议用Opus 4.8做规划、GPT-5.5执行,并用Deepseek、Qwen、Kimi或MiniMax等模型作为评估器。他强调多模态目标比纯文本目标更强,能帮助智能体保持方向。清晰定义目标、消除模型假设、避免奖励黑客行为是关键。技巧Opus 4.8GPT-5.5DeepseekQwenKimiMiniMax智能体7 个信源在谈推荐理由:Opus 4.8+GPT-5.5分工跑长任务原文
13:08Epoch AI@EpochAIResearch精选72°Epoch AI 发布 FrontierMath 基准测试 v2 版本,修复了 42% 的问题错误。新版本中,GPT-5.5 (xhigh) 在 Tier 1-3 上取得 85% 的准确率,Google 的 AI co-mathematician 在 Tier 4 上达到 76%。所有模型得分普遍提高,排名基本不变。AI模型FrontierMathGPT-5.5GoogleEpoch AI推理模型推荐理由:数学基准更新,GPT-5.5和Google AI成绩亮眼原文
13:02elvis@omarsar0用户elvis在X上分享使用Opus 4.8进行规划、GPT-5.5执行任务的组合工作流。他指出将步骤分解为更小的部分能显著提升输出质量,并强调动态工作流的重要性被低估。该技巧适用于需要高质量输出的AI任务场景。技巧Opus 4.8GPT-5.5工作流提示词工程6 个信源在谈推荐理由:Opus 4.8规划+GPT-5.5执行原文
11:04elvis@omarsar0精选Anthropic 因美国政府指令暂停 Claude Fable 5 模型访问,所有新会话切换到 Opus 4.8 或用户默认模型,现有 Fable 5 会话报错。AI 研究员 Omar 评论称 Fable 5 对多数任务不划算,且被削弱,而 Opus 4.8(规划)和 GPT-5.5(执行)仍是最佳选择。行业ClaudeFable 5Opus 4.8GPT-5.5监管10 个信源在谈推荐理由:Fable 5 被停,看看大家选谁原文
09:46lmarena.ai@lmarena_aiMiniMax M3 是一款开放权重的模型,现已加入 Agent Arena 平台。Agent Arena 通过真实用户会话评估模型在网页搜索、文件系统和终端工具上的表现,涵盖编写代码、创建幻灯片、研究网页、构建应用和分析文档等任务。排行榜基于 30 万+ 任务、200 万+ 工具调用和 4000 万行代码构建,当前排名第一的是 OpenAI 的 GPT-5.5 (High),第二是 Anthropic 的 Claude-Opus-4.7 (Thinking)。MiniMax M3 的评分即将公布。AI模型MiniMax M3Agent ArenaGPT-5.5Claude-Opus-4.7智能体10 个信源在谈推荐理由:看看 MiniMax M3 在 Agent 任务中能排第几原文
15:09Artificial Analysis@ArtificialAnlys73°Artificial Analysis 更新了其编程智能体指数,用 Datacurve 的 DeepSWE 基准测试取代了 SWE-Bench Pro。DeepSWE 从零编写任务,避免模型从公开 GitHub 问题或 PR 中记忆答案,解决了原基准可被游戏化的问题。更新后,Codex with GPT-5.5 (xhigh) 得分从 65 升至 76,超越 Claude Code with Opus 4.8 (max) 的 73 分;新发布的 Claude Fable 5 (max) 在 Claude Code 中以 77 分位居榜首。这一变化揭示了原基准对某些模型组合的偏差。AI产品编程智能体基准测试Claude Fable 5GPT-5.5DeepSWE10 个信源在谈推荐理由:基准测试更新直接影响了主流编程智能体的排名,做 AI 编程工具选型或评估模型能力的开发者值得关注——Claude Fable 5 新登顶,Codex 也大幅提升,建议点开看具体得分和对比。原文
12:39Noam Brown (OpenAI 推理)@polynoamial73°OpenAI 的 GPT-5.5 模型在一项公开评测中取得了最高分。更令人关注的是,它在考虑 token 消耗、成本和实际运行时间后,依然保持最佳表现。这表明 GPT-5.5 不仅在能力上领先,在效率方面也具备显著优势。对于追求高性能与低成本平衡的开发者来说,这是一个重要信号。AI模型GPT-5.5OpenAI模型评测效率成本优化10 个信源在谈推荐理由:GPT-5.5 在评测中不仅性能第一,还兼顾了 token 和成本效率,做模型选型的团队可以直接参考这个结果来优化预算。原文
10:15arXiv cs.AI@Harihara Muralidharan, Reema Baskar, Soo Hee Lee, Tim Proctor, Kenny Workman研究人员推出了EpiBench,一个用于短周期表观基因组学分析的可验证基准测试。该基准包含106个评估任务,覆盖CUT&Tag/CUT&RUN、ATAC-seq、ChIP-seq和DNA甲基化等流程。在16个模型-工具组合的5088条有效轨迹中,没有系统通过大部分尝试:GPT-5.5/Pi以45.0%的通过率领先,GPT-5.5/OpenAI Codex以39.9%紧随其后。性能因检测类型而异,许多失败运行仍包含部分正确答案,但任务需要更深入的、检测特定的科学判断时,智能体往往失败。这表明当前AI在需要专业领域知识的复杂分析中仍有明显短板。论文基准测试表观基因组学AI智能体GPT-5.5科学判断10 个信源在谈推荐理由:做基因组学分析的团队终于有了一个可复现的AI能力评估标准——EpiBench揭示了当前最强模型在专业科学判断上的天花板,做生物信息学工具开发或AI+生命科学研究的建议点开看看差距在哪。原文