AITOP 日报｜2026年5月28日｜今日AI：代码RL前沿，记忆模型突破

模型发布/更新

Model Releases

4 篇

NVIDIA 发布 Polar：跨 Codex、Claude Code 和 Qwen Code 的 GRPO 训练框架

X·KOLX：marktechpost (@Asif Razzaq)原文 ↗

NVIDIA 研究人员推出 Polar，一个 token 忠实展开框架，用于通过强化学习训练语言智能体，无需修改其智能体框架。Polar 在框架和推理服务器之间放置模型 API 代理，捕获 token 级交互并重建训练器就绪轨迹。基于 Qwen3.5-4B 基础模型使用 GRPO，Polar 在 Codex 框架下将 SWE-Bench Verified pass@1 提升 22.6 个百分点，在 Claude Code 下提升 4.8 个百分点，在 Pi 下提升 6.2 个百分点。该框架已注册为 NeMo Gym 环境，并在 ProRL Agent Server 仓库中发布。

Orbit 开源框架：单节点训练万亿参数模型，DeepSeek-V4 可用

X·KOLX：pandaily (@contact@pandaily.com (Pandaily))原文 ↗

Sphere AI Lab 开源了 Orbit，一个强化学习后训练框架，支持在单个 8×B200 节点上对万亿参数模型（如 DeepSeek-V4）进行微调。该框架通过优化内存和计算效率，大幅降低了大规模模型训练的门槛，使得资源有限的团队也能进行高效的后训练。Orbit 的发布解决了万亿参数模型训练需要大规模集群的痛点，有望推动更多研究者和开发者参与大模型的后训练优化。

Biohub 发布蛋白质世界模型：ESMC-6B、ESMFold2，6.8B 蛋白质数据

X·KOLX：Latent.Space (@latentspacepod)原文 ↗

Biohub 发布了蛋白质世界模型系列，包括 ESMC-6B 和 ESMFold2，基于 6.8B 蛋白质序列和 1.1B 结构数据训练。该模型展示了生物学可能像语言模型一样规模化，从序列中学习结构与功能。ESMFold2 在抗体-抗原预测上超越专用系统。Biohub 还启动了 5 亿美元的虚拟生物学计划，旨在构建细胞、疾病乃至生理学的预测模型。

Qwen3.7-Max 登顶 ITBench-AA 企业 IT 任务评测第三

X·KOLX：阿里通义 Qwen (@Alibaba_Qwen)原文 ↗

阿里巴巴 Qwen3.7-Max 在 IBM 与 Artificial Analysis 联合推出的 ITBench-AA 基准测试中排名第三，该测试评估模型处理真实企业 IT 任务（如 Kubernetes 故障排查）的智能体能力。测试包含 59 个 SRE 任务，模型需通过读取日志、追踪依赖、识别根因实体来诊断故障。所有前沿模型得分均低于 50%，显示该基准极具挑战性。Claude Opus 4.7 以 47% 领先，GPT-5.5 以 46% 紧随其后，Qwen3.7-Max 以 42% 位列第三。

产品发布/更新

Product

4 篇

Hugging Face 团队让异步 RL 权重同步带宽成本降低约 100 倍

X·KOLX：Clement Delangue (@ClementDelangue)原文 ↗

Hugging Face 科学团队在 TRL 库中实现了一种新的异步强化学习权重同步方法，将每次同步的带宽成本降低约 100 倍。核心洞察是：在 RL 步骤之间，约 99% 的 bf16 权重是比特相同的，只有极少部分发生变化。他们只将变化的元素编码为稀疏 safetensors 文件，通过 Hugging Face Bucket 传输，而不是传输整个权重文件。以 Qwen3-0.6B 为例，每次步骤的传输量从 1.2 GB 降至 20-35 MB。这意味着不再需要共享集群、RDMA、VPN 或跨云 NCCL，只需一个 GPU 和一个 Hugging Face 账号即可进行真正的分离式 RL 训练。

NVIDIA Dynamo Snapshot：Kubernetes 推理工作负载冷启动从分钟级降至5秒

X·KOLX：NVIDIA AI (@NVIDIAAI)原文 ↗

NVIDIA 推出 Dynamo Snapshot，一种针对 Kubernetes 上推理工作负载的快速启动方案。该方案利用 GPU 内存快照（GMS）实现高速互连上的并发权重恢复，同时结合 Linux 原生 AIO 和并行 memfd 恢复技术，加速 CRIU 恢复性能。在推理部署中，需求波动导致冷启动耗时数分钟，造成 GPU 闲置。Dynamo Snapshot 将启动时间从分钟级缩短至 5 秒以内，显著提升 GPU 利用率和推理效率。

VGGT-Edit：北大等联合推出120倍速3D场景编辑框架

X·KOLX：pandaily (@contact@pandaily.com (Pandaily))原文 ↗

北京大学、香港中文大学、上海人工智能实验室和南洋理工大学联合发布了VGGT-Edit，一个能在5秒内完成3D场景编辑的框架，速度比现有方法提升高达120倍。该框架利用视觉几何变换技术，实现了快速、高质量的3D场景编辑，无需复杂的优化过程。VGGT-Edit支持多种编辑操作，如物体添加、删除、变形和纹理修改，显著降低了3D内容创作的门槛。这一突破对于游戏开发、影视制作和虚拟现实等领域具有重要意义，使得实时3D编辑成为可能。

2026 年生产环境 AI Agent 评估指南：刷上限 vs 抬下限

X·KOLX：shao__meng (@shao__meng)原文 ↗

Ben Hylak 发布《2026 年面向生产环境 AI Agent 的评估指南》，核心区分了两种评估目标：Benchmark-maxxer（刷能力上限，适用于 Cursor、Claude Code 等专家工具）和 Floor-raiser（抬可靠性下限，适用于客服、银行等自主 Agent）。指南强调生产环境评估应基于真实 trace 和失败模式，而非抽象 benchmark，并提出了从离线 code-aware eval 到上线后日志监控的完整闭环。关键洞见包括：先读真实交互再修模式、eval 套件应是“拒绝复发的记忆”、以及“我不知道”是提升信任的低成本杠杆。

行业动态

Industry

3 篇

Cloudflare 构建统一数据平台及 AI 智能体 Skipper

X·KOLX：Cloudflare Blog (@Matt Moen)原文 ↗

Cloudflare 分享了其统一数据平台 Town Lake 的构建过程，以及基于该平台运行的内部 AI 智能体 Skipper。Town Lake 整合了 Cloudflare 的各类数据，为分析和决策提供统一视图。Skipper 作为 AI 助手，能够利用平台数据回答复杂问题、执行操作，提升内部效率。这一架构展示了如何将数据平台与 AI 智能体结合，实现更智能的运维和业务支持。

OpenAI 前沿治理框架：AI安全与欧盟/加州法规对齐

官方OpenAI Blog原文 ↗

OpenAI 发布了其前沿治理框架，详细说明了如何将 AI 安全、安保和风险管理实践与欧盟及加州的新兴法规对齐。该框架旨在确保前沿 AI 系统的开发与部署符合监管要求，同时保持创新。关键内容包括风险评估、透明度措施和治理结构，以应对 AI 的潜在风险。此举反映了 OpenAI 在日益严格的监管环境下主动合规的策略。

何庭波：华为秋季新麒麟芯片性能“跳跃性”提升

官方IT之家原文 ↗

华为半导体业务部总裁何庭波在专访中提出“韬（τ）定律”，以“时间缩微”替代“几何缩微”作为芯片演进新路径。过去6年华为已自主研发381款芯片，涵盖通信、手机、AI等领域。今年秋季将发布首款完整“韬芯片”麒麟芯片，性能、集成度、晶体管密度相比去年有“跳跃性”提升。何庭波表示，在外部限制下华为回归科学原点，打通了技术道路，对未来5-10年稳步前进有信心。

论文研究

Research

4 篇

Code as a Weapon：恶意代码请求的共识标注提示库

X·KOLX：arXiv cs.LG (@Richard J. Young, Gregory D. Moody)原文 ↗

该论文指出，通用语言模型回答有害问题返回文本，而编程模型若遵从恶意请求可能返回可运行的武器（如键盘记录器、勒索软件）。因此，编程模型应比通用模型有更高的拒绝标准，但现有基准测试碎片化，无法有效衡量。作者整合了8个语料库（共6675条提示），通过5位评审共识协议分类，区分了可执行恶意代码请求（CODE）和有害安全知识请求（KNOWLEDGE）。最终发布了4748条CODE提示和1923条KNOWLEDGE提示，为评估编程模型对恶意代码的拒绝能力提供了可靠工具。

FluxMem：将记忆建模为持续演化的图结构，提升LLM智能体适应性

X·KOLX：arXiv cs.AI (@Jizhan Fang, Buqiang Xu, Zhixian Wang, Haoliang Cao, Xinle Deng, Baohua Dong, Hangcheng Zhu, Ruohui Huang, Gang Yu, Ying Wei, Guozhou Zheng, Feiyu Xiong, Haofen Wang, Huajun Chen, Ningyu Zhang)原文 ↗

现有记忆增强型LLM智能体通常将记忆视为静态仓库，在动态环境中表现脆弱。为此，研究者提出FluxMem框架，将记忆建模为异构图，并通过初始连接形成、反馈驱动精炼和长期巩固三个阶段逐步优化拓扑结构。在执行过程中，FluxMem能自动修复缺失链接、剪枝干扰、对齐抽象粒度，并将成功轨迹蒸馏为可复用的程序化回路。在LoCoMo、Mind2Web和GAIA三个基准测试中，FluxMem均取得最先进性能，展现出强大的适应性和泛化能力。代码已开源。

外推权重平均揭示代码RL中的正确性-效率前沿

X·KOLX：arXiv cs.AI (@Kunhao Zheng, Pierre Chambon, Juliette Decugis, Jonas Gehring, Taco Cohen, Benjamin Negrevergne, Gabriel Synnaeve)原文 ↗

该研究探讨了在代码强化学习（RL）中，通过外推权重平均（extrapolative weight averaging）能否在不额外训练的情况下，扩展微调检查点之间的帕累托前沿。研究者针对竞争性编程任务，使用嵌套单元测试覆盖（从低覆盖到高覆盖）训练检查点，发现正确性与效率之间存在权衡：高覆盖奖励减少优化失败但增加正确性失败，整体解决率不变。通过低覆盖和高覆盖检查点的插值可恢复该前沿，而外推则能超越训练端点。该现象在纯推理、工具使用和智能体编码三种推理设置以及32B和7B两种模型规模下均成立。外推权重平均的集成方法在LCB/hard基准上，以相同样本预算将pass@250提升了3.3%。结果表明，嵌套单元测试覆盖诱导的前沿可通过外推权重平均进行导航、扩展和利用。

VLA 架构失败模式不同：黑盒动作监控揭示架构特定失败签名

X·KOLX：arXiv cs.LG (@Krishnam Gupta)原文 ↗

研究发现视觉-语言-动作（VLA）模型在电机指令层面存在根本性、可预测的失败差异。通过对 VQ-BeT、Diffusion Policy 和 ACT 三种架构在 PushT 和 ALOHA 14-DOF 双臂操作任务上进行 450 次评估，发现方向反转率是通用失败预测指标（AUROC 最高 0.93），而急动度监控仅对离散令牌架构有效，速度监控在连续架构中几乎无效（AUROC 仅 0.41-0.52）。研究强调架构匹配的监控选择至关重要，并开源了 SafeContract 工具包。

技巧与观点

Tips & Takes

3 篇

pgvector 实战指南：构建语义/混合/稀疏/量化向量搜索系统

X·KOLX：marktechpost (@Sana Hassan)原文 ↗

本教程在 Google Colab 中搭建完整的 pgvector 环境，演示如何将 PostgreSQL 用作强大的向量数据库。内容包括安装 PostgreSQL、编译 pgvector 扩展、通过 Psycopg 连接并注册向量类型以实现 Python 集成，以及使用 SentenceTransformers 生成嵌入并存储。教程覆盖了语义搜索、混合搜索、稀疏向量和量化向量四种搜索模式，为 AI 应用提供实用的向量搜索实现方案。

多模型协作 Code Review 实践：TinyShip 大 PR 测试

X·KOLX：Viking (@vikingmute)原文 ↗

一位开发者分享了针对几千行大 PR 的 Code Review 最佳实践，使用 Codex GPT5.5、Composer 2.5 和 Deepseek V4 Pro 等多个模型共同审查，每个模型生成按优先级排序的 Bug 报告。然后让大模型汇总共性高优先级问题，人工确认后由 Claude 作为 fix agent 修复，再由 GPT5.5 作为 review agent 验证修复并留下批改意见，循环直至确认。最后全量跑 E2E 测试确保无回归。该方法发现了不少真实问题，未来将做成 skill 分享。

用好 Coding Agent 的关键：开头设计比写代码更重要

X·KOLX：宝玉 (@dotey)原文 ↗

博主分享了自己使用 Coding Agent 的实战经验，强调开发新功能时不要直接让 Agent 写代码，而是先让多个 Agent（如 Codex、Claude Code、Cursor）在 Plan 模式下生成设计方案，然后人工选择最佳方案并融合其他方案的优点。复杂设计需拆分为多个 Phase，每个 Phase 明确要求和验证方法，保存为 Markdown 文档供 Agent 执行。写代码阶段可用便宜模型，但代码 Review 需用最强模型（如 GPT-5.5）把关设计符合性和代码质量。该方法类似多个架构师出方案、程序员执行、资深工程师审核的流程，能有效避免 Agent 跑偏。

246

今日事件

一手报道

新模型

信源