VOL.2026.05.28·246 STORIES·AITOP DAILY

AITOP日报

二〇二六年五月二十八日 星期四DAILY · 每早八时
01

模型发布/更新

Model Releases
4

NVIDIA 发布 Polar:跨 Codex、Claude Code 和 Qwen Code 的 GRPO 训练框架

X·KOLX:marktechpost (@Asif Razzaq)

NVIDIA 研究人员推出 Polar,一个 token 忠实展开框架,用于通过强化学习训练语言智能体,无需修改其智能体框架。Polar 在框架和推理服务器之间放置模型 API 代理,捕获 token 级交互并重建训练器就绪轨迹。基于 Qwen3.5-4B 基础模型使用 GRPO,Polar 在 Codex 框架下将 SWE-Bench Verified pass@1 提升 22.6 个百分点,在 Claude Code 下提升 4.8 个百分点,在 Pi 下提升 6.2 个百分点。该框架已注册为 NeMo Gym 环境,并在 ProRL Agent Server 仓库中发布。

Orbit 开源框架:单节点训练万亿参数模型,DeepSeek-V4 可用

X·KOLX:pandaily (@contact@pandaily.com (Pandaily))

Sphere AI Lab 开源了 Orbit,一个强化学习后训练框架,支持在单个 8×B200 节点上对万亿参数模型(如 DeepSeek-V4)进行微调。该框架通过优化内存和计算效率,大幅降低了大规模模型训练的门槛,使得资源有限的团队也能进行高效的后训练。Orbit 的发布解决了万亿参数模型训练需要大规模集群的痛点,有望推动更多研究者和开发者参与大模型的后训练优化。

Biohub 发布蛋白质世界模型:ESMC-6B、ESMFold2,6.8B 蛋白质数据

X·KOLX:Latent.Space (@latentspacepod)

Biohub 发布了蛋白质世界模型系列,包括 ESMC-6B 和 ESMFold2,基于 6.8B 蛋白质序列和 1.1B 结构数据训练。该模型展示了生物学可能像语言模型一样规模化,从序列中学习结构与功能。ESMFold2 在抗体-抗原预测上超越专用系统。Biohub 还启动了 5 亿美元的虚拟生物学计划,旨在构建细胞、疾病乃至生理学的预测模型。

Qwen3.7-Max 登顶 ITBench-AA 企业 IT 任务评测第三

X·KOLX:阿里通义 Qwen (@Alibaba_Qwen)

阿里巴巴 Qwen3.7-Max 在 IBM 与 Artificial Analysis 联合推出的 ITBench-AA 基准测试中排名第三,该测试评估模型处理真实企业 IT 任务(如 Kubernetes 故障排查)的智能体能力。测试包含 59 个 SRE 任务,模型需通过读取日志、追踪依赖、识别根因实体来诊断故障。所有前沿模型得分均低于 50%,显示该基准极具挑战性。Claude Opus 4.7 以 47% 领先,GPT-5.5 以 46% 紧随其后,Qwen3.7-Max 以 42% 位列第三。

02

产品发布/更新

Product
4

Hugging Face 团队让异步 RL 权重同步带宽成本降低约 100 倍

X·KOLX:Clement Delangue (@ClementDelangue)

Hugging Face 科学团队在 TRL 库中实现了一种新的异步强化学习权重同步方法,将每次同步的带宽成本降低约 100 倍。核心洞察是:在 RL 步骤之间,约 99% 的 bf16 权重是比特相同的,只有极少部分发生变化。他们只将变化的元素编码为稀疏 safetensors 文件,通过 Hugging Face Bucket 传输,而不是传输整个权重文件。以 Qwen3-0.6B 为例,每次步骤的传输量从 1.2 GB 降至 20-35 MB。这意味着不再需要共享集群、RDMA、VPN 或跨云 NCCL,只需一个 GPU 和一个 Hugging Face 账号即可进行真正的分离式 RL 训练。

NVIDIA Dynamo Snapshot:Kubernetes 推理工作负载冷启动从分钟级降至5秒

X·KOLX:NVIDIA AI (@NVIDIAAI)

NVIDIA 推出 Dynamo Snapshot,一种针对 Kubernetes 上推理工作负载的快速启动方案。该方案利用 GPU 内存快照(GMS)实现高速互连上的并发权重恢复,同时结合 Linux 原生 AIO 和并行 memfd 恢复技术,加速 CRIU 恢复性能。在推理部署中,需求波动导致冷启动耗时数分钟,造成 GPU 闲置。Dynamo Snapshot 将启动时间从分钟级缩短至 5 秒以内,显著提升 GPU 利用率和推理效率。

VGGT-Edit:北大等联合推出120倍速3D场景编辑框架

X·KOLX:pandaily (@contact@pandaily.com (Pandaily))

北京大学、香港中文大学、上海人工智能实验室和南洋理工大学联合发布了VGGT-Edit,一个能在5秒内完成3D场景编辑的框架,速度比现有方法提升高达120倍。该框架利用视觉几何变换技术,实现了快速、高质量的3D场景编辑,无需复杂的优化过程。VGGT-Edit支持多种编辑操作,如物体添加、删除、变形和纹理修改,显著降低了3D内容创作的门槛。这一突破对于游戏开发、影视制作和虚拟现实等领域具有重要意义,使得实时3D编辑成为可能。

2026 年生产环境 AI Agent 评估指南:刷上限 vs 抬下限

X·KOLX:shao__meng (@shao__meng)

Ben Hylak 发布《2026 年面向生产环境 AI Agent 的评估指南》,核心区分了两种评估目标:Benchmark-maxxer(刷能力上限,适用于 Cursor、Claude Code 等专家工具)和 Floor-raiser(抬可靠性下限,适用于客服、银行等自主 Agent)。指南强调生产环境评估应基于真实 trace 和失败模式,而非抽象 benchmark,并提出了从离线 code-aware eval 到上线后日志监控的完整闭环。关键洞见包括:先读真实交互再修模式、eval 套件应是“拒绝复发的记忆”、以及“我不知道”是提升信任的低成本杠杆。

03

行业动态

Industry
3

Cloudflare 构建统一数据平台及 AI 智能体 Skipper

X·KOLX:Cloudflare Blog (@Matt Moen)

Cloudflare 分享了其统一数据平台 Town Lake 的构建过程,以及基于该平台运行的内部 AI 智能体 Skipper。Town Lake 整合了 Cloudflare 的各类数据,为分析和决策提供统一视图。Skipper 作为 AI 助手,能够利用平台数据回答复杂问题、执行操作,提升内部效率。这一架构展示了如何将数据平台与 AI 智能体结合,实现更智能的运维和业务支持。

OpenAI 前沿治理框架:AI安全与欧盟/加州法规对齐

官方OpenAI Blog

OpenAI 发布了其前沿治理框架,详细说明了如何将 AI 安全、安保和风险管理实践与欧盟及加州的新兴法规对齐。该框架旨在确保前沿 AI 系统的开发与部署符合监管要求,同时保持创新。关键内容包括风险评估、透明度措施和治理结构,以应对 AI 的潜在风险。此举反映了 OpenAI 在日益严格的监管环境下主动合规的策略。

何庭波:华为秋季新麒麟芯片性能“跳跃性”提升

官方IT之家

华为半导体业务部总裁何庭波在专访中提出“韬(τ)定律”,以“时间缩微”替代“几何缩微”作为芯片演进新路径。过去6年华为已自主研发381款芯片,涵盖通信、手机、AI等领域。今年秋季将发布首款完整“韬芯片”麒麟芯片,性能、集成度、晶体管密度相比去年有“跳跃性”提升。何庭波表示,在外部限制下华为回归科学原点,打通了技术道路,对未来5-10年稳步前进有信心。

04

论文研究

Research
4

Code as a Weapon:恶意代码请求的共识标注提示库

X·KOLX:arXiv cs.LG (@Richard J. Young, Gregory D. Moody)

该论文指出,通用语言模型回答有害问题返回文本,而编程模型若遵从恶意请求可能返回可运行的武器(如键盘记录器、勒索软件)。因此,编程模型应比通用模型有更高的拒绝标准,但现有基准测试碎片化,无法有效衡量。作者整合了8个语料库(共6675条提示),通过5位评审共识协议分类,区分了可执行恶意代码请求(CODE)和有害安全知识请求(KNOWLEDGE)。最终发布了4748条CODE提示和1923条KNOWLEDGE提示,为评估编程模型对恶意代码的拒绝能力提供了可靠工具。

FluxMem:将记忆建模为持续演化的图结构,提升LLM智能体适应性

X·KOLX:arXiv cs.AI (@Jizhan Fang, Buqiang Xu, Zhixian Wang, Haoliang Cao, Xinle Deng, Baohua Dong, Hangcheng Zhu, Ruohui Huang, Gang Yu, Ying Wei, Guozhou Zheng, Feiyu Xiong, Haofen Wang, Huajun Chen, Ningyu Zhang)

现有记忆增强型LLM智能体通常将记忆视为静态仓库,在动态环境中表现脆弱。为此,研究者提出FluxMem框架,将记忆建模为异构图,并通过初始连接形成、反馈驱动精炼和长期巩固三个阶段逐步优化拓扑结构。在执行过程中,FluxMem能自动修复缺失链接、剪枝干扰、对齐抽象粒度,并将成功轨迹蒸馏为可复用的程序化回路。在LoCoMo、Mind2Web和GAIA三个基准测试中,FluxMem均取得最先进性能,展现出强大的适应性和泛化能力。代码已开源。

外推权重平均揭示代码RL中的正确性-效率前沿

X·KOLX:arXiv cs.AI (@Kunhao Zheng, Pierre Chambon, Juliette Decugis, Jonas Gehring, Taco Cohen, Benjamin Negrevergne, Gabriel Synnaeve)

该研究探讨了在代码强化学习(RL)中,通过外推权重平均(extrapolative weight averaging)能否在不额外训练的情况下,扩展微调检查点之间的帕累托前沿。研究者针对竞争性编程任务,使用嵌套单元测试覆盖(从低覆盖到高覆盖)训练检查点,发现正确性与效率之间存在权衡:高覆盖奖励减少优化失败但增加正确性失败,整体解决率不变。通过低覆盖和高覆盖检查点的插值可恢复该前沿,而外推则能超越训练端点。该现象在纯推理、工具使用和智能体编码三种推理设置以及32B和7B两种模型规模下均成立。外推权重平均的集成方法在LCB/hard基准上,以相同样本预算将pass@250提升了3.3%。结果表明,嵌套单元测试覆盖诱导的前沿可通过外推权重平均进行导航、扩展和利用。

VLA 架构失败模式不同:黑盒动作监控揭示架构特定失败签名

X·KOLX:arXiv cs.LG (@Krishnam Gupta)

研究发现视觉-语言-动作(VLA)模型在电机指令层面存在根本性、可预测的失败差异。通过对 VQ-BeT、Diffusion Policy 和 ACT 三种架构在 PushT 和 ALOHA 14-DOF 双臂操作任务上进行 450 次评估,发现方向反转率是通用失败预测指标(AUROC 最高 0.93),而急动度监控仅对离散令牌架构有效,速度监控在连续架构中几乎无效(AUROC 仅 0.41-0.52)。研究强调架构匹配的监控选择至关重要,并开源了 SafeContract 工具包。

05

技巧与观点

Tips & Takes
3

pgvector 实战指南:构建语义/混合/稀疏/量化向量搜索系统

X·KOLX:marktechpost (@Sana Hassan)

本教程在 Google Colab 中搭建完整的 pgvector 环境,演示如何将 PostgreSQL 用作强大的向量数据库。内容包括安装 PostgreSQL、编译 pgvector 扩展、通过 Psycopg 连接并注册向量类型以实现 Python 集成,以及使用 SentenceTransformers 生成嵌入并存储。教程覆盖了语义搜索、混合搜索、稀疏向量和量化向量四种搜索模式,为 AI 应用提供实用的向量搜索实现方案。

多模型协作 Code Review 实践:TinyShip 大 PR 测试

X·KOLX:Viking (@vikingmute)

一位开发者分享了针对几千行大 PR 的 Code Review 最佳实践,使用 Codex GPT5.5、Composer 2.5 和 Deepseek V4 Pro 等多个模型共同审查,每个模型生成按优先级排序的 Bug 报告。然后让大模型汇总共性高优先级问题,人工确认后由 Claude 作为 fix agent 修复,再由 GPT5.5 作为 review agent 验证修复并留下批改意见,循环直至确认。最后全量跑 E2E 测试确保无回归。该方法发现了不少真实问题,未来将做成 skill 分享。

用好 Coding Agent 的关键:开头设计比写代码更重要

X·KOLX:宝玉 (@dotey)

博主分享了自己使用 Coding Agent 的实战经验,强调开发新功能时不要直接让 Agent 写代码,而是先让多个 Agent(如 Codex、Claude Code、Cursor)在 Plan 模式下生成设计方案,然后人工选择最佳方案并融合其他方案的优点。复杂设计需拆分为多个 Phase,每个 Phase 明确要求和验证方法,保存为 Markdown 文档供 Agent 执行。写代码阶段可用便宜模型,但代码 Review 需用最强模型(如 GPT-5.5)把关设计符合性和代码质量。该方法类似多个架构师出方案、程序员执行、资深工程师审核的流程,能有效避免 Agent 跑偏。

246
今日事件
70
一手报道
18
新模型
68
信源
AITOP · 编辑系统自动生成