AITOP 日报｜2026年5月27日｜AI智能体自我进化，模型加速新突破

模型发布/更新

Model Releases

5 篇

EAGLE 3.1 发布：修复 LLM 推理中的注意力漂移问题

X·KOLX：marktechpost (@Michal Sutter)原文 ↗

EAGLE 团队联合 vLLM 和 TorchSpec 发布了 EAGLE 3.1，旨在解决生产环境中推测解码的不稳定性。该算法通过修复注意力漂移问题，提升了 LLM 推理的效率和可靠性。EAGLE 3.1 针对大规模部署场景优化，减少了推理延迟和资源消耗。这一更新对于需要高性能 LLM 推理的团队具有重要意义。

Stability AI 发布 Stable Audio 3：快速潜在扩散模型家族

X·KOLX：marktechpost (@Asif Razzaq)原文 ↗

Stability AI 发布了 Stable Audio 3，一个用于乐器音乐和音效生成的潜在扩散模型家族。该版本包含小型和中等变体的开源权重。小型模型可在 MacBook Pro M4 CPU 上运行，中等模型适配 8GB VRAM 的消费级 GPU。两者均通过三阶段训练流程（流匹配、蒸馏预热、对抗后训练）生成 44.1 kHz 立体声音频。在 BBC 音效基准测试中，SA3 中等模型在 5 秒片段上取得 FAD 0.369 的分数，低于论文中评估的所有开源基线。

DeepSWE 基准发布：113 个任务覆盖 5 种语言，Claude Opus 超 Claude Code 10 个百分点

X·KOLX：Philipp Schmid (@_philschmid)原文 ↗

DeepSWE 是一个新的软件工程/智能体基准测试，包含 113 个任务，覆盖 91 个仓库和 5 种编程语言。其评估框架 mini-swe-agent 为每个模型提供单一的 bash 工具和相同的系统指令，没有厂商自定义原语。评估提示比 SWE-Bench Pro 更短，但平均需要修改 5.5 倍以上的代码和 7 个文件，旨在模拟开发者与智能体对话的真实方式。初步结果显示，Claude Opus 比 Claude Code 高 10 个百分点，Gemini 3.1 Pro 比 Gemini CLI 高 20 个百分点。该基准强调指令遵循能力，可能对探索型模型不利。

英伟达 PiD 图像生成技术：13GB 显存跑通，210ms 生成 2048×2048 图像

官方IT之家原文 ↗

英伟达团队发布 PiD（像素扩散解码器）图像生成技术，将潜在解码与上采样合并为一个生成模块，在消费级 RTX 5090 上仅需 13GB 显存、不到 1 秒即可将 512×512 潜变量解码放大至 2048×2048 像素。PiD 基于 PixelDiT 构建，加入轻量级 ControlNet 适配器，并通过 DMD2 蒸馏将推理步数压缩至 4 步，配合早停机制兼顾速度与质量。相比级联式扩散超分方案，端到端延迟最多快 5.9 倍，视觉保真度更优。该技术兼容传统 VAE 和语义潜变量（如 SigLIP、DINOv2），具备较强通用性。

腾讯Chronicles-OCR基准测试：AI识别3000年中国古文字全军覆没

X·KOLX：berryxia (@berryxia)原文 ↗

腾讯HY实验室联合四家机构发布Chronicles-OCR基准测试，专门评估AI对3000年中国古文字的识别能力。测试包含2800张专家标注图像，覆盖甲骨文、金文、篆书等七大类古文字。结果显示28个前沿多模态模型全部失败，最强模型在甲骨文上仅14%准确率，GPT-5和Gemini 2.5 Pro接近0。更反直觉的是，开启推理模式反而降低表现，模型实际依赖载体（如龟壳、青铜器）而非文字本身进行分类。该测试揭示了AI在文化遗产领域的巨大挑战。

产品发布/更新

Product

5 篇

Maat：专为竞争法设计的智能法律研究助手

X·KOLX：arXiv cs.AI (@Basant Mounir, Farida Madkour, Amira Abdelaziz, Asmaa Sami)原文 ↗

竞争法专家进行法律研究时需审查大量案例和判决，现有通用助手（如Claude、ChatGPT）或法律助手（如SaulLM-7B、LegalGPT）缺乏领域专长，易产生幻觉或引用不足。研究者提出Maat，一个基于ReAct框架的智能体，通过RAG确保引用可靠性，支持网络搜索回退和模糊查询澄清。在案例特定任务上，Maat显著优于所有基线助手，在理论问题任务上接近最佳水平。相关数据集已在GitHub开源。

Perplexity 开源 Unigram 分词器，CPU 利用率降低 5-6 倍

X·KOLX：Perplexity (@perplexity_ai)原文 ↗

Perplexity AI 开源了其重构的 Unigram 分词器，该分词器将 CPU 利用率降低了 5-6 倍。由于小型重排序器和嵌入器在 GPU 上只需个位数毫秒即可运行，CPU 分词延迟成为总延迟中的重要部分。这一优化显著减少了推理过程中的 CPU 瓶颈，尤其适合需要低延迟的实时 AI 应用。开源代码已在 GitHub 上发布，供开发者使用和贡献。

Anthropic 分享如何跨产品限制 Claude 的“爆炸半径”

官方Anthropic: Engineering原文 ↗

Anthropic 在博客中详细介绍了他们如何为 Claude 的不同产品（claude.ai、Claude Code、Cowork）设计安全边界，以控制智能体能力增长带来的潜在风险。文章从工程角度探讨了“爆炸半径”的概念，即智能体可能造成最大损害的范围，并分享了通过权限隔离、沙箱执行、行为监控等机制来限制这一半径的实践经验。这些方法旨在确保 Claude 在变得更强大时，仍能安全地服务于用户，避免意外或恶意使用导致的严重后果。对于关注 AI 安全与可靠性的开发者和团队，这篇文章提供了实用的工程思路。

微软发布终端原生 Web Agent 框架 Webwright

X·KOLX：shao__meng (@shao__meng)原文 ↗

微软开源了 Webwright，一个终端原生的 Web Agent 框架，核心设计是“代码即动作”——让 LLM 直接编写 Playwright 脚本，将网页操作转化为可运行的 Python 程序。该框架在 Online-Mind2Web 和 Odysseys 基准测试中达到 SOTA 水平，架构极简，仅约 1000 行代码，无隐藏编排层。Webwright 已集成 Claude Code 和 OpenAI Codex 插件，支持任务完成后自动渲染为 HTML 应用（Task2UI 模式）。其脚本可复用、可审计，适合需要稳定浏览器自动化的开发者和团队。

5 things most AI agent SDKs get wrong — and how ADK fixes them

X·KOLX：AI Notkilleveryone (@ai_zona)原文 ↗

这篇文章指出了当前大多数 AI 智能体 SDK 存在的五个常见问题，并介绍了 ADK（Agent Development Kit）如何解决这些问题。这些问题包括：过度复杂的配置、缺乏可扩展性、对多模态支持不足、调试困难以及性能瓶颈。ADK 通过简化 API、提供模块化架构、原生多模态支持、内置调试工具和优化性能来应对这些挑战。对于正在构建或计划构建 AI 智能体的开发者来说，这篇文章提供了实用的改进方向。

行业动态

Industry

5 篇

Anthropic 实战总结：Claude AI/Code/Cowork 的 Agent 安全三层防御

X·KOLX：shao__meng (@shao__meng)原文 ↗

Anthropic 基于 Claude AI、Claude Code、Claude Cowork 三款产品的工程实践，总结了一套 Agent 安全实战经验。核心设计原则强调先环境层后模型层，隔离强度需匹配用户监督能力，警惕自建组件，出站白名单应视为能力授权。文章分析了用户误用、模型行为失当、外部攻击三种风险类型，并提出了环境层、模型层、外部内容层三层防御架构。通过真实攻击案例（如信任对话框前的代码执行漏洞、用户作为注入向量的钓鱼攻击、通过已批准域名的数据外泄），揭示了仅靠模型层无法防御用户本人指令，环境防御才是最后防线。未来风险方向包括持久化内存污染、多 Agent 信任升级和 Agent 身份问题。

华为新突破「LogicFolding」：用时间换空间，缩小与台积电差距

X·KOLX：rohanpaul_ai (@rohanpaul_ai)原文 ↗

华为提出名为「LogicFolding」的芯片设计新思路，通过将数字、模拟和存储电路垂直堆叠，缩短信号传输距离，从而减少延迟。其核心理念是「τ scaling」——不再只追求晶体管尺寸缩小，而是关注时间损耗。LogicFolding 将关键路径折叠到另一有源层，缩短导线、降低寄生延迟、收紧时钟偏差，无需改变工艺节点即可提升频率。这并非简单的 3D 封装，而是将拓扑结构作为新的缩放工具，为后光刻时代的芯片性能提升提供了新路径。

高通与字节跳动签署AI芯片协议，为数据中心智能体提供算力

X·KOLX：Pandaily (@contact@pandaily.com (Pandaily))原文 ↗

高通宣布与字节跳动达成AI芯片供应协议，将向字节跳动数据中心提供数百万颗ASIC芯片，专门用于支持AI智能体工作负载。此举标志着高通正从移动芯片领域向云基础设施多元化拓展。该合作预计于2026年5月开始交付，将帮助字节跳动提升其AI服务的计算能力。

YC 内部智能体基础设施：350+ 工具与自改进技能循环

X·KOLX：Y Combinator (@ycombinator)原文 ↗

YC 在过去一年构建了内部智能体基础设施，包含超过 350 个工具、自改进技能循环和共享组织大脑。关键突破是给智能体无限制访问一个数据库，这改变了 AI 的应用方式。YC 认为我们已进入 AI 的个人电脑时刻，智能体将像个人电脑一样普及。该基础设施已解决财务团队的实际问题，并持续通过记录所有操作来提升智能。

Agent时代AI安全：运行时行为比找漏洞更关键

X·KOLX：rohanpaul_ai (@rohanpaul_ai)原文 ↗

Anthropic的Mythos模型在curl代码库中发现1个真实漏洞，而中国360团队的安全代理在OpenClaw生态中独立发现23个漏洞，包括远程代码执行和提示注入绕过。这表明AI安全的核心问题已从模型能否找到漏洞，转向代理的运行时行为——代码、提示、工具、本地服务和权限在系统触及文件、打开端口或运行命令前的交互。对于构建代理的开发者，理解这些运行时风险至关重要。

论文研究

Research

4 篇

GADD：基于Gibbs校正器的均匀率离散扩散模型加速方法

X·KOLX：arXiv cs.LG (@Yuchen Liang, Ness Shroff, Yingbin Liang)原文 ↗

离散扩散模型在文本和符号领域表现优异，但均匀率模型生成样本时通常需要大量步骤。现有加速方法要么需要额外训练，要么混合速度慢。本文提出Gibbs加速离散扩散（GADD），利用具体分数函数结构直接构建Gibbs后验似然，无需额外训练。GADD实现了O(polylog(ε^{-1}))的采样复杂度，是均匀率离散扩散模型的首个此类理论保证。实验表明，GADD在合成数据、零样本文本生成和条件音乐生成中，显著提升了样本质量和计算效率，优于标准基线方法。

Falcon-X：面向异构多变量建模的时间序列基础模型

X·KOLX：arXiv cs.AI (@Yiding Liu, Yifan Hu, Hongjie Xia, Peiyuan Liu, Hongzhou Chen, Xilin Dai, Zewei Dong, Jiang-Ming Yang)原文 ↗

Falcon-X 是一种新型时间序列基础模型，解决了现有模型在跨变量建模中语义对齐和关系表达能力的不足。它通过将变量映射到统一的潜在原型空间，并采用统一原型差异注意力机制，显式评估正负语义亲和度，从而对齐异构物理量。该模型还通过潜在实体注意力在共享空间中高效进行跨变量交互，并通过变量重组路由器稳健重建特定变量轨迹。在 GIFT-Eval 和 fev-bench 基准测试中，Falcon-X 达到了最先进的预测性能，为复杂多变量环境提供了可扩展的范式。该模型已公开发布，以支持未来研究。

BASIS：单次采样批量化优势估计，提升LLM推理强化学习效率

X·KOLX：arXiv cs.LG (@Shijin Gong, Erhan Xu, Kai Ye, Francesco Quinzan, Giulia Livieri, Chengchun Shi)原文 ↗

BASIS 是一种无需评论家的后训练算法，通过单次采样每个提示的轨迹，并利用整个批次中跨提示的信息共享来改进价值函数估计。实验表明，与单次采样的 REINFORCE++ 基线相比，BASIS 将价值函数估计的均方误差降低了 69%，且单次采样的 MSE 低于 8 次采样的组均值估计器。这种改进带来了更好的策略优化：BASIS 用更少的训练时间达到了接近多采样 GRPO 型基线的性能，并常优于单采样 REINFORCE 型基线。该工作解决了强化学习在计算效率与样本效率之间的权衡问题。

FineVLA：细粒度指令对齐实现可操控的视觉-语言-动作策略

X·KOLX：arXiv cs.AI (@Xintong Hu, Xuhong Huang, Jinyu Zhang, Yutong Yao, Yuchong Sun, Qiuyue Wang, Mingsheng Li, Sicheng Xie, Yitao Liu, Junhao Chen, Yixuan Chen, Yingming Zheng, Shuai Bai, Tao Yu)原文 ↗

现有机器人数据集通常只提供粗粒度的目标级语言描述，缺乏执行细节（如活动臂、接近方向、接触区域），限制了策略的可操控性。FineVLA 提出了一个开放框架，包括数据构建工具、细粒度数据集 FineVLA-Data（47,159 条轨迹）、基准测试、专用 VLM 标注器和可操控策略。实验表明，细粒度监督不仅不牺牲目标级成功率，还能提升 1.4-8.1 个百分点，且与粗粒度指令互补，最佳混合比例（FG:Raw=1:2 至 1:1）在仿真和真实场景中均取得最高性能。细粒度监督在姿态、颜色和接近方向等关键因素上带来最大真实世界增益，建议用细粒度语言补充目标级指令。

技巧与观点

Tips & Takes

3 篇

199

今日事件

一手报道

新模型

信源

AITOP日报