VOL.2026.05.27·199 STORIES·AITOP DAILY

AITOP日报

二〇二六年五月二十七日 星期三DAILY · 每早八时
01

模型发布/更新

Model Releases
5

EAGLE 3.1 发布:修复 LLM 推理中的注意力漂移问题

X·KOLX:marktechpost (@Michal Sutter)

EAGLE 团队联合 vLLM 和 TorchSpec 发布了 EAGLE 3.1,旨在解决生产环境中推测解码的不稳定性。该算法通过修复注意力漂移问题,提升了 LLM 推理的效率和可靠性。EAGLE 3.1 针对大规模部署场景优化,减少了推理延迟和资源消耗。这一更新对于需要高性能 LLM 推理的团队具有重要意义。

Stability AI 发布 Stable Audio 3:快速潜在扩散模型家族

X·KOLX:marktechpost (@Asif Razzaq)

Stability AI 发布了 Stable Audio 3,一个用于乐器音乐和音效生成的潜在扩散模型家族。该版本包含小型和中等变体的开源权重。小型模型可在 MacBook Pro M4 CPU 上运行,中等模型适配 8GB VRAM 的消费级 GPU。两者均通过三阶段训练流程(流匹配、蒸馏预热、对抗后训练)生成 44.1 kHz 立体声音频。在 BBC 音效基准测试中,SA3 中等模型在 5 秒片段上取得 FAD 0.369 的分数,低于论文中评估的所有开源基线。

DeepSWE 基准发布:113 个任务覆盖 5 种语言,Claude Opus 超 Claude Code 10 个百分点

X·KOLX:Philipp Schmid (@_philschmid)

DeepSWE 是一个新的软件工程/智能体基准测试,包含 113 个任务,覆盖 91 个仓库和 5 种编程语言。其评估框架 mini-swe-agent 为每个模型提供单一的 bash 工具和相同的系统指令,没有厂商自定义原语。评估提示比 SWE-Bench Pro 更短,但平均需要修改 5.5 倍以上的代码和 7 个文件,旨在模拟开发者与智能体对话的真实方式。初步结果显示,Claude Opus 比 Claude Code 高 10 个百分点,Gemini 3.1 Pro 比 Gemini CLI 高 20 个百分点。该基准强调指令遵循能力,可能对探索型模型不利。

英伟达 PiD 图像生成技术:13GB 显存跑通,210ms 生成 2048×2048 图像

官方IT之家

英伟达团队发布 PiD(像素扩散解码器)图像生成技术,将潜在解码与上采样合并为一个生成模块,在消费级 RTX 5090 上仅需 13GB 显存、不到 1 秒即可将 512×512 潜变量解码放大至 2048×2048 像素。PiD 基于 PixelDiT 构建,加入轻量级 ControlNet 适配器,并通过 DMD2 蒸馏将推理步数压缩至 4 步,配合早停机制兼顾速度与质量。相比级联式扩散超分方案,端到端延迟最多快 5.9 倍,视觉保真度更优。该技术兼容传统 VAE 和语义潜变量(如 SigLIP、DINOv2),具备较强通用性。

腾讯Chronicles-OCR基准测试:AI识别3000年中国古文字全军覆没

X·KOLX:berryxia (@berryxia)

腾讯HY实验室联合四家机构发布Chronicles-OCR基准测试,专门评估AI对3000年中国古文字的识别能力。测试包含2800张专家标注图像,覆盖甲骨文、金文、篆书等七大类古文字。结果显示28个前沿多模态模型全部失败,最强模型在甲骨文上仅14%准确率,GPT-5和Gemini 2.5 Pro接近0。更反直觉的是,开启推理模式反而降低表现,模型实际依赖载体(如龟壳、青铜器)而非文字本身进行分类。该测试揭示了AI在文化遗产领域的巨大挑战。

02

产品发布/更新

Product
5

Maat:专为竞争法设计的智能法律研究助手

X·KOLX:arXiv cs.AI (@Basant Mounir, Farida Madkour, Amira Abdelaziz, Asmaa Sami)

竞争法专家进行法律研究时需审查大量案例和判决,现有通用助手(如Claude、ChatGPT)或法律助手(如SaulLM-7B、LegalGPT)缺乏领域专长,易产生幻觉或引用不足。研究者提出Maat,一个基于ReAct框架的智能体,通过RAG确保引用可靠性,支持网络搜索回退和模糊查询澄清。在案例特定任务上,Maat显著优于所有基线助手,在理论问题任务上接近最佳水平。相关数据集已在GitHub开源。

Perplexity 开源 Unigram 分词器,CPU 利用率降低 5-6 倍

X·KOLX:Perplexity (@perplexity_ai)

Perplexity AI 开源了其重构的 Unigram 分词器,该分词器将 CPU 利用率降低了 5-6 倍。由于小型重排序器和嵌入器在 GPU 上只需个位数毫秒即可运行,CPU 分词延迟成为总延迟中的重要部分。这一优化显著减少了推理过程中的 CPU 瓶颈,尤其适合需要低延迟的实时 AI 应用。开源代码已在 GitHub 上发布,供开发者使用和贡献。

Anthropic 分享如何跨产品限制 Claude 的“爆炸半径”

官方Anthropic: Engineering

Anthropic 在博客中详细介绍了他们如何为 Claude 的不同产品(claude.ai、Claude Code、Cowork)设计安全边界,以控制智能体能力增长带来的潜在风险。文章从工程角度探讨了“爆炸半径”的概念,即智能体可能造成最大损害的范围,并分享了通过权限隔离、沙箱执行、行为监控等机制来限制这一半径的实践经验。这些方法旨在确保 Claude 在变得更强大时,仍能安全地服务于用户,避免意外或恶意使用导致的严重后果。对于关注 AI 安全与可靠性的开发者和团队,这篇文章提供了实用的工程思路。

微软发布终端原生 Web Agent 框架 Webwright

X·KOLX:shao__meng (@shao__meng)

微软开源了 Webwright,一个终端原生的 Web Agent 框架,核心设计是“代码即动作”——让 LLM 直接编写 Playwright 脚本,将网页操作转化为可运行的 Python 程序。该框架在 Online-Mind2Web 和 Odysseys 基准测试中达到 SOTA 水平,架构极简,仅约 1000 行代码,无隐藏编排层。Webwright 已集成 Claude Code 和 OpenAI Codex 插件,支持任务完成后自动渲染为 HTML 应用(Task2UI 模式)。其脚本可复用、可审计,适合需要稳定浏览器自动化的开发者和团队。

5 things most AI agent SDKs get wrong — and how ADK fixes them

X·KOLX:AI Notkilleveryone (@ai_zona)

这篇文章指出了当前大多数 AI 智能体 SDK 存在的五个常见问题,并介绍了 ADK(Agent Development Kit)如何解决这些问题。这些问题包括:过度复杂的配置、缺乏可扩展性、对多模态支持不足、调试困难以及性能瓶颈。ADK 通过简化 API、提供模块化架构、原生多模态支持、内置调试工具和优化性能来应对这些挑战。对于正在构建或计划构建 AI 智能体的开发者来说,这篇文章提供了实用的改进方向。

03

行业动态

Industry
5

Anthropic 实战总结:Claude AI/Code/Cowork 的 Agent 安全三层防御

X·KOLX:shao__meng (@shao__meng)

Anthropic 基于 Claude AI、Claude Code、Claude Cowork 三款产品的工程实践,总结了一套 Agent 安全实战经验。核心设计原则强调先环境层后模型层,隔离强度需匹配用户监督能力,警惕自建组件,出站白名单应视为能力授权。文章分析了用户误用、模型行为失当、外部攻击三种风险类型,并提出了环境层、模型层、外部内容层三层防御架构。通过真实攻击案例(如信任对话框前的代码执行漏洞、用户作为注入向量的钓鱼攻击、通过已批准域名的数据外泄),揭示了仅靠模型层无法防御用户本人指令,环境防御才是最后防线。未来风险方向包括持久化内存污染、多 Agent 信任升级和 Agent 身份问题。

华为新突破「LogicFolding」:用时间换空间,缩小与台积电差距

X·KOLX:rohanpaul_ai (@rohanpaul_ai)

华为提出名为「LogicFolding」的芯片设计新思路,通过将数字、模拟和存储电路垂直堆叠,缩短信号传输距离,从而减少延迟。其核心理念是「τ scaling」——不再只追求晶体管尺寸缩小,而是关注时间损耗。LogicFolding 将关键路径折叠到另一有源层,缩短导线、降低寄生延迟、收紧时钟偏差,无需改变工艺节点即可提升频率。这并非简单的 3D 封装,而是将拓扑结构作为新的缩放工具,为后光刻时代的芯片性能提升提供了新路径。

高通与字节跳动签署AI芯片协议,为数据中心智能体提供算力

X·KOLX:Pandaily (@contact@pandaily.com (Pandaily))

高通宣布与字节跳动达成AI芯片供应协议,将向字节跳动数据中心提供数百万颗ASIC芯片,专门用于支持AI智能体工作负载。此举标志着高通正从移动芯片领域向云基础设施多元化拓展。该合作预计于2026年5月开始交付,将帮助字节跳动提升其AI服务的计算能力。

YC 内部智能体基础设施:350+ 工具与自改进技能循环

X·KOLX:Y Combinator (@ycombinator)

YC 在过去一年构建了内部智能体基础设施,包含超过 350 个工具、自改进技能循环和共享组织大脑。关键突破是给智能体无限制访问一个数据库,这改变了 AI 的应用方式。YC 认为我们已进入 AI 的个人电脑时刻,智能体将像个人电脑一样普及。该基础设施已解决财务团队的实际问题,并持续通过记录所有操作来提升智能。

Agent时代AI安全:运行时行为比找漏洞更关键

X·KOLX:rohanpaul_ai (@rohanpaul_ai)

Anthropic的Mythos模型在curl代码库中发现1个真实漏洞,而中国360团队的安全代理在OpenClaw生态中独立发现23个漏洞,包括远程代码执行和提示注入绕过。这表明AI安全的核心问题已从模型能否找到漏洞,转向代理的运行时行为——代码、提示、工具、本地服务和权限在系统触及文件、打开端口或运行命令前的交互。对于构建代理的开发者,理解这些运行时风险至关重要。

04

论文研究

Research
4

GADD:基于Gibbs校正器的均匀率离散扩散模型加速方法

X·KOLX:arXiv cs.LG (@Yuchen Liang, Ness Shroff, Yingbin Liang)

离散扩散模型在文本和符号领域表现优异,但均匀率模型生成样本时通常需要大量步骤。现有加速方法要么需要额外训练,要么混合速度慢。本文提出Gibbs加速离散扩散(GADD),利用具体分数函数结构直接构建Gibbs后验似然,无需额外训练。GADD实现了O(polylog(ε^{-1}))的采样复杂度,是均匀率离散扩散模型的首个此类理论保证。实验表明,GADD在合成数据、零样本文本生成和条件音乐生成中,显著提升了样本质量和计算效率,优于标准基线方法。

Falcon-X:面向异构多变量建模的时间序列基础模型

X·KOLX:arXiv cs.AI (@Yiding Liu, Yifan Hu, Hongjie Xia, Peiyuan Liu, Hongzhou Chen, Xilin Dai, Zewei Dong, Jiang-Ming Yang)

Falcon-X 是一种新型时间序列基础模型,解决了现有模型在跨变量建模中语义对齐和关系表达能力的不足。它通过将变量映射到统一的潜在原型空间,并采用统一原型差异注意力机制,显式评估正负语义亲和度,从而对齐异构物理量。该模型还通过潜在实体注意力在共享空间中高效进行跨变量交互,并通过变量重组路由器稳健重建特定变量轨迹。在 GIFT-Eval 和 fev-bench 基准测试中,Falcon-X 达到了最先进的预测性能,为复杂多变量环境提供了可扩展的范式。该模型已公开发布,以支持未来研究。

BASIS:单次采样批量化优势估计,提升LLM推理强化学习效率

X·KOLX:arXiv cs.LG (@Shijin Gong, Erhan Xu, Kai Ye, Francesco Quinzan, Giulia Livieri, Chengchun Shi)

BASIS 是一种无需评论家的后训练算法,通过单次采样每个提示的轨迹,并利用整个批次中跨提示的信息共享来改进价值函数估计。实验表明,与单次采样的 REINFORCE++ 基线相比,BASIS 将价值函数估计的均方误差降低了 69%,且单次采样的 MSE 低于 8 次采样的组均值估计器。这种改进带来了更好的策略优化:BASIS 用更少的训练时间达到了接近多采样 GRPO 型基线的性能,并常优于单采样 REINFORCE 型基线。该工作解决了强化学习在计算效率与样本效率之间的权衡问题。

FineVLA:细粒度指令对齐实现可操控的视觉-语言-动作策略

X·KOLX:arXiv cs.AI (@Xintong Hu, Xuhong Huang, Jinyu Zhang, Yutong Yao, Yuchong Sun, Qiuyue Wang, Mingsheng Li, Sicheng Xie, Yitao Liu, Junhao Chen, Yixuan Chen, Yingming Zheng, Shuai Bai, Tao Yu)

现有机器人数据集通常只提供粗粒度的目标级语言描述,缺乏执行细节(如活动臂、接近方向、接触区域),限制了策略的可操控性。FineVLA 提出了一个开放框架,包括数据构建工具、细粒度数据集 FineVLA-Data(47,159 条轨迹)、基准测试、专用 VLM 标注器和可操控策略。实验表明,细粒度监督不仅不牺牲目标级成功率,还能提升 1.4-8.1 个百分点,且与粗粒度指令互补,最佳混合比例(FG:Raw=1:2 至 1:1)在仿真和真实场景中均取得最高性能。细粒度监督在姿态、颜色和接近方向等关键因素上带来最大真实世界增益,建议用细粒度语言补充目标级指令。

05

技巧与观点

Tips & Takes
3

用Codex自我复盘生成经验文档,自动继承到后续会话

X·KOLX:向阳乔木 (@vista8)

一位用户分享了如何利用Codex的对话记录与执行日志进行系统性复盘,提炼出可复用的经验文档。提示词要求Codex阅读所有历史记录,总结执行经验、个人偏好与理念,并形成结构化规则清单。最终文档保存为独立文件,并在.agent配置中引用,使后续所有Codex会话默认继承这些经验,无需重复说明。这种方法能显著提升AI编程助手的个性化与效率,适合深度使用Codex的开发者。

并发10个Agent掘金YouTube:提取提示词、方法论和小技巧

X·KOLX:岚叔 (@lufzzliz)

一位开发者分享了通过并发运行10个Agent,从YouTube多个TOP级视频中提取提示词、方法论和小技巧的经验。该项目去除了原项目中一些无聊的提示词,新增了生成美女的提示词和创意提示词。作者建议用户拉取最新主分支代码,并预告明天将掘金𝕏平台。开源地址已提供,鼓励用户star。

GENESIS:AI智能体实现6G RAN自主合成与测试

X·KOLX:arXiv cs.AI (@Tamerlan Aghayev, Maxime Elkael, Michele Polese, Minh Dat Nguyen, Gabriele Gemmi, Andrea Lacava, Ali Saeizadeh, Reshma Prasad, Paolo Testolina, Angelo Feraudo, Soumendra Nanda, Pedram Johari, Salvatore D'Oro, Tommaso Melodia)

GENESIS是一个AI智能体框架,旨在解决6G无线接入网(RAN)研发中六个结构性瓶颈,包括从标准合成代码、一致性测试、现场异常处理、数据驱动优化、新波形原型设计到安全加固。传统LLM在RAN场景中会幻觉API、误读规范,且依赖仿真导致硬件迁移失败。GENESIS通过三个可组合原语(智能体、技能、钩子)和持久知识层SYNAPSE,将意图(如规范条款、遥测异常)转化为经过空中实验验证的解决方案,并回馈到知识库。该框架使能力随运行次数累积,显著压缩R&D周期。

199
今日事件
55
一手报道
21
新模型
52
信源
AITOP · 编辑系统自动生成