EAGLE 3.1 发布:修复 LLM 推理中的注意力漂移问题
EAGLE 团队联合 vLLM 和 TorchSpec 发布了 EAGLE 3.1,旨在解决生产环境中推测解码的不稳定性。该算法通过修复注意力漂移问题,提升了 LLM 推理的效率和可靠性。EAGLE 3.1 针对大规模部署场景优化,减少了推理延迟和资源消耗。这一更新对于需要高性能 LLM 推理的团队具有重要意义。
EAGLE 团队联合 vLLM 和 TorchSpec 发布了 EAGLE 3.1,旨在解决生产环境中推测解码的不稳定性。该算法通过修复注意力漂移问题,提升了 LLM 推理的效率和可靠性。EAGLE 3.1 针对大规模部署场景优化,减少了推理延迟和资源消耗。这一更新对于需要高性能 LLM 推理的团队具有重要意义。
Stability AI 发布了 Stable Audio 3,一个用于乐器音乐和音效生成的潜在扩散模型家族。该版本包含小型和中等变体的开源权重。小型模型可在 MacBook Pro M4 CPU 上运行,中等模型适配 8GB VRAM 的消费级 GPU。两者均通过三阶段训练流程(流匹配、蒸馏预热、对抗后训练)生成 44.1 kHz 立体声音频。在 BBC 音效基准测试中,SA3 中等模型在 5 秒片段上取得 FAD 0.369 的分数,低于论文中评估的所有开源基线。
DeepSWE 是一个新的软件工程/智能体基准测试,包含 113 个任务,覆盖 91 个仓库和 5 种编程语言。其评估框架 mini-swe-agent 为每个模型提供单一的 bash 工具和相同的系统指令,没有厂商自定义原语。评估提示比 SWE-Bench Pro 更短,但平均需要修改 5.5 倍以上的代码和 7 个文件,旨在模拟开发者与智能体对话的真实方式。初步结果显示,Claude Opus 比 Claude Code 高 10 个百分点,Gemini 3.1 Pro 比 Gemini CLI 高 20 个百分点。该基准强调指令遵循能力,可能对探索型模型不利。
英伟达团队发布 PiD(像素扩散解码器)图像生成技术,将潜在解码与上采样合并为一个生成模块,在消费级 RTX 5090 上仅需 13GB 显存、不到 1 秒即可将 512×512 潜变量解码放大至 2048×2048 像素。PiD 基于 PixelDiT 构建,加入轻量级 ControlNet 适配器,并通过 DMD2 蒸馏将推理步数压缩至 4 步,配合早停机制兼顾速度与质量。相比级联式扩散超分方案,端到端延迟最多快 5.9 倍,视觉保真度更优。该技术兼容传统 VAE 和语义潜变量(如 SigLIP、DINOv2),具备较强通用性。
腾讯HY实验室联合四家机构发布Chronicles-OCR基准测试,专门评估AI对3000年中国古文字的识别能力。测试包含2800张专家标注图像,覆盖甲骨文、金文、篆书等七大类古文字。结果显示28个前沿多模态模型全部失败,最强模型在甲骨文上仅14%准确率,GPT-5和Gemini 2.5 Pro接近0。更反直觉的是,开启推理模式反而降低表现,模型实际依赖载体(如龟壳、青铜器)而非文字本身进行分类。该测试揭示了AI在文化遗产领域的巨大挑战。
竞争法专家进行法律研究时需审查大量案例和判决,现有通用助手(如Claude、ChatGPT)或法律助手(如SaulLM-7B、LegalGPT)缺乏领域专长,易产生幻觉或引用不足。研究者提出Maat,一个基于ReAct框架的智能体,通过RAG确保引用可靠性,支持网络搜索回退和模糊查询澄清。在案例特定任务上,Maat显著优于所有基线助手,在理论问题任务上接近最佳水平。相关数据集已在GitHub开源。
Perplexity AI 开源了其重构的 Unigram 分词器,该分词器将 CPU 利用率降低了 5-6 倍。由于小型重排序器和嵌入器在 GPU 上只需个位数毫秒即可运行,CPU 分词延迟成为总延迟中的重要部分。这一优化显著减少了推理过程中的 CPU 瓶颈,尤其适合需要低延迟的实时 AI 应用。开源代码已在 GitHub 上发布,供开发者使用和贡献。
Anthropic 在博客中详细介绍了他们如何为 Claude 的不同产品(claude.ai、Claude Code、Cowork)设计安全边界,以控制智能体能力增长带来的潜在风险。文章从工程角度探讨了“爆炸半径”的概念,即智能体可能造成最大损害的范围,并分享了通过权限隔离、沙箱执行、行为监控等机制来限制这一半径的实践经验。这些方法旨在确保 Claude 在变得更强大时,仍能安全地服务于用户,避免意外或恶意使用导致的严重后果。对于关注 AI 安全与可靠性的开发者和团队,这篇文章提供了实用的工程思路。
微软开源了 Webwright,一个终端原生的 Web Agent 框架,核心设计是“代码即动作”——让 LLM 直接编写 Playwright 脚本,将网页操作转化为可运行的 Python 程序。该框架在 Online-Mind2Web 和 Odysseys 基准测试中达到 SOTA 水平,架构极简,仅约 1000 行代码,无隐藏编排层。Webwright 已集成 Claude Code 和 OpenAI Codex 插件,支持任务完成后自动渲染为 HTML 应用(Task2UI 模式)。其脚本可复用、可审计,适合需要稳定浏览器自动化的开发者和团队。
这篇文章指出了当前大多数 AI 智能体 SDK 存在的五个常见问题,并介绍了 ADK(Agent Development Kit)如何解决这些问题。这些问题包括:过度复杂的配置、缺乏可扩展性、对多模态支持不足、调试困难以及性能瓶颈。ADK 通过简化 API、提供模块化架构、原生多模态支持、内置调试工具和优化性能来应对这些挑战。对于正在构建或计划构建 AI 智能体的开发者来说,这篇文章提供了实用的改进方向。
Anthropic 基于 Claude AI、Claude Code、Claude Cowork 三款产品的工程实践,总结了一套 Agent 安全实战经验。核心设计原则强调先环境层后模型层,隔离强度需匹配用户监督能力,警惕自建组件,出站白名单应视为能力授权。文章分析了用户误用、模型行为失当、外部攻击三种风险类型,并提出了环境层、模型层、外部内容层三层防御架构。通过真实攻击案例(如信任对话框前的代码执行漏洞、用户作为注入向量的钓鱼攻击、通过已批准域名的数据外泄),揭示了仅靠模型层无法防御用户本人指令,环境防御才是最后防线。未来风险方向包括持久化内存污染、多 Agent 信任升级和 Agent 身份问题。
华为提出名为「LogicFolding」的芯片设计新思路,通过将数字、模拟和存储电路垂直堆叠,缩短信号传输距离,从而减少延迟。其核心理念是「τ scaling」——不再只追求晶体管尺寸缩小,而是关注时间损耗。LogicFolding 将关键路径折叠到另一有源层,缩短导线、降低寄生延迟、收紧时钟偏差,无需改变工艺节点即可提升频率。这并非简单的 3D 封装,而是将拓扑结构作为新的缩放工具,为后光刻时代的芯片性能提升提供了新路径。
高通宣布与字节跳动达成AI芯片供应协议,将向字节跳动数据中心提供数百万颗ASIC芯片,专门用于支持AI智能体工作负载。此举标志着高通正从移动芯片领域向云基础设施多元化拓展。该合作预计于2026年5月开始交付,将帮助字节跳动提升其AI服务的计算能力。
YC 在过去一年构建了内部智能体基础设施,包含超过 350 个工具、自改进技能循环和共享组织大脑。关键突破是给智能体无限制访问一个数据库,这改变了 AI 的应用方式。YC 认为我们已进入 AI 的个人电脑时刻,智能体将像个人电脑一样普及。该基础设施已解决财务团队的实际问题,并持续通过记录所有操作来提升智能。
Anthropic的Mythos模型在curl代码库中发现1个真实漏洞,而中国360团队的安全代理在OpenClaw生态中独立发现23个漏洞,包括远程代码执行和提示注入绕过。这表明AI安全的核心问题已从模型能否找到漏洞,转向代理的运行时行为——代码、提示、工具、本地服务和权限在系统触及文件、打开端口或运行命令前的交互。对于构建代理的开发者,理解这些运行时风险至关重要。
离散扩散模型在文本和符号领域表现优异,但均匀率模型生成样本时通常需要大量步骤。现有加速方法要么需要额外训练,要么混合速度慢。本文提出Gibbs加速离散扩散(GADD),利用具体分数函数结构直接构建Gibbs后验似然,无需额外训练。GADD实现了O(polylog(ε^{-1}))的采样复杂度,是均匀率离散扩散模型的首个此类理论保证。实验表明,GADD在合成数据、零样本文本生成和条件音乐生成中,显著提升了样本质量和计算效率,优于标准基线方法。
Falcon-X 是一种新型时间序列基础模型,解决了现有模型在跨变量建模中语义对齐和关系表达能力的不足。它通过将变量映射到统一的潜在原型空间,并采用统一原型差异注意力机制,显式评估正负语义亲和度,从而对齐异构物理量。该模型还通过潜在实体注意力在共享空间中高效进行跨变量交互,并通过变量重组路由器稳健重建特定变量轨迹。在 GIFT-Eval 和 fev-bench 基准测试中,Falcon-X 达到了最先进的预测性能,为复杂多变量环境提供了可扩展的范式。该模型已公开发布,以支持未来研究。
BASIS 是一种无需评论家的后训练算法,通过单次采样每个提示的轨迹,并利用整个批次中跨提示的信息共享来改进价值函数估计。实验表明,与单次采样的 REINFORCE++ 基线相比,BASIS 将价值函数估计的均方误差降低了 69%,且单次采样的 MSE 低于 8 次采样的组均值估计器。这种改进带来了更好的策略优化:BASIS 用更少的训练时间达到了接近多采样 GRPO 型基线的性能,并常优于单采样 REINFORCE 型基线。该工作解决了强化学习在计算效率与样本效率之间的权衡问题。
现有机器人数据集通常只提供粗粒度的目标级语言描述,缺乏执行细节(如活动臂、接近方向、接触区域),限制了策略的可操控性。FineVLA 提出了一个开放框架,包括数据构建工具、细粒度数据集 FineVLA-Data(47,159 条轨迹)、基准测试、专用 VLM 标注器和可操控策略。实验表明,细粒度监督不仅不牺牲目标级成功率,还能提升 1.4-8.1 个百分点,且与粗粒度指令互补,最佳混合比例(FG:Raw=1:2 至 1:1)在仿真和真实场景中均取得最高性能。细粒度监督在姿态、颜色和接近方向等关键因素上带来最大真实世界增益,建议用细粒度语言补充目标级指令。
一位用户分享了如何利用Codex的对话记录与执行日志进行系统性复盘,提炼出可复用的经验文档。提示词要求Codex阅读所有历史记录,总结执行经验、个人偏好与理念,并形成结构化规则清单。最终文档保存为独立文件,并在.agent配置中引用,使后续所有Codex会话默认继承这些经验,无需重复说明。这种方法能显著提升AI编程助手的个性化与效率,适合深度使用Codex的开发者。
一位开发者分享了通过并发运行10个Agent,从YouTube多个TOP级视频中提取提示词、方法论和小技巧的经验。该项目去除了原项目中一些无聊的提示词,新增了生成美女的提示词和创意提示词。作者建议用户拉取最新主分支代码,并预告明天将掘金𝕏平台。开源地址已提供,鼓励用户star。
GENESIS是一个AI智能体框架,旨在解决6G无线接入网(RAN)研发中六个结构性瓶颈,包括从标准合成代码、一致性测试、现场异常处理、数据驱动优化、新波形原型设计到安全加固。传统LLM在RAN场景中会幻觉API、误读规范,且依赖仿真导致硬件迁移失败。GENESIS通过三个可组合原语(智能体、技能、钩子)和持久知识层SYNAPSE,将意图(如规范条款、遥测异常)转化为经过空中实验验证的解决方案,并回馈到知识库。该框架使能力随运行次数累积,显著压缩R&D周期。