全部 AI 动态 · AI 热点

6月1日

10:36

arXiv cs.AI@Qing Wang, Jacob Devasier, Chengkai Li

本文首次系统研究了掩码扩散语言模型（MDLM）在图到文本生成中的解码轨迹，发现MDLM会优先解码实体，然后是关系词和功能词，最后才是结构词，这与自回归模型的线性生成方式不同。研究还发现监督微调（SFT）会破坏这一策略，过早固定结构词导致输出长度固定，引发信息遗漏或幻觉。为此，作者提出了一种无需训练的推理时修改方法——lambda缩放结构解码，将BLEU-4提升9.4分。最后，他们提出了Graph-LLaDA，将图Transformer编码器集成到LLaDA的解码过程中，显式利用关系图结构。跨数据集评估表明，基于LLM和MDLM的方法泛化能力显著优于传统基线。

论文扩散模型图到文本生成解码轨迹 Graph-LLaDA SFT

推荐理由：这篇论文揭示了扩散模型在图到文本任务中的独特解码机制，做结构化文本生成或知识图谱相关工作的开发者值得关注，尤其是SFT反而有害的发现可能改变你的微调策略。

原文

10:35

arXiv cs.AI@Eric Liang

SPECTRA 是一个可复现的框架，用于生成合成文本语料库和检索测试集，通过分离潜在主题结构、表面文本实现、元数据控制、查询意图生成和确定性相关性预言，解决了人工标注成本高、文档隐私或设计阶段不可用的问题。该框架旨在作为 Cranfield 和 TREC 风格评估的诊断补充，而非替代。单进程 Python 原型生成了多达 6 万文档和 961 万 token 的语料库，保持可控的长尾词汇增长，并为 96 个查询生成分级相关性标签。实验显示，生成速度接近线性（每秒约 1.2 万至 1.4 万文档），估计的 Zipf 斜率绝对值接近 0.86，增加跨主题干扰文本使 BM25 nDCG@10 从 2% 干扰时的 1.00 降至 36% 干扰时的 0.43。这些结果表明，轻量级合成语料库可以在昂贵的人工构建之前暴露检索系统的扩展性和故障模式。

论文信息检索合成数据评估框架相关性预言干扰诊断

推荐理由：做信息检索评估的团队终于有了低成本诊断工具——SPECTRA 用合成数据暴露系统瓶颈，比等人工标注快得多，做检索系统测试的开发者建议试试。

原文

10:34

arXiv cs.AI@Albert Sadowski, Jarosław A. Chudziak

论文提出上下文依赖论证框架（CDAFs），扩展了Dung的论证理论，允许根据外部环境（上下文）动态决定哪些攻击有效。通过视角标记的特殊化，从相关性集合和优先级推导出击败函数，其中相关性集合是智能体的行动空间。在小型示例中，智能体的目标论证在完全相关注入优先级下被拒绝，但在部分激活下被接受，且部分激活无法被任何VAF受众镜像。定义了对应的决策问题ACTIVATION-MANIPULATION，并给出了基线复杂度界限。该工作为理解智能体如何通过选择激活视角来战略性地影响论证结果提供了新框架。

论文论证框架上下文依赖战略激活 Dung理论 ACTIVATION-MANIPULATION

推荐理由：做论证推理或AI对齐的团队会感兴趣——CDAFs让智能体通过选择激活哪些视角来操控论证结果，比传统框架更贴近现实博弈，值得关注其复杂度界限和未来多智能体扩展。

原文

10:32

arXiv cs.AI@Wesley Scivetti, Ethan Wilcox, Nathan Schneider, Kanishka Misra, Leonie Weissweiler

精选

研究聚焦英语中罕见的配对焦点结构（如“let alone”、“much less”），构建新数据集测试模型对其语义的理解。发现中等规模开源模型能掌握这些结构的语义，但仅靠人类规模数据训练的模型失败。语义理解在训练后期出现，晚于句法知识，且与常识知识提升相关。结果表明，开源模型也能理解罕见构式，且其学习与常识知识关联。

论文 LLM 语义理解罕见构式配对焦点结构开源模型

推荐理由：这项研究揭示了开源模型也能掌握罕见句式的语义，做 NLP 或语言学研究的开发者可以关注其训练动态与常识知识的关系，对理解模型能力边界有启发。

原文

10:31

arXiv cs.AI@Ruotong Liao, Guowen Huang, Qing Cheng, Guangyao Zhai, Lei Zhang, Xun Xiao, Thomas Seidl, Daniel Cremers, Volker Tresp

TunerDiT 提出了一种无需额外训练的多事件视频生成方法，通过分析扩散变换器（DiT）的去噪轨迹，发现文本条件从全局布局到细节的转变点。该方法包含两个关键组件：事件分区掩码（强制事件边界并允许过渡带）和跨事件提示融合（注入相邻事件语义进行后期细化）。在自建的多事件基准测试 Meve 上，TunerDiT 在 8 个指标上达到最优，并能在视频一致性和事件分离之间进行可调权衡。随着事件数量增加，文本对齐性能提升，显示出扩展潜力。

论文扩散模型视频生成多事件生成 DiT 无需训练

推荐理由：做视频生成的研究者或开发者，如果被长视频多事件生成的一致性困扰，TunerDiT 的零训练方案直接可用，值得关注其事件边界控制与提示融合的设计。

原文

10:30

arXiv cs.AI@Davis Brown, Samarth Bhargav, Arav Santhanam, Kasper Hong, Ivan Zhang, Matan Shtepel, Steffi Chern, Alexander Robey, Eric Wong, Hamed Hassani

76°

论文指出，当前安全监控器仅对单个智能体上下文评分，无法检测跨多个账户的分布式攻击。研究者首次构建了分布式智能体攻击，将有害目标分散到多个子智能体中，成功规避了标准监控器。为防御此类攻击，他们开发了在线状态监控器，通过实时聚类收集跨多个智能体转录的弱可疑信号，仅在必要时升级到语言模型进行跨账户标记。在模拟数据中心流量测试中，该监控器比标准监控器提前30%捕获分布式攻击，且对99%的用户流量几乎无额外延迟。防御优势在大规模良性流量下有所减弱，但意外发现也能捕获标准越狱攻击。

论文分布式攻击安全监控智能体在线聚类越狱检测

推荐理由：这篇论文解决了AI安全监控的结构性盲区——分布式攻击，做安全防御的团队值得关注，它展示了如何通过跨用户推理来提前捕获恶意行为。

原文

10:29

arXiv cs.AI@Jiazheng Xing, Hangjie Yuan, Lingling Cai, Xinyu Liu, Yujie Wei, Fei Du, Hai Ci, Tao Feng, Jiasheng Tang, Weihua Chen, Fan Wang, Yong Liu

Lumos-Nexus 是一种训练高效的统一视频生成框架，解决了将高保真生成器集成到统一训练循环中计算成本过高的问题。它采用两阶段设计：训练时仅用轻量级生成器与理解模块对齐，学习推理驱动的语义控制；推理时通过统一渐进频率桥接（UPFB）在共享潜在空间中将生成任务逐步交给高容量预训练生成器，实现从粗到细的优化，生成高保真视频而不牺牲推理质量。为填补推理驱动视频生成基准的空白，团队引入了 VR-Bench 评估模型将推断意图转化为连贯视频的能力。实验表明，Lumos-Nexus 在 VBench 上显著提升了视觉真实感和时间连贯性，在 VR-Bench 上展示了强大的推理生成性能。代码和模型已开源。

论文视频生成统一模型推理驱动频率桥接开源/仓库

推荐理由：视频生成领域终于有了兼顾推理能力和视觉保真度的方案，做视频理解与生成统一模型的团队可以直接参考其两阶段设计，省去大量训练成本。

原文

10:28

arXiv cs.LG@Brady Exoo, Alberto Bietti, John Sous

这篇论文通过变量赋值和模加法任务，研究了 Transformer 如何实现组合泛化。作者将训练数据划分为不相交集合，发现小型 Transformer 能泛化到未见过的变量与数字组合。机制分析显示，无论输入是直接给出还是通过变量赋值间接给出，模型都使用相同的“模加法”MLP 模块。训练动力学分析揭示了三个阶段：先学习模加法，再学习变量赋值结构，最后精炼阶段泛化到困难序列。理论框架解释了组合性如何从训练动力学中自然涌现。

论文 Transformer 组合泛化机制分析模加法训练动力学

推荐理由：这篇论文用简洁的实验揭示了 Transformer 组合泛化的内部机制，对理解大模型如何组合技能有启发意义，做可解释性或模型架构研究的读者值得一看。

原文

10:27

arXiv cs.LG@Daniel Peñaherrera, Rishal Aggarwal, David Ryan Koes

计算化学中高效采样分子玻尔兹曼分布是一个长期挑战。传统方法计算成本高，而基于扩散模型的退火采样方法需要计算分数场的散度来估计重要性权重，对于大分子系统不可行。本文提出可扩展推理时退火（SITA），通过能量模型提供快速替代似然，重新训练流模型以逐步在更低温度下生成样本。在丙氨酸二肽和三肽上取得最先进性能，且避免了昂贵的散度项。代码已开源。

论文分子模拟扩散模型退火采样能量模型开源/仓库

推荐理由：SITA 解决了大分子系统退火采样中散度计算不可行的痛点，做计算化学和分子模拟的团队可以直接用开源代码复现，值得关注。

原文

10:26

arXiv cs.LG@Daria Fomina, Daniil Krasylnikov, Alexey Boykov, Andrey Dolgovyazov, Vyacheslav Zhdanovskiy, Fedor Velikonivtsev

图神经网络（GNN）因稀疏、不规则的内存访问而性能受限。该研究从 I/O 和计算强度角度出发，将常用 GNN 层分为三类（SpMM 卷积、归约聚合、注意力层），并为每类开发了减少数据移动、提升局部性的 GPU 内核。实验显示，融合注意力内核在 Graph Transformer 上最高提速 3.9 倍（中位数 1.6 倍），GATv2 最高提速 8.5 倍（中位数 2.0 倍），峰值内存降低最多 76 倍。研究还发现图重排序对邻居并行内核更有效。所有实现作为即插即用替代方案开源，便于复现。

论文 GNN GPU 内核 I/O 优化图神经网络加速

推荐理由：做图神经网络训练或推理的开发者，可以直接用这些内核替换现有层，无需改模型结构就能获得数倍加速和大幅内存节省，值得一试。

原文

10:25

arXiv cs.LG@Arnas Uselis, Darina Koishigarina, Seong Joon Oh

精选

人类能轻松将颜色与形状绑定（如“红色圆形”），但 CLIP 等视觉-语言嵌入模型在多物体场景中无法正确绑定概念，表现为“词袋”行为。研究发现，CLIP 的场景嵌入可加性分解为物体表征，但绑定函数复杂度高，导致图像与文本编码器无法学习共享的绑定机制，难以泛化到未见过的概念组合。通过从头训练的受控 Transformer 模型，作者发现当数据覆盖足够时，模型能学会低复杂度的绑定函数（涉及概念间的乘法交互），实现系统性泛化。该工作揭示了嵌入模型在概念绑定上的根本限制与突破条件，代码已开源。

论文嵌入模型概念绑定 CLIP 泛化 Transformer

推荐理由：做多模态嵌入或视觉-语言模型研究的开发者，这篇论文点出了 CLIP 类模型在概念绑定上的核心瓶颈，并给出了可复现的解决方案，值得深入阅读。

原文

10:24

arXiv cs.LG@Dylan Steiner, Gustavo Arango-Argoty, Gerald Sun, Etai Jacob

多模态肿瘤模型能做出准确预测，但无法判断其是否学到跨模态共享的生物学、单一模态的生物学，还是虚假相关性。研究者提出DECAT，一个模型无关的后验评估框架，通过五个零假设参考指标和规则决策，将多模态表征分为四种诊断场景。在合成数据（2500+训练表征）和真实TCGA数据（8979名患者）上验证，发现CLIP等纠缠模型在检测共享生物学上近乎完美，但在大多数不存在共享生物学的情况下错误声称存在，且错误率随混杂强度增加。DECAT无需知道具体混杂因素，就能检测出AUROC无法发现的混杂。

论文多模态医学AI 评估框架混杂检测 DECAT

推荐理由：做多模态医学AI的团队终于有了判断模型是否学到真实生物学的工具——DECAT能揪出被AUROC掩盖的虚假关联，建议做肿瘤多模态研究的开发者点开看看。

原文

10:23

arXiv cs.LG@Zhikun Xu, Yu Feng, Jacob Dineen, Taiwei Shi, Jieyu Zhao, Ben Zhou

ReuseRL 是一种基于最小描述长度（MDL）原则的强化学习方法，旨在解决大语言模型智能体在强化学习中学习到脆弱、任务特定捷径的问题。该方法从成功轨迹中提取可复用的抽象技能字典，并通过分割成本惩罚编码效率低下的行为，从而鼓励智能体学习更通用、可压缩的行为模式。论文证明了该压缩惩罚的 PAC-Bayes 泛化界，并在 ALFWorld、TextWorld-Cooking 和 Countdown-Stepwise 等基准上，ReuseRL 在分布内和分布外任务上均优于 vanilla GRPO 和强基线方法。这项工作为提升智能体泛化能力提供了新思路，尤其适合需要跨任务迁移的 RL 场景。

论文强化学习智能体技能复用泛化 MDL

推荐理由：ReuseRL 用 MDL 原则解决了智能体 RL 泛化差的痛点，做多任务智能体训练的团队可以直接参考其技能复用机制，提升模型在未见任务上的表现。

原文

10:22

arXiv cs.LG@Elana Simon, Etowah Adams, James Zou

稀疏自编码器（SAE）将神经网络激活分解为可解释特征，但许多学习到的特征从未激活，即“特征死亡”问题，浪费字典容量并可能重新引入叠加。不同模型中特征死亡率差异巨大：GPT-2接近零，而AlphaFold3在相同配置下超过70%。研究发现，维度级激活异常值（维度均值远大于逐token变化）通过初始化时基于特征与激活均值的对齐程度改变预激活值，导致与均值反对齐的特征永久获得负预激活而永不激活。研究者形式化了异常严重程度γ=||μ||/||σ||，该指标在454个模型-层组合（涵盖语言、视觉、蛋白质和基因组模型）中预测初始死亡率（TopK的Spearman ρ=0.89，ReLU的ρ=0.82）。死亡特征可在训练中复活，但需要SAE偏置学习激活均值，在高γ下过程极慢。均值中心化（减去激活均值）可绕过此问题，消除所有测试模型中的异常诱导死亡，为预处理步骤的必要性提供了原理基础。

论文稀疏自编码器特征死亡激活异常值可解释性均值中心化

推荐理由：做可解释性研究或SAE应用的团队，这篇论文直接点出了特征死亡的根因和解决方案——均值中心化就能大幅提升字典利用率，值得在实验中验证。

原文

10:21

arXiv cs.LG@Artur Szałata, Olga Novitskaia, Maiia Shulman, Matthew Mella, Altynbek Zhubanchaliyev, Fabian J. Theis

Chem-PerturBridge 是一个整合了37k+化合物、136种细胞环境和125万转录组样本的多数据集资源，覆盖8种实验类型，并统一了标识符、元数据和预处理流程。研究发现，不同数据集间相同化合物的logFC方向和幅度一致性较弱，但方向一致性相对稳定。该资源作为预训练数据，在化合物表示学习任务中优于仅使用L1000数据、Morgan指纹和基线方法。Chem-PerturBridge 支持跨数据集签名一致性的诊断评估，以及异质扰动转录组数据的模型复用。

论文药物发现转录组化合物表示学习数据整合 Chem-PerturBridge

推荐理由：做药物发现或化学基因组学的团队终于有了一个标准化的多源转录组资源——37k化合物、136种细胞环境，直接拿来预训练或评估模型，省去数据清洗的麻烦。

原文

10:19

arXiv cs.LG@Federico Califano, Jacopo Ciambella

该研究提出一种基于语法符号回归的框架，用于从数据中发现满足热力学约束的耗散势函数。框架通过构造凸性保持的语法规则，自动保证候选势函数满足热力学第二定律的凸性和非负性要求，适用于率相关和率无关的耗散机制。在合成数据集和实验数据上的验证表明，该方法能准确恢复牛顿、幂律和宾汉粘塑性本构，并在弹性体振荡剪切实验中优于线性Zener模型。这项工作为数据驱动本构建模提供了兼顾可解释性和物理一致性的新路径。

论文符号回归本构建模热力学约束耗散势可解释AI

推荐理由：做材料本构建模或计算力学的团队，终于有了一个既能保证热力学约束又不牺牲可解释性的符号回归工具，值得在实验数据上试试。

原文

10:18

arXiv cs.LG@Ulrich Prestel, Stefan Andreas Baumann, Nick Stracke, Björn Ommer

精选

RayDer 提出了一种统一的、前馈式 Transformer 架构，将相机估计、场景重建和渲染整合到一个主干网络中，将自监督新视角合成（NVS）转化为一个定义良好的单模型缩放问题。通过引入最小动态状态作为干扰因素，它吸收了视频中的时变内容，从而能够在无约束的真实世界视频上稳定训练。RayDer 将静态场景 NVS 作为目标任务，动态内容仅作为可扩展的监督信号，而非像动态场景（4D）NVS 那样进行重建。实验表明，RayDer 在数据和计算量上表现出清晰的幂律缩放行为，并在多个基准测试中取得了与有监督方法相媲美的零样本开放集性能。

论文新视角合成自监督学习 Transformer 场景重建 RayDer

推荐理由：RayDer 解决了自监督 NVS 难以规模化的问题，做 3D 视觉和场景重建的研究者可以关注其简洁的缩放规律和零样本能力，值得在真实视频数据上试试。

原文

10:16

arXiv cs.LG@Andre Herz, Matthijs Pals, Daniel Durstewitz, Georgia Koppe

该研究揭示了混沌系统代理建模中的动态-概率一致性（DPC）差距：追求有限时域概率目标会削弱动力学重建或使预测不确定性脱离局部切向动力学。论文识别了三种机制：核心坍缩、噪声掩盖和盲不确定性。为解决此问题，提出KAFFEE框架，基于可微扩展卡尔曼滤波训练，通过局部预测残差评估似然度，同时通过学习到的局部雅可比矩阵传递协方差。在随机超混沌Lorenz-96系统上，KAFFEE减少了故障模式，改进了动力学不变量重建，并保持了竞争性预测分数。该框架在13个混沌系统上实现了上下文贝叶斯滤波，同时保留了零样本动力学。

论文混沌系统代理建模不确定性量化扩展卡尔曼滤波动力学重建

推荐理由：做混沌系统建模或动力学重建的研究者，KAFFEE直接解决了概率预测与动力学一致性脱节的痛点，值得在实验中尝试。

原文

10:15

arXiv cs.LG@Felipe Urrutia, Juan José Alegría, Cinthia Sanchez Macias, Jorge Salas, Cristian B. Calderon, Cristobal Rojas

这篇论文通过训练GPT-J在两种结构等价的多跳推理任务（数字任务需位置推理，字母任务需符号推理）上，研究了注意力头的学习动态。作者引入新指标将注意力头分类为位置型或符号型，发现成功学习与纯头（即只表现一种类型）的出现相关。尽管任务结构等价，但数字任务需要位置和符号两种头，而字母任务只需符号头。论文进一步揭示了这些头的计算角色，并给出基于RoPE的几何可解释构造。关键发现是符号机制在长序列上泛化更可靠，而位置机制有更明显的局限性，并通过理论和实验验证了这种分离。

论文注意力机制 RoPE 长度泛化 Transformer 多跳推理

推荐理由：这篇论文用严谨的实验和理论揭示了位置与符号注意力在长度泛化上的本质差异，做Transformer机制研究或长上下文优化的开发者值得细读，看完会对RoPE的几何解释有更深理解。

原文

10:14

arXiv cs.LG@Jiefang Xiao, Maolin Gao, Simon Weber, Guandao Yang, Daniel Cremers

本文提出 Functional Attention，一种将 Transformer 注意力机制重新解释为自适应基函数之间函数对应关系的方法。受几何函数映射启发，该方法用结构化线性算子替代 softmax 亲和度，从而获得紧凑、可泛化、分辨率不变的表示，显式捕捉全局依赖。实验表明，在求解 PDE、3D 分割和回归等算子学习任务中，Functional Attention 达到最先进性能，且对不同离散化方式保持鲁棒。项目代码已开源。

论文算子学习注意力机制函数对应 PDE求解 3D分割

推荐理由：做算子学习或 PDE 求解的团队，终于有办法让 Transformer 不再把连续场当离散 token 处理了——Functional Attention 用函数对应替代 token 注意力，既提升泛化又保持分辨率不变，值得一试。

原文

10:13

arXiv cs.LG@Kian Kenyon-Dean, Alina Selega, Ihab Bendidi, Jordan M. Sorokin, Luca Bertinetto, David Errington, Hayley Donnella, Oren Kraus

RNA测序数据在药物发现中有广泛应用，但现有转录组基础模型因技术噪声和批次效应表现不佳，甚至不如线性基线。研究者提出新自监督模型TxFM，采用掩码自编码方法处理多样RNA-seq计数数据，并通过消融实验确定关键架构配置。他们构建了公开训练语料DiverseRNA-1.4M，训练出的TxFM在基因表示上优于规模大100倍以上的图谱级模型。结果表明，结合精心设计的模型架构和训练数据，归纳式自监督学习是转录组表示学习的可行方法。

论文基因表达自监督学习掩码自编码转录组 TxFM

推荐理由：TxFM解决了转录组基础模型性能不佳的痛点，做药物发现和生物信息学的团队可以试试这个轻量级方案，效果优于大模型。

原文

10:12

arXiv cs.LG@Utsav Dutta, Gerardo Pastrana, Sina Khoshfetrat Pakazad, Henrik Ohlsson

CHARM是一种基于Transformer的通道感知表示模型，通过将通道级文本描述集成到编码器中，实现了对异构多变量时间序列的通用表示学习。该模型采用联合嵌入预测架构（JEPA）训练，并引入新损失函数以促进信息丰富且时间稳定的嵌入，在潜在空间预测中增强对传感器噪声的鲁棒性。在异常检测、分类和短期/长期预测任务中，仅使用线性探针即可达到强性能。性能提升主要归功于JEPA目标和条件架构，文本描述作为通道标识符支持跨数据集泛化。

论文时间序列多模态 JEPA Transformer 表示学习

推荐理由：CHARM解决了多变量时间序列表示学习的通用性问题，做传感器数据分析、工业监控或金融时序预测的团队可以直接用线性探针获得强性能，值得关注其跨数据集泛化能力。

原文

10:11

arXiv cs.LG@Nianyi Lin, Jiajie Zhang, Lei Hou, Juanzi Li

精选

LongTraceRL 是一种新方法，旨在解决大语言模型在长上下文推理中难以定位和整合关键信息的问题。它通过知识图谱随机游走生成多跳问题，并利用搜索智能体的轨迹构建高混淆度的干扰文档，使训练上下文更具挑战性。同时，它提出了一种基于实体级过程监督的“评分奖励”，只对正确答案的推理过程进行细粒度评估，避免奖励作弊。在 4B 到 30B 的多个推理模型上，LongTraceRL 在五个长上下文基准测试中持续优于强基线，并促进了基于证据的推理。代码、数据集和模型已开源。

论文长上下文推理强化学习搜索智能体奖励设计开源/仓库

推荐理由：长上下文推理是当前大模型的瓶颈，LongTraceRL 用搜索轨迹和细粒度奖励解决了干扰项和奖励稀疏的问题，做推理模型训练或长文档理解的团队可以直接用开源代码复现。

原文

10:09

arXiv cs.LG@Daniel Berg Thomsen, Adrien Taylor, Aymeric Dieuleveut

该论文针对分布式学习中通信瓶颈问题，对两种主流误差反馈算法（EF和EF21）进行了紧致收敛性分析。通过识别最优步长选择和构建最优Lyapunov函数，作者证明了这些算法在任意数量智能体下的收敛保证，并恢复了单智能体场景下已知的最佳结果。这项研究为理解误差反馈机制在分布式优化中的性能提供了理论基础，有助于设计更高效的通信压缩策略。

论文分布式优化误差反馈通信压缩收敛性分析 Lyapunov函数

推荐理由：做分布式机器学习或联邦学习的开发者，这篇论文给出了误差反馈算法的理论极限，帮你理解通信压缩到底能省多少而不损失收敛性，值得细读。

原文

10:08

arXiv cs.LG@Alireza Kheirandish, Jihoon Hong, Sara Fridovich-Keil

研究人员提出了一种基于KL散度的分布外检测指标KLIP，用于逆问题中检测图像是否来自训练分布。该方法无需校准数据或了解偏移分布，能检测整张图像或图像局部区域的分布偏移。实验表明，KLIP能检测出细微但语义重要的偏移，如健康肝脏CT与肿瘤CT的差异，且适用于多种扩散模型、数据集和逆问题。代码已开源。

论文扩散模型分布外检测逆问题医学影像 KL散度

推荐理由：做医学影像或逆问题研究的团队，可以用KLIP无监督地检测异常区域，无需额外标注数据，值得试试。

原文

5月29日

14:02

arXiv: OpenAI@Bowen Qin

精选72°

CI失败日志通常庞大且嘈杂（中位数5000行，最多20万行），编程智能体依赖上游工具将日志缩减为可管理的上下文，但此前缺乏公开的实证比较。LogDx-CI基准测试比较了11种上下文缩减工具（包括原始、tail、grep、三种RTK模式、两种LLM map-reduce摘要器、三种混合路由器）在35个真实GitHub Actions失败案例上的表现，由3个LLM调试器家族评分。关键发现包括：混合grep+tail路由器在成本和质量上占据帕累托前沿，前两名方法每个案例约0.03美元，质量与独立grep相当但token减少4.5倍；在智能体循环中，不同缩减工具的质量差距缩小了7倍，但弱上下文会导致智能体发出2-4倍的工具调用；跨家族LLM摘要-调试器组合（gpt-5-mini摘要器+Claude Haiku调试器）优于同家族组合，平均提升0.071分。所有数据、代码和可复现基础设施均已公开。

论文日志缩减 CI调试 LLM根因诊断基准测试 GitHub Actions

推荐理由：做CI调试或AI编程智能体的团队终于有了可依赖的日志缩减基准——LogDx-CI直接告诉你哪种工具省钱又有效，建议做DevOps或Agent开发的点开看。

原文

13:59

arXiv: OpenAI@Rohan Shravan

精选

研究者发布了BrahmicTokenizer-131K，一个131072词汇量的字节级BPE分词器，专门优化了印度婆罗米系语言的压缩效率，同时保持与OpenAI o200k_base相当的英语、欧洲语言和代码压缩性能。它通过两阶段改造实现：先裁剪o200k_base中不相关的书写系统，再为9个婆罗米Unicode区块分配2372个词汇槽位。在2700万印度语预训练文本上，它比同词汇量的Mistral-Nemo Tekken/Sarvam-m少产生26.7%的token，其中奥里亚语压缩比达4.31倍。在非印度语内容上，其英语词元率（1.235 vs 1.232）与o200k_base持平，并在HumanEval、MBPP和GSM8K上优于Tekken/Sarvam-m 4.0-14.2%。该分词器是131K词汇量下唯一同时在婆罗米语、英语、欧洲语言、代码和数学上表现均衡的方案，已以Apache 2.0协议开源。

论文分词器多语言NLP 印度语 BPE 开源/仓库

推荐理由：做多语言NLP或印度语AI应用的团队终于有了一个不牺牲英语和代码性能的专用分词器——直接替换o200k_base就能获得印度语26.7%的token节省，建议做LLM训练或推理优化的开发者试试。

原文

13:58

arXiv: OpenAI@Alejandra Zambrano, Sara Vera Marjanovic, Imene Kerboua, Xing Han Lù, Leila Kosseim

精选

LLM网页智能体在探索、关键步骤遗漏和任务约束敏感性上存在不足，现有研究认为这些失败源于规划弱点，但自然语言计划表示的影响尚未被系统探索。PlanAhead提出静态规划-执行框架，自动将WebArena任务分为三个难度级别，并在困难任务上评估四种计划表示（顺序子目标、叙事、伪代码、清单）对多模态LLM智能体（OpenAI、阿里巴巴、Google）的影响。引入两个新指标：达成率和解决任务一致性，发现计划形式和底层LLM都显著影响智能体的鲁棒性和任务成功率。

论文 LLM智能体规划表示 WebArena 多模态模型评估指标

推荐理由：做LLM智能体开发的团队终于有了计划表示的系统性对比——选对计划形式能直接提升任务成功率，建议做Web Agent的开发者点开看看具体指标差异。

原文

13:07

arXiv: DeepSeek@Nishal Thomas, Noel Thomas

精选

一项针对数学推理基准 MathCheck（ICLR 2025）的审计发现，其 129 个问题组中有 4 个（3.1%）语义错误的改写，移除后 GPT-4o 从第 2 名跌至第 4 名，Claude Haiku 和 DeepSeek V3 排名上升。跨模型一致性检查（至少 3/4 模型一致）能以不到 10 美元成本自动发现这些错误。在作者自己的数据集中，47% 的自动生成改写存在语义错误。更严重的是，Claude Haiku 4.5 准确率 86% 但语义一致性率（SCR）仅 50%，意味着半数定理在语义等价改写下答案不同；9 个前沿模型准确率差距仅 10 个百分点（86-96%），但 SCR 差距达 32 个百分点（50-82%）。论文提出 FormInv 协议，包括审计方法、SCR 和 Cochran's Q 度量，以及用于场景感知模型选择的 FormInvSelector。

论文基准测试语义不变性数学推理模型评估 FormInv

推荐理由：基准测试的排名可能因语义改写而失真，做模型评估或选型的团队值得关注——你的排名可能选错了赢家。

原文

13:06

arXiv: DeepSeek@Yilun Yao, Jiaming Pan, Elsie Dai, Peizhuang Cong, Yaoming Li, Tong Yang

ConMoE提出了一种新的MoE模型压缩方法，通过原型重分配将原始专家映射到保留的少量原型专家上，无需权重更新或微调。该方法将压缩视为专家池整合，利用校准数据选择贡献大且可替换性高的专家作为原型，并支持跨层共享。在deepseek-moe-16b-base、Qwen3-30B-A3B和OLMoE-1B-7B-0125三个模型上，ConMoE在25%和50%专家缩减下均达到或超越现有剪枝与合并方法。实验表明确定性重分配是最稳定的组件，而跨层共享和权重融合效果依赖具体模型。这项工作为部署MoE模型提供了低成本的压缩方案。

论文 MoE压缩原型重分配无需微调专家池整合模型部署

推荐理由：MoE模型部署内存瓶颈的团队终于有了无需微调的压缩方案——ConMoE通过原型重分配直接减少专家数量，做模型推理优化的开发者可以试试这个即插即用的方法。

原文

13:05

arXiv: DeepSeek@Dongsheng Shi, Yue Li, Xin Yi, Yongyi Cui, Huawei Feng, Linlin Wang

SURGENT 是一个面向围手术期全流程的多智能体辅助系统，由 Tree-of-Thought 规划器、多科室协作智能体和检索增强推理模块组成。它通过创新的记忆设计管理长期患者病史和短期工作摘要，解决了大语言模型在手术应用中输入长度限制、记忆不完整和可追溯性差的问题。在病例分析、手术计划模拟、安全监测、并发症风险评估和康复指导五项任务中，SURGENT 表现优于基线 LLM 和现有医疗多智能体框架。消融实验显示，DeepSeek 作为本地可部署的骨干模型，能实现隐私保护部署。该系统为智能、公平且安全的手术辅助提供了实用且可信的进展。

论文多智能体系统手术辅助检索增强生成 DeepSeek 隐私保护

推荐理由：SURGENT 解决了手术场景中 AI 辅助的隐私和可追溯性痛点，做医疗 AI 或手术辅助系统的开发者可以直接参考其多智能体架构和记忆设计。

原文

13:04

arXiv: DeepSeek@S. J. Guo, S. Y. Wang, E. H. Wang, Z. M. Niu, Y. M. Ding

研究人员提出了一种基于大语言模型的多任务学习框架，用于统一描述多个核物理可观测量。通过低秩适配（LoRA）微调预训练的 DeepSeek-R1-1.5B 模型，在保留通用参数的同时引入轻量适配器。该模型在因果语言建模范式下，对实验值与理论值的偏差进行自回归训练，在电荷半径、质量、结合能、分离能和衰变能等七个可观测量的预测上实现了显著精度提升，训练损失在所有任务中下降超过 98%。这项工作展示了基于 LLM 的框架通过结构化先验嵌入，为核物理基础属性的多任务回归提供了一种高效且共享的方法。

论文大语言模型核物理多任务学习 LoRA微调 DeepSeek-R1

推荐理由：核物理研究者终于有了一个统一的多任务预测工具——用 LLM 微调替代传统多模型方案，精度提升显著且效率更高，做核数据分析和理论验证的团队值得关注。

原文

13:03

arXiv: DeepSeek@Johannes Moll, Jean-Philippe Corbeil, Jiazhen Pan, Martin Hadamitzky, Daniel Rueckert, Lisa Adams, Keno Bressem

精选72°

LLM智能体在结构化环境中常因操作失败而非对话失败，其可靠性依赖于对环境的程序性知识。现有自我改进方法会累积自然语言指导，但不检查新条目是否破坏已有正确行为，导致修复一个轨迹却使另一个退化。GRASP将智能体改进视为对有限技能库的编辑序列，仅当候选技能在平衡的保留测试集上产生净改进且不超过硬回归预算时才被接受。在五个基础模型和两个临床基准上，GRASP将gpt-oss-120b从40.6%提升至88.8%，超过最强基线21.0个百分点，并提升其他模型17.2至40.3个百分点。该方法还泛化到非临床环境，且技能库可在模型间迁移，强模型技能能提升弱模型表现，反之则不行。

论文 LLM智能体自我改进技能库回归预算门控机制

推荐理由：做LLM智能体自我改进的团队终于有了一个不担心「修好一个、搞坏一个」的方案——GRASP用硬回归预算和门控机制确保每次改进都是净收益，临床场景提升显著，建议做智能体可靠性的开发者点开看看。

原文

13:02

arXiv: DeepSeek@Haochen Yang, Ke Zhao, Mengyuan Ma, Xingyu Lu, Xiangfeng Wang, Hong Qian

精选

OptSkills 是一种面向优化建模与求解的智能体系统，通过聚类问题原型而非表面叙事来提升泛化能力。它利用大语言模型自动从自然语言中提取优化问题，并在聚类内探索多样建模与求解配置，将成功轨迹蒸馏为可复用的工作流技能。在多个数据集上达到 68.27% 的微平均准确率，在 MIPLIB-NL 基准上以 26.91% 超越 DeepSeek-V3.2-Thinking 4.53%。该系统还支持在分布外场景下通过新轨迹扩展技能库，代码和技能已开源。

论文大语言模型优化建模技能蒸馏聚类泛化学习

推荐理由：做运筹优化或自动化建模的团队终于有了能应对问题类型变化的通用方案——OptSkills 通过原型聚类和技能蒸馏解决了传统方法对叙事变体敏感的问题，值得在复杂优化任务中试试。

原文

13:01

arXiv: DeepSeek@Zihang Li, Rui Zhou, Yingcheng Shi, Wenhan Yu, Zhewen Tan, Zixiang Liu, Zeming Li, Binhua Li, Yongbin Li, Tong Yang, Jieping Ye

72°

ESPO（Early-Stopping Proximal Policy Optimization）是一种针对大语言模型强化学习训练的新方法，能在推理轨迹中早期检测到错误步骤并提前终止生成。传统PPO算法在模型犯错后仍会强制生成直到最大步长，浪费计算资源并污染优势估计。ESPO通过实时计算基于logits的代理遗憾值，在累积遗憾显著超过估计值时终止轨迹，并将截断轨迹视为吸收失败状态，无需额外奖励模型或人工标注。在DeepSeek-R1-Distill-Qwen-7B的数学推理训练中，ESPO在AIME 2024、AMC 2023和MATH-500上均超越PPO，同时累计节省超过20%的生成token。

论文强化学习 PPO 数学推理训练效率 DeepSeek

推荐理由：做LLM强化学习训练的团队终于有了一个能省算力又提效果的方法——ESPO在数学推理任务上不仅性能更好，还省了20%的token，训练成本敏感的团队值得一试。

原文

13:00

arXiv: Anthropic@Galip Tolga Erdem

精选72°

这是首个大规模实证研究，测量了LLM在重复渗透测试中的行为一致性。研究对4个模型（Claude Sonnet 4、Gemini 2.5 Flash-Lite、GPT-4o-mini、qwen2.5-coder:14b）各进行100次攻击，目标为固定蜜罐（含OWASP Juice Shop等脆弱服务）。结果显示，Gemini 2.5 Flash-Lite成功率最高（85%），Claude因API故障中断39次但仍达61%，qwen仅25%且主要因过早完成失败。模型失败模式各异：Claude受API截断影响，qwen过早终止，GPT-4o-mini耗尽迭代预算。跨模型成功率差异显著（p<0.001），且首次利用时间集中在15-30秒内。

论文 LLM安全渗透测试攻击一致性模型对比红队测试

推荐理由：这项研究揭示了LLM作为攻击者的行为规律和可靠性差异，做AI安全评估或红队测试的团队值得关注——它告诉你不同模型在真实攻击场景下的稳定性和失败模式，直接指导模型选型和防御策略。

原文

12:59

arXiv: Anthropic@Will Jack, Noah Lehman, Keller Maloney, Sarah Xu

精选

论文品牌推荐用户角色 Anthropic OpenAI 检索增强

推荐理由：做AI产品评测或品牌策略的团队会发现，用户画像对推荐结果的影响比想象中大得多——Anthropic的模型尤其容易“看人下菜碟”，建议点开了解如何避免测量偏差。

原文

12:32

arXiv cs.LG@Alaa Khamis, Alaa Maalouf

精选

测试时微调（TTFT）是一种新兴范式，通过检索相关序列并更新模型来适应每个提示，但现有方法在速度和效果间存在权衡。HullFT 提出几何方法，利用 Frank-Wolfe 优化将查询嵌入表示为稀疏凸组合，生成相关且多样化的支持集。通过几何整数化过程将分数权重转换为精确整数多重集，并利用梯度重用技术摊销重复微调的计算成本。实验表明，HullFT 在更低总运行时间下实现了更低的 bits-per-byte，优于当前最先进的 TTFT 方法。

论文测试时微调凸优化梯度缓存 LLM 效率优化

推荐理由：HullFT 解决了测试时微调中检索和微调的双重瓶颈，做 LLM 推理优化的开发者可以直接尝试，能显著提升效率。

原文

12:14

arXiv cs.LG@Ziwen Xu, Haiwen Hong, Linsong Yu, Benglei Cui, Longtao Huang, Hui Xue, Ningyu Zhang

该论文系统研究了 LoRA 在 LLM 微调中的参数记忆容量与动态机制，提出了 Parametric Memory Law——一个将损失减少与有效参数和序列长度联系起来的幂律关系。在 token 级别，研究发现预测概率 p > 0.5 是贪心解码下逐字回忆的充分条件，存在确定性相变。基于此，作者提出 MemFT 阈值引导优化策略，动态分配训练预算给低于阈值的 token，实验表明能提升记忆保真度和效率。这项工作首次从定量角度揭示了 LoRA 的记忆极限，对持续学习和知识更新有重要指导意义。

论文 LoRA 参数记忆微调持续学习幂律

推荐理由：做 LLM 微调或持续学习的团队，终于有了量化记忆容量的理论工具——MemFT 能直接帮你优化训练预算分配，建议做 LoRA 相关工作的点开看看。

原文

12:14

arXiv cs.LG@Chris Varghese, Leo Y. Li-Han, Richa Bisht, Ellen Larson, Frank Lee, Ryan M. Carr, Tanios S. Bekaii-Saab, Shounak Majumder, John D. Halamka, Mark Truty, Ajit H. Goenka, Hojjat Salehinejad, Cornelius A. Thiels

72°

该研究开发了一种基于Transformer的神经网络模型，通过分析患者多年的诊断编码和血液检测值序列，预测未来1-3年内患胰腺癌的风险。模型在6017名胰腺癌患者和17.7万对照人群上训练，外部验证显示1年预测AUC达0.837，校准良好。设定3.3%风险阈值时，诊断优势比为18.2，为胰腺癌人群筛查提供了首个数字化富集工具。

论文胰腺癌早期筛查 Transformer 血液检测临床病史

推荐理由：胰腺癌早期发现是提高生存率的关键，这项研究用常规医疗数据就能实现风险分层，做癌症筛查或临床决策支持的团队值得关注。

原文

仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档（侧边栏 → AI 日报 → 顶部「往期日报」）。