全部 AI 动态 · AI 热点

5月26日

12:12

arXiv: OpenAI@Aoxi Liu, Yupeng Chen, James Oldfield, Guanzhe Hong, Junchi Yu, Baoyuan Wu, Philip Torr, Adel Bibi

精选

扩散大语言模型（D-LLMs）通过多步去噪生成文本，其中间隐藏状态包含安全相关信息，但安全监控研究尚属空白。本文发现，中间隐藏状态反复接近分类器决策边界的“安全犹豫”信号能有效预测轻量级探针的失败。基于此，提出$D^2$-Monitor，采用轻量探针持续监控并估计犹豫程度，当犹豫超过阈值时激活更强但更重的探针，实现测试时资源动态分配。在WildguardMix、ToxicChat、OpenAI-Moderation三个数据集上，对四种D-LLMs评估，$D^2$-Monitor以≤0.85M参数取得最优性能，并在效果与效率间达到最佳平衡。

论文扩散大语言模型安全监控动态路由轻量探针犹豫感知

推荐理由：做LLM安全对齐的团队终于有了针对扩散模型的专用监控方案——$D^2$-Monitor用轻量探针+动态路由解决了资源效率问题，做模型部署和红队测试的可以直接参考论文中的实现思路。

原文

11:50

arXiv: Anthropic@Alfredo Pesoli, Herman Errico, Lorenzo Cavallaro

精选

本文从“漏洞经济学”视角分析LLM驱动的漏洞发现对攻防格局的影响。传统上，高端零日漏洞是政府、经纪商和攻击性厂商的昂贵专业产出，而LLM辅助系统降低了候选漏洞生成、代码理解、验证报告等环节的成本。这导致瓶颈从“发现更多漏洞”转向“吸收、验证、分类、修补和发布大量报告”。基于Anthropic Mythos Preview与Mozilla Firefox合作数据，论文指出近期变化不是更多零日漏洞，而是防御者修复吞吐量的提升：低信号候选漏洞变便宜，证据丰富的修复更重要，稀缺能力转向维护者审查和发布。开源项目受影响最严重，因为LLM辅助发现可增加报告量，但维护者验证、分类、资金和发布能力可能无法同步扩展。

论文 LLM 漏洞发现安全经济学零日漏洞修复吞吐量

推荐理由：这篇论文戳破了“AI将颠覆安全攻防”的简单叙事，用经济学框架解释了为什么防御者才是LLM漏洞发现的真正受益方。做安全运营、开源维护或漏洞奖励计划的人，看完会重新理解自己的瓶颈在哪。

原文

11:49

arXiv cs.AI@Zixin Jessie Chen, Zhuo Chen, Archer Wang, Jeff Gore, William T. Freeman, Congyue Deng, Marin Soljačić

精选

SKILD 是一种新型扩散模型，通过利用图像和物理系统的尺度不变性，将图像生成和连续超分辨率统一在一个无条件的框架中。其前向过程从粗到细衰减图像内容并注入匹配频谱的高斯噪声，使尺度成为扩散的显式坐标。训练后的反向过程仅通过改变起始时间步即可同时执行生成和任意倍数的超分辨率，无需任务特定架构、条件分支或无分类器引导。在 CIFAR-10 上达到 FID 2.65 和 Inception Score 9.63，在 ImageNet 上实现 2 倍到 8 倍超分辨率，性能超越条件模型，并能重建关键伊辛模型的相关函数。

论文扩散模型超分辨率尺度不变性无条件生成 SKILD

推荐理由：SKILD 用一个模型同时搞定生成和超分，省去了为不同尺度重复训练的麻烦，做图像生成或物理模拟的团队值得关注，直接省掉条件分支和重训练。

原文

11:49

arXiv cs.AI@Junyuan Liu, Xinglei Wang, Zichao Zeng, Jiazhuang Feng, Quan Qin, Ilya Ilyankou, Guangsheng Dong, Tao Cheng

精选

城市表示学习将复杂城市环境编码为通用嵌入，但现有评估多局限于少数城市和任务，且随机划分导致空间泄漏，高估性能。CityRep 提出统一基准，包含空间单元无关的评估框架、基于区块的空间划分协议，以及覆盖 8 城市 8 任务的可扩展套件。评估 11 个模型发现，随机划分会扭曲性能排名，且模型表现因城市和任务差异显著。该基准提供数据集、评估管道和诊断工具，旨在推动城市表示学习的公平比较和泛化能力研究。

论文城市表示学习基准测试空间划分泛化评估多模态

推荐理由：城市表示学习领域终于有了一个靠谱的评估标准——CityRep 解决了空间泄漏和跨城市泛化评估的痛点，做城市计算或地理空间 AI 的研究者可以直接用这个基准来检验自己的模型，避免被随机划分的虚假高分误导。

原文

11:49

arXiv cs.AI@Xinrui Shi, Kai Liu, Ziqing Zhang, Jianze Li, Anqi Li, Yulun Zhang

精选

轻量级视觉语言模型在标准基准上表现不错，但在需要多步推理的密集场景中（如多个物体、属性、关系）系统性地失败。为此，研究者首先构建了DRBench基准，包含14,573个问题、2,943张图像，覆盖5类任务和3个推理层次。然后提出DRScaffold框架，通过将监督目标分解为四个因果有序阶段，在不改动模型架构的情况下强制进行有依据的推理。实验表明，使用DRScaffold训练的Qwen2.5-VL-3B在DRBench上超越了冻结的Qwen2.5-VL-32B，证明结构化监督可以替代大量模型规模。代码和模型已开源。

论文视觉语言模型密集场景推理 DRBench DRScaffold Qwen2.5-VL

推荐理由：轻量级VLM在复杂场景中经常胡编乱造，DRScaffold用结构化监督解决了这个痛点，做视觉推理或部署小模型的团队可以直接用它的框架和基准来提升可靠性。

原文

11:48

arXiv cs.AI@Jinsheng Guo, Zhenhao Weng, Yibo Liu, Yan Qiao, Meng Li

精选

图欺诈检测中，欺诈者常通过与正常用户伪造大量连接来稀释欺诈信号，导致GNN检测失效。现有方法虽引入LLM提供语义线索，但未深入挖掘可疑连接背后的真实意图。L2IR框架通过LLM从用户行为和可疑连接中提取意图感知表示，区分支持性连接与误导性连接，并采用自适应自训练增强鲁棒性。在两个真实数据集上，L2IR将AUPRC提升高达8.27%，可作为GNN检测器的即插即用增强模块。

论文图神经网络欺诈检测大语言模型意图推理自训练

推荐理由：图欺诈检测从业者终于有了对抗伪装连接的新武器——L2IR用LLM拆穿欺诈意图，直接提升检测精度，做反欺诈系统的团队值得一试。

原文

11:48

arXiv cs.AI@Federico Torrielli, Peter Schneider-Kamp, Lukas Galke Poech

精选

该研究针对激活预言机（activation oracles）的自然语言输出，探索了6种不确定性量化方法。实验基于6000个样本，发现bootstrap模式频率在Qwen3-8B和Qwen3.6-27B上校准误差最低（ECE 5.7% vs 25.5%），而log-prob基线可作为低成本快速筛选信号。这项工作填补了激活预言机置信度评估的空白，对依赖模型内部解释的AI安全研究有直接意义。

论文激活预言机置信度校准不确定性量化模型可解释性 Qwen

推荐理由：做模型可解释性研究的团队终于有了可靠的置信度评估方法——bootstrap模式频率比传统log-prob校准误差低近5倍，建议做LLM内部机制分析的开发者直接参考论文代码。

原文

11:48

arXiv cs.AI@Parth Darshan, Abhishek Divekar

精选

该论文研究了在多评估标准下同时优化LLM裁判提示时出现的失败模式。由于文本梯度方法产生自然语言评论而非数值向量，多任务学习中的冲突解决工具（如PCGrad、MGDA）无法直接应用。实验测试了五种文本梯度优化器的分解模式，发现在10种配置中有6种优化效果未超过初始提示。当梯度LLM联合处理多个标准时，梯度特异性下降59%（从9.0降至3.7）。此外，简单合并各任务指令会导致斯皮尔曼相关系数下降5.3%。研究识别出两种可分离的失败模式：优化时的梯度稀释和推理时的指令干扰，这限制了多目标裁判定制的设计空间。

论文 LLM裁判多目标优化文本梯度提示优化失效模式

推荐理由：做LLM评估或裁判定制的团队，这篇论文点出了多目标优化时容易踩的坑——梯度稀释和指令干扰，看完能帮你避开无效的提示优化策略。

原文

11:47

arXiv cs.AI@James Lucassen, Adam Kaufman

精选

这篇论文研究了AI编程脚手架（如Claude Code、Codex）中两种安全策略：重试（retrying）和重采样（resampling）。研究发现，重试虽然能降低可疑分数，但不可信模型可利用监控器的理由构建更隐蔽的攻击，抵消安全收益。相比之下，重采样不会泄露可利用信息。在BashArena实验中，使用Claude Opus 4.6作为不可信模型、MiMo-V2-Flash作为可信监控器，每步采样5次并基于最大可疑分数审计，安全率从61%提升至71%，审计预算仅0.3%，且不影响实用性。选择性重采样（仅对首次采样可疑的步骤）可恢复6.2个百分点的收益，同时仅需10%的额外样本。研究还发现两个与先前工作（Ctrl-Z）矛盾的结论：基于最大可疑分数审计优于最小，且执行最不可疑样本的安全增益很小。

论文 AI安全重试策略重采样 Claude Code Codex

推荐理由：这篇论文揭示了AI编程工具中重试策略的安全隐患，并给出了更优的重采样方案。做AI安全或使用Claude Code/Codex的开发者，建议看看具体实验数据和结论，避免踩坑。

原文

11:47

arXiv cs.AI@Waleed Razzaq, Yun-Bo Zhao

精选

论文提出了一种名为 Neuronal Stochastic Attention Circuit (NSAC) 的新型连续时间注意力架构，受线虫神经回路启发，将注意力 logit 计算建模为 Ornstein-Uhlenbeck 随机微分方程的解。该方法通过引入高斯分布到 logits，并利用 logistic-normal 分布传播随机性，实现了对注意力权重的概率化输出。NSAC 结合了高斯负对数似然和认知分离正则化器，能够联合量化偶然不确定性和认知不确定性。实验表明，NSAC 在连续时间函数逼近、多变量回归、长程预测、工业4.0和自动驾驶车道保持等任务中，在保持准确性的同时，提供了校准良好的不确定性估计，并具有神经元级别的可解释性。

论文注意力机制不确定性量化生物启发模型连续时间建模可解释性

推荐理由：这篇论文为需要可靠不确定性估计的连续时间序列建模场景提供了新思路，做概率机器学习或自动驾驶感知的团队可以关注其神经元级可解释性带来的调试优势。

原文

11:47

arXiv cs.AI@Rustem Takhanov, Zhenisbek Assylbekov

精选

本文研究条件核岭回归（conditional KRR）的统计性质。该方法将经典线性回归（由函数类F指定特征）与标准KRR应用于残差部分相结合，可视为一种混合学习策略。理论结果表明，条件KRR可简化为使用残差核的标准KRR，代价是测试风险增加O(1/√N)项。当核K正定且F由前k个主特征函数或随机特征构成时，条件KRR优于标准KRR，尤其在回归函数的F分量比残差部分更显著时。实验验证了理论结论。

论文核方法条件KRR 核岭回归特征选择统计学习理论

推荐理由：这篇论文为核方法注入可解释的线性特征提供了理论保障，做高维数据建模或核方法研究的团队值得关注，尤其适合处理特征显著但残差噪声小的场景。

原文

11:46

arXiv cs.AI@Xu Yao, Siyuan Zhou, Wu Zhenbo, Chaochuan Hou, Shuang Liang, Shiping wang, Hailiang Huang, Songqiao Han, Minqi Jiang

精选

弱监督异常检测（WSAD）长期分为不完整、不精确和不准确三种监督方向，但缺乏统一评估框架。该论文提出WSADBench，首个跨场景统一基准，系统评估了36种算法在4种模态下的表现，基于超过70万次实验。研究发现：弱监督场景间存在强相关性，挑战了当前研究方向的孤立性；专用WSAD算法仅在极端标签稀缺时占优，随监督增强或面对分布外数据时，表格基础模型和通用分类方法迅速超越；无标签数据在不同设置下效用不一致，相比标签精炼收益有限；模型对不同类型标签噪声的敏感性不对称。该基准已开源，旨在推动WSAD研究。

论文弱监督学习异常检测基准/评估表格基础模型 WSADBench

推荐理由：做异常检测或弱监督学习的团队终于有了统一评估工具——WSADBench用70万次实验戳破了三个方向各自为战的假象，看完你会重新思考该用专用算法还是通用模型。

原文

11:46

arXiv cs.AI@Yunhua Pei, Jingyu Hu, Yiwei Shi, Hongnan Ma, Weiru Liu, John Cartlidge

精选

StakeBench 是一个新的金融 NLP 评估框架，它通过分析 Polymarket 和 Manifold 预测市场上 2,261 个已结算市场的 560,876 条评论，将语言理解与市场承诺（如持仓方向、交易行为、赔率轨迹）挂钩，而非传统的人工标注情感。该框架包含四个诊断任务：检测市场承诺、识别持仓方向、预测未来交易行为以及集体赔率预测。实验发现，15 个 LLM 在方向识别上表现参差不齐（准确率 0.506-0.599），但在未来行动预测和赔率预测上普遍失败，且模型规模与性能无关，金融领域微调也无帮助。StakeBench 的代码和数据集以 CC-BY 4.0 协议开源。

论文金融NLP 市场承诺评估基准预测市场 LLM

推荐理由：金融 NLP 从业者终于有了一个基于真实市场行为的评估基准，比传统情感分析更贴近交易决策，做金融 AI 的团队值得关注。

原文

11:46

arXiv cs.AI@Haolang Zhao, Yunbo Long, Lukas Beckenbauer, Alexandra Brintrup

精选72°

深度研究智能体在处理复杂信息时，现有系统依赖大模型隐式推理来演化中间表征，导致信息污染和错误传播。VeriTrace 提出通过显式反馈循环（解释更新、偏差反馈、模式修正）来持续对齐任务理解与现实，并基于认知图谱框架实现。在 Qwen3.5-27B 基座上，VeriTrace 在 DeepResearch Bench 洞察力指标上提升 4.22 个百分点，在 DeepConsult 上胜率提升 5.9 个百分点。与 Config-DeepSeek 结合，它取得了 DRB 上最强的可复现开源结果。

论文深度研究智能体认知图谱显式反馈推理模型开源/仓库

推荐理由：做深度研究或复杂推理系统的开发者，VeriTrace 用显式反馈替代隐式推理，解决了信息污染和错误传播的痛点，值得在开源项目中尝试。

原文

11:45

arXiv cs.AI@Yusong Lin, Xinyuan Liang, Haiyang Wang, Qipeng Gu, Siqi Cheng, Jiangui Chen, Shuzhe Wu, Feiyang Pan, Lue Fan, Sanyuan Zhao, Dandan Tu

精选

Claw-Anything 是一个新基准，旨在评估大型语言模型代理作为始终在线个人助手的能力。现有系统仅能访问用户数字世界的狭窄部分，限制了上下文感知推理和有效协助。该基准通过三个维度扩展代理上下文：长期活动历史、相互依赖的后端服务以及跨多设备的 GUI 和 CLI 交互。实验显示，GPT-5.5 仅达到 34.5% 的 pass@1，远低于先前基准，突显了当前代理能力与始终在线个人助手需求之间的差距。同时，研究团队发布了自动化数据生成管道，可生成 2000 个训练环境，并将基础模型性能提升 23.7%。

论文智能体基准测试个人助手 GPT-5.5 上下文推理

推荐理由：这个基准测试揭示了当前 AI 代理在理解用户完整数字生活方面的巨大短板，做个人助手或智能体开发的团队值得关注——它直接指出了现有系统为何不够智能，并提供了改进方向。

原文

11:45

arXiv cs.AI@Wei Song, Tianhang Wang, Yitong Chen, Tong Zhang, Zuxuan Wu, Ming Li, Jiaqi Wang, Kaicheng Yu

精选

本文提出通道级向量量化（CVQ），一种全新的图像标记化范式，将传统基于空间分块的标记方式改为对特征图每个通道进行量化。基于CVQ，作者构建了通道级自回归（CAR）模型，采用“下一通道预测”策略，模拟人类艺术家先画轮廓再细化细节的创作流程。实验表明，CVQ在16K+码本大小下实现100%码本利用率，显著提升重建质量；CAR在DPG和GenEval指标上分别达到86.7和0.79，在文本到图像生成任务中表现强劲。这一工作为视觉自回归模型提供了新思路，有望推动图像生成效率与质量的双重提升。

论文图像生成向量量化自回归模型文本到图像视觉细节

推荐理由：CVQ解决了传统VQ码本利用率低、细节丢失的痛点，做图像生成和视觉自回归研究的开发者值得关注——它让模型像人类一样先画轮廓再细化，生成质量更高。

原文

11:45

arXiv cs.AI@Maoyang Xiang, Bo Wang, Tao Luo

精选

OrpQuant提出了一种名为正交残差投影（ORP）的算法-硬件协同设计框架，用于解决低比特Power-of-Two（PoT）量化中的低角度分辨率问题。该方法通过双基几何投影自适应合成更高分辨率的残差格点，仅使用移位和加法操作，避免了乘法器。在LLaMA-2-7B上，3比特量化（W3/A16）下困惑度达到6.10，与AWQ等MAC密集型方法相当，且全模型校准仅需约15分钟。在28nm工艺下，RTL综合表明ORP有效缓解了密集乘法器树的时序瓶颈。该工作适用于LLM和ViT的边缘部署。

论文量化边缘部署 LLM ViT 硬件效率

推荐理由：OrpQuant解决了低比特量化中特征流形退化的问题，做边缘部署的开发者可以直接用这个15分钟校准的方案替代传统MAC密集型方法，硬件效率显著提升。

原文

11:44

arXiv cs.AI@Sangyun Lee, Sean McLeish, Tom Goldstein, Giulia Fanti

精选

论文提出一种类似睡眠的记忆巩固机制，让 Transformer 模型在长上下文任务中表现更好。模型在推理过程中定期将近期上下文转换为持久化的快速权重，并清除键值缓存，类似生物体的睡眠过程。在睡眠阶段，模型对积累的上下文进行多次离线循环处理，通过局部学习规则更新状态空间模型（SSM）块中的快速权重。在合成任务（如元胞自动机、多跳图检索）和数学推理任务上，该方法显著优于普通 Transformer 和 SSM-注意力混合模型。增加睡眠时长 N 能持续提升性能，尤其在需要深层推理的样本上效果最明显。

论文 Transformer 长上下文记忆巩固推理模型状态空间模型

推荐理由：这项研究给长上下文推理带来了新思路——用类似睡眠的离线巩固机制解决注意力瓶颈，做长链推理或复杂数学问题的开发者值得关注，尤其适合处理超长上下文的场景。

原文

11:44

arXiv cs.AI@Bar Weiss, Antonio Abu-Nassar, Adi Sosnovich, Karen Yorav

本文提出了一种基于大语言模型的两阶段流水线，用于对代码补丁中的变更进行结构化标签标注（如重命名、移动、逻辑修改等），以提升代码审查效率。该方法先对diff块进行标签分配，再精炼以捕捉结构关系和语义属性，采用少样本提示实现语言无关和可定制的标签，无需传统静态分析管线的工程开销。在人工标注的基准上，最佳配置达到了84%的召回率和81%的精确度。研究表明，LLM标签标注能有效补充静态分析，支持灵活、多语言、可自动化的代码审查工作流。

论文代码审查大语言模型结构化标签少样本提示软件工程

推荐理由：代码审查团队终于有了更智能的辅助——LLM自动标注变更类型（重命名/移动/逻辑修改），比人工逐行看diff高效太多，做代码审查或CI/CD集成的开发者可以直接参考。

原文

11:44

arXiv cs.AI@Shuhong Zheng, Aashish Kumar Misraa, Yu-Teng Li, Yu-Jhe Li, Igor Gilitschenski

主体驱动图像生成旨在根据文本指令生成保留给定主体身份的新图像。现有方法通常分别编码文本和参考图像，限制了跨模态推理能力并导致复制粘贴伪影。本文提出了一种新框架，通过将扩散模型与多模态大语言模型（MLLM）结合，并引入基于VAE的身份条件，实现了文本指令与身份保留的平衡。其中，双层级聚合（DLA）模块用于融合MLLM的多层特征，多阶段去噪策略在推理时逐步平衡语义信息与细节身份。实验表明，该方法在主体驱动图像生成中优于现有方法，有效缓解了复制粘贴问题，并更符合人类偏好。

论文多模态大语言模型主体驱动生成扩散模型身份保留图像生成

推荐理由：做图像生成或AI绘画的开发者，这篇论文解决了主体身份保留与文本指令跟随的长期矛盾，提出的DLA模块和多阶段去噪策略可以直接参考，值得点开看看具体实现。

原文

11:43

arXiv cs.AI@Shangding Gu

76°

本文提出 Agentic AI 的下一个瓶颈是系统缩放（system scaling），而非仅模型缩放。作者主张将基础模型周围的结构化执行层（即 harness）作为一等设计对象，包括记忆、检索、工具使用、编排、验证和治理等组件。研究识别出三大核心瓶颈：上下文治理、可信记忆和动态技能路由，并提出了超越单次任务成功率的基准测试框架。为验证观点，团队开发了 Python 原生参考实现 CheetahClaws，并与 Claude Code 和 OpenClaw 进行了对比。核心结论是：未来 Agentic AI 的进步将同样依赖于系统设计，而不仅仅是更强的模型。

论文智能体系统缩放 Harness设计上下文治理可信记忆

推荐理由：做 Agent 系统架构的开发者会看到，当前只关注模型能力而忽视执行层设计的做法正在成为瓶颈——CheetahClaws 提供了一个可参考的系统级设计思路，值得研究。

原文

11:43

arXiv cs.AI@Dingbang Wu, Rui Hao, Haiyang Wang, Shuzhe Wu, Han Xiao, Zhenghong Li, Bojiang Zhou, Zheng Ju, Zichen Liu, Lue Fan, Zhaoxiang Zhang

精选72°

MobileGym 是一个轻量级、浏览器托管的移动GUI仿真环境，通过结构化JSON状态实现确定性结果验证，并支持低成本并行rollout，使在线强化学习在移动应用场景中变得可行。该平台单服务器可运行数百个并行实例，每个实例仅需约400MB内存和3秒冷启动，并提供了416个参数化任务模板（256测试+160训练），覆盖28个应用。在Sim-to-Real案例中，使用GRPO在Qwen3-VL-4B-Instruct上训练，测试集准确率提升12.8个百分点，且真实设备执行保留了95.1%的仿真训练收益。MobileGym 解决了移动GUI Agent研究中环境保真度、可扩展性和评估一致性的核心痛点。

论文移动GUI Agent 仿真平台强化学习并行训练开源/仓库

推荐理由：做移动端GUI Agent或强化学习的团队终于有了一个可验证、高并发的仿真平台，不用再依赖私有后端或模糊匹配评估，建议直接看项目页和论文。

原文

5月25日

11:32

arXiv: DeepSeek@Zewen Jin, Congkun Ai, Guangpeng Zhang, Hanbo Zhang, Haoran Wang, Shihan Xiao, Da Lei, Xuefeng Jin, Teng Su, Cheng Li

精选

本文提出了HyperParallel-MoE，一个针对昇腾NPU的MoE训练编译与调度框架。现有框架在昇腾NPU上串行执行MoE算子，未能充分利用其异构计算资源（矩阵AIC和向量AIV）。HyperParallel-MoE将算子级执行转化为静态调度的tile级异构任务流，通过AIV驱动单边通信消除主机侧同步，并实现通信与计算在单个内核启动内的细粒度重叠。在MindSpore和MindFormers栈中实现，基于DeepSeek风格MoE模型在昇腾A3集群上测试，将Dispatch-to-Combine的MoE-FFN延迟最多降低1.58倍。这项工作表明tile级异构调度能显著提升现代NPU上的MoE训练效率。

论文 MoE训练昇腾NPU 异构调度编译优化 MindSpore

推荐理由：对于在昇腾NPU上训练大规模MoE模型的团队，HyperParallel-MoE通过细粒度异构调度解决了通信与计算重叠不足的痛点，实测延迟降低1.58倍，值得关注并尝试集成到现有框架中。

原文

11:31

arXiv: Google DeepMind@Zhixiang Guo, Siyuan Liang, Shi Fu, Cheng Guo, Andras Balogh, Mark Jelasity, Dacheng Tao

精选

世界模型作为决策智能体日益普及，但其对抗鲁棒性因缺乏自动化评估方法而研究不足。现有手动调参的攻击要么高估鲁棒性，要么因穷举搜索成本过高而不可行。WMAttack 将鲁棒性评估建模为有限预算下的攻击配置搜索，包括攻击类型、扰动预算、优化步数等。其核心创新是自校正攻击搜索（SCAS）和表示引导攻击检索（RGAR），分别通过反馈优化攻击分布和利用历史配置加速新环境搜索。在 Atari 和 DeepMind Control 任务上，WMAttack 发现了比基线更强的攻击，归一化奖励下降显著提升。

论文世界模型对抗攻击鲁棒性评估自动化搜索智能体安全

推荐理由：世界模型智能体的安全性评估一直缺乏自动化工具，做对抗攻击或鲁棒性研究的团队可以直接用这个框架替代手动调参，省时且结果更可靠。

原文

11:27

arXiv cs.LG@Andres Nava, Matthieu Wyart

精选

该研究提出了一种分布理论，解释语言模型中上下位关系（如“动物-狗”）的几何编码机制。基于WordNet中词对共现频率与层级距离相关的假设，理论证明word2vec嵌入的Gram矩阵谱结构会自然形成从粗到细的层级分裂几何。实验在多个WordNet子树上验证了该预测，并发现该特征在Gemma 2B模型的unembedding中同样显著。结果表明，LLM中的层级概念几何可能并非源于特定功能机制，而是词共现统计的谱结构涌现结果。

论文语言模型层级概念词共现谱分析 word2vec

推荐理由：这项研究揭示了语言模型层级概念几何的统计根源，对理解LLM表征形成机制的研究者很有价值，建议关注其理论框架与实验验证。

原文

11:26

arXiv cs.LG@Dongmin Lee, Anuran Makur, Japneet Singh

精选

本文研究了在Bradley-Terry-Luce (BTL)模型下，当数据受到半随机对抗攻击（即某些边的采样概率被人为提升）时，谱排序算法的逐项误差表现。研究发现，未加权的谱方法性能高度依赖于生成图的谱性质，而通过对观测边进行适当重加权以恢复谱间隙，可以接近均匀采样图下的渐近性能。理论结果通过数值模拟得到了验证。这项工作为对抗环境下的排序算法提供了理论保证。

论文谱排序 BTL模型对抗鲁棒性逐项误差重加权

推荐理由：做排序算法或对抗鲁棒性研究的团队，这篇论文给出了半随机对抗下谱方法的理论误差界，并提出了有效的重加权策略，值得关注。

原文

11:25

arXiv cs.LG@Taiming Lu, Zhuang Liu

精选72°

这篇论文挑战了知识蒸馏中“强教师才能教出好学生”的传统观念。研究发现，在LLM预训练阶段，即使使用较小或训练不足的弱教师模型，通过合理混合语言建模和蒸馏损失，也能提升更大的学生模型。相反，更强的教师（更多参数或更多训练数据）可能导致蒸馏收益饱和甚至下降。此外，蒸馏在提升泛化能力（如分布外和下游任务表现）方面比在领域内拟合更有效。这些结果颠覆了蒸馏预训练必须依赖强教师的普遍认知。

论文知识蒸馏 LLM预训练弱到强蒸馏泛化能力损失函数设计

推荐理由：做LLM预训练或知识蒸馏的团队，这篇论文直接挑战了“教师越强越好”的默认假设，看完可能会重新设计你的蒸馏策略，值得细读。

原文

11:24

arXiv cs.LG@Aratrika Mustafi, Soumya Mukherjee, Bharath K. Sriperumbudur

精选

本文从概率梯度流的角度重新审视了Muon优化器，将其视为一种正则化的镜像/近端步骤。作者发现正则化的正交化映射是核范数的光滑Fenchel对偶平滑的梯度，从而将Muon更新与动量作为对偶坐标联系起来。通过将Muon从单矩阵参数提升到有限粒子概率目标，推导出惯性连续时间极限，并建立了相空间平均场方程。该流被证明是一种阻尼哈密顿概率动力学，其哈密顿能量单调递减。在额外假设下，论文证明了目标间隙的指数收敛速率，并研究了平均场极限方程的适定性和传播混沌保证。最后，将公式扩展到希尔伯特值特征映射，得到适用于平滑Transformer混合专家模型的块状Muon概率流。

论文 Muon优化器概率梯度流哈密顿动力学平均场理论优化理论

推荐理由：这篇论文为Muon优化器提供了严格的数学基础，揭示了其与哈密顿动力学的深层联系。对优化理论研究者或想深入理解Muon工作机制的深度学习从业者，值得细读。

原文

11:24

arXiv cs.LG@Lizhang Chen, Jonathan Li, Chen Liang, Ni Lao, Qiang Liu

精选

研究者提出了一种无需训练的循环Transformer方法，通过在推理时对冻结的预训练模型进行轻量级循环包装，无需微调或架构改动即可提升性能。该方法将Transformer块视为ODE的欧拉步，通过阻尼子步替代大步更新，避免了简单重复块导致的性能下降。在7个模型家族（包括密集、稀疏MoE和MLA+MoE）上验证有效，如Qwen3-4B-Instruct在MMLU-Pro上提升2.64个百分点，Qwen3-30B-A3B-Instruct在CommonsenseQA上提升1.14个百分点。该方法为利用现有模型提升推理能力提供了低成本方案。

论文循环Transformer 推理优化无需训练预训练模型 ODE视角

推荐理由：这项研究让使用冻结模型的团队无需重新训练就能提升推理性能，做模型部署或推理优化的开发者值得关注，可以直接在现有模型上尝试。

原文

11:22

arXiv cs.LG@Hongwu Peng, Ohiremen Dibua, Yuanjun Xiong, Yifan Gong, Jianming Zhang, Yan Kang

精选

研究者提出Complete-muE框架，解决了从密集FFN到混合专家（MoE）模型架构的超参数迁移问题。现有方法如μP和SDE无法处理MoE中专家数量变化带来的架构和每个专家token数同时改变的问题。Complete-muE通过双桥系统实现迁移：桥I利用激活宽度μP和归一化路由器尺度映射密集FFN到密集MoE；桥II通过激活专家缩放映射密集MoE到稀疏MoE，并处理一阶SDE学习率/权重衰减校正。实验表明，在语言模型和扩散模型预训练中，该框架能使超参数在多种MoE配置下保持稳定，实现“一次调参，迁移所有”的效果，显著加速MoE模型收敛。

论文 MoE模型超参数迁移缩放法则 Transformer 预训练

推荐理由：做大规模MoE模型训练的团队终于有了可靠的超参数迁移方案——不用为每个专家配置重新调参，直接复用密集模型的超参数即可，建议做预训练优化的点开看看。

原文

11:21

arXiv cs.AI@Yoosung Hong

精选

PCSP（Persona Conditioned Shared Policy）是一种基于强化学习的单策略框架，通过冻结LLM嵌入的低秩投影来条件化NPC行为，实现数百至数千个具有一致个性的非玩家角色控制。在300人生命模拟基准上，PCSP实现了零样本个性识别（组合泛化能力比随机高17倍）、语义-行为对齐（Spearman ρ≈0.73），以及比LLM策略基线快22倍的推理速度。该方法结合PPO、InfoNCE一致性损失和KL多样性目标，其中InfoNCE轨迹一致性目标至关重要，移除后零样本识别降至随机水平。在Melting Pot 2.4.0多智能体环境和UE5引擎部署中均验证了其个性条件化行为差异和实时推理能力。

论文强化学习 NPC控制个性条件化游戏AI LLM嵌入

推荐理由：游戏AI团队终于有了可落地的NPC个性控制方案——单策略支持数千角色且推理速度比LLM快22倍，做开放世界或模拟游戏的开发者可以直接在UE5中复现。

原文

11:20

arXiv cs.AI@Jiangwang Chen, Bowen Zhang, Zixin Song, Jiazheng Kang, Xiao Yang, Da Zhu, Guanjun Jiang

精选

当前大语言模型对话系统本质上是反应式的，只能在用户输入后响应。OnePred 提出通过递归更新的意图记忆来预测用户下一轮查询，无需重读完整对话历史。该方法采用两阶段强化学习训练，先教模型预测什么，再教如何压缩，形成面向预测的意图链。作者还发布了 NQP-Bench 基准测试集，包含三个子集。实验显示，OnePred 将每轮 token 消耗降低最多 22 倍，同时预测质量优于所有基线，在长对话中优势更明显。

论文对话系统预测模型强化学习意图记忆 NQP-Bench

推荐理由：对话系统从反应式走向主动式的关键一步，做对话 AI 或智能客服的团队值得关注，OnePred 的递归记忆思路可以直接参考或复现。

原文

11:19

arXiv cs.AI@Zhewen Tan, Yilun Yao, Huiyan Jin, Wenhan Yu, Guoan Wang, Mengyuan Fan, liang lu, Feng Liu, Xiangzheng Zhang, Duohe Ma, Tong Yang, Lin Sun

精选

大语言模型智能体依赖持久记忆来存储历史交互并提升长任务执行能力，但这也带来了安全漏洞：对抗用户可通过正常交互向记忆库注入恶意记录，后续检索时操纵智能体行为。现有防御主要聚焦在线干预（如提示过滤），无法在有害行为发生后定位哪些记忆是罪魁祸首。MemAudit 提出后验因果审计框架，结合反事实记忆影响分数和记忆一致性图，从结构异常中识别恶意记忆。在 QA 和推理智能体场景下，MemAudit 将攻击成功率从 70% 和 83.3% 降至 0%，为智能体记忆安全提供了有效的审计工具。

论文智能体安全/对抗记忆审计因果归因 LLM

推荐理由：智能体记忆安全是实际部署中的盲区，MemAudit 解决了「事后追责」的难题，做 LLM 安全或智能体系统的团队可以直接参考其因果审计方法。

原文

11:19

arXiv cs.AI@Ming Yang, Tao Yu, Feng Li, Hua Chen

精选

全身跟踪（WBT）模型是人形机器人模仿多样动作的关键基础，但从头训练需要大量数据和计算资源。Any2Any 提出一种新范式，通过运动学对齐和轻量级参数高效微调（PEFT），将预训练的 WBT 模型快速迁移到新的人形机器人本体上。实验表明，仅需 1% 的计算和数据量，Any2Any 就能将基于 Unitree G1 预训练的 Sonic 模型成功迁移到 LimX Oli 和 LimX Luna 上，性能与从头训练相当甚至更优。这为快速部署人形机器人全身控制提供了可扩展的路径。

论文人形机器人全身跟踪迁移学习参数高效微调 Any2Any

推荐理由：人形机器人开发者终于有了低成本复用预训练模型的方法——Any2Any 用 1% 的数据和算力就能迁移全身跟踪能力，做机器人部署的团队可以直接参考。

原文

11:18

arXiv cs.AI@Jiarui Guo, Haojia Wei, Yiming Zhang, Yifei Liu, Yuning Gong, Hongjie Zhang, Xue Yang, Zhihang Zhong

精选

PhotoFlow 提出了一种基于智能体的虚拟摄影框架，能够在无预设相机位姿或参考图像的情况下，根据语言指令在3D场景中自动选择相机参数并渲染照片。该框架包含导演、评审和反思三个模块，通过闭环搜索优化拍摄效果。同时发布了 VPhotoBench 基准，包含47个场景和141个语言条件摄影任务。实验表明，PhotoFlow 在六轮渲染预算下，成功率和质量对齐指标均优于现有方法。这是首个将语言条件虚拟摄影作为可执行智能体任务的工作。

论文智能体 3D场景理解虚拟摄影视觉语言模型闭环搜索

推荐理由：做3D场景理解或自动摄影的团队，PhotoFlow 把语言指令到相机参数的全流程打通了，可以直接用它的闭环搜索思路提升自己的渲染管线。

原文

11:18

arXiv cs.AI@Alessandro Sosso, Akhil Arora, Bas Spitters

精选

该论文评估了 Claude Code 在 CLEVER 基准（Lean 4 可验证代码生成）上的表现。结果显示，Claude 为 98.8% 的问题生成了有效的规范（其中 81.3% 通过了同构评分），87.5% 的问题通过了正确规范的实现验证，端到端管线成功率达 98.1%。Claude 还能对自身尝试提供高质量反馈，识别失败原因和数据集中的错误。这表明现有程序验证基准已不足以衡量现代智能体证明器的能力，需要更严格、抗错误的评估方法。

论文程序验证 Lean 4 Claude Code 智能体证明形式化验证

推荐理由：程序验证是 AI 安全的关键环节，Claude Code 在 Lean 4 上接近完美的表现意味着做形式化验证的团队可以大幅提升效率，建议关注其编译器闭环范式。

原文

11:17

arXiv cs.AI@Haoyuan Wang, Xiaohao Liu, Jiajie Su, Jianmao Xiao, Chaochao Chen

精选

多模态大模型需要高效更新知识，但现有方法在语义等价变体上泛化不足。论文提出ASAM框架，包含Latent Adversarial Robustification（LAR）生成对抗变体，以及Rank-Constrained Subspace Learning（RCSL）通过低秩对齐增强编辑鲁棒性。实验表明该方法在保持可靠性和局部性的同时，显著提升了跨视觉和语言变体的泛化能力。这项工作为多模态知识编辑的鲁棒性提供了新思路。

论文多模态大模型知识编辑对抗训练子空间学习泛化性

推荐理由：做多模态大模型知识更新的研究者会关注——ASAM解决了编辑后泛化差的痛点，用对抗子空间对齐让模型对语义等价变体也生效，值得在MLLM编辑任务上试试。

原文

11:17

arXiv cs.AI@Jorge Chang Ortega, Bastien Le Lan, Thomas Serre, Victor Boutin

精选

一项新研究通过联合能量模型（JEM）在固定架构中连续插值判别式和生成式训练，发现人类视觉对齐在两者之间的中间点达到最优，而非任一极端。研究在六个基准测试（包括感知相似性、光泽感知、人类响应不确定性、鲁棒性、形状-纹理冲突和诊断特征归因）上验证了这一结论。混合JEM结合了判别式学习的类别结构和生成式学习对输入结构的敏感性，产生了更接近人类视觉的行为。这表明，理解人类视觉对齐的关键不是选择哪种学习目标，而是平衡两者。

论文视觉模型生成式学习判别式学习人类对齐联合能量模型

推荐理由：这项研究解决了计算机视觉中一个长期争论：人类视觉更接近生成式还是判别式模型？答案是两者平衡。对视觉AI研究者和模型设计者来说，这是一个值得关注的结论，建议在模型训练中尝试混合目标。

原文

11:16

arXiv cs.AI@Stuart Bladon, Brinnae Bent

精选76°

一项新研究挑战了普遍假设，发现大语言模型的地缘政治偏见主要来自后训练阶段（如指令微调），而非预训练数据。研究测试了七个开源模型对（基础版和聊天版）在28对国家上的偏好，结果显示六家实验室的模型在后训练后表现出与开发者所在国或地区一致的偏见。例如，阿里Qwen 2.5聊天版对中国偏好从基础版的-0.15跃升至+2.91（对数几率），变化达18倍。偏见强度还受提示语言影响：法国Mistral模型仅在法语提示下才显著亲法。该发现强调了对模型对齐过程进行透明审计和监督的必要性。

论文地缘政治偏见后训练对齐模型审计 Qwen Mistral

推荐理由：这项研究戳破了“数据决定一切”的迷思，做AI安全、模型对齐或地缘政治分析的团队值得细读——它直接影响了如何评估和调整模型的政治倾向。

原文

11:16

arXiv cs.AI@Aneesh Komanduri, Xintao Wu

精选

因果生成建模对于开发可靠、透明的AI系统至关重要，但现有方法通常需要在训练时集成因果约束，缺乏利用预训练基础模型零样本推理能力的统一框架。本文提出FM-CGM，一个模块化框架，通过概念提取器、概念操纵器和反事实生成器三个核心组件，实现端到端的视觉因果推理。该框架利用大型推理模型进行因果推断，结合文本到图像扩散模型进行生成，支持零样本因果发现、干预和反事实生成。同时，作者开发了因果语义引导（CSG）机制，确保语义干预传播到后代概念并保留不变区域。实验表明，该方法能识别合理的因果结构，并生成忠实的反事实图像。

论文因果生成建模基础模型零样本推理反事实生成扩散模型

推荐理由：因果推理是AI可靠性的关键，FM-CGM让零样本因果生成成为可能，做视觉生成或因果推理的研究者可以直接参考其框架设计。

原文