全部 AI 动态 · AI 热点

6月30日

15:16

arXiv cs.LG@Nico Daheim, Iryna Gurevych

arXiv 论文提出基于贝叶斯决策理论和风险规避规则的几种不确定性感知算法，用于大语言模型在辅导和自动同行评审中的决策。在生成导师回复或评审时，将策略与分数的不确定性纳入考量，并用共形预测对策略和分数提供统计保证。实验表明，贝叶斯方法在高模糊性下优于风险规避规则，后者可能因追求通用输出而降低效用。

论文 LLM 贝叶斯决策共形预测不确定性量化自动评审

推荐理由：这篇论文教大模型在不确定时怎么选策略，辅导学生或写评审都管用，贝叶斯方法比保守方法更聪明。

原文

15:16

arXiv cs.LG@Sivaraman Balakrishnan

这篇论文将有效传输映射估计问题形式化为一个严格的最小最大框架。推导出在标准稳定性假设下，估计任意有效传输映射的样本复杂度下界与估计最优传输（OT）映射相同。当稳定性假设不成立时，存在替代映射可以比OT映射更精确地学习。这些结果揭示了扩散模型和流匹配等生成方法的统计极限。

论文扩散模型流匹配最优传输生成模型统计极限

推荐理由：这篇论文严格证明了为什么有些生成模型不用最优传输也能行，给出了统计极限的硬理论，做生成模型理论的人必看。

原文

15:14

arXiv cs.LG@Mohit Raghavendra, Anisha Gunjal, Aakash Sabharwal, Yunzhong He

SWE-Interact是一个新测试平台，用于评估编码代理在多轮交互、用户驱动的软件工程任务中的表现。现有SWE基准（如SWE-bench）通常预先提供完整需求，而SWE-Interact通过用户模拟器逐步揭示需求、提供反馈和约束。在单轮任务中，最强模型（如Opus 4.8和GPT 5.5）解决率约50%，但在SWE-Interact多轮任务中仅解决约25%。该基准测量了模型在交互目标发现和迭代细化中的正交能力。

论文 SWE-Interact Opus 4.8 GPT 5.5 编程助手智能体

推荐理由：想知道编程智能体在真实对话开发中能撑多久吗？SWE-Interact测试了Opus 4.8和GPT 5.5在模糊需求下逐步迭代的能力，结果比单轮任务差一半。

原文

15:14

arXiv cs.LG@Ting-Wen Ko, Jonas Geiping

该研究分析了7个LLM在20个争议话题上的双人辩论，发现自对弈轨迹形成模型特定吸引子。在混合对弈中，Claude Haiku作为强吸引子，其他模型会模仿其元评论等特征，而GPT-4.1 nano表现出高度可塑性。这些吸引子使对话行为部分可预测，但受非对称伙伴影响。

论文 Claude Haiku GPT-4.1 nano 多智能体对话动力学吸引子状态

推荐理由：这篇论文发现LLM聊多了会互相带跑偏，Claude Haiku像个引力源，其他模型会被它影响。

原文

15:13

arXiv cs.LG@Jun Wen Leong

研究发现LLM Agent在持续记忆中毒攻击下存在行为不变性：成功攻击必须调用memory_recall_fact后再调用email_send_email。仅凭该规则的检测AUC达0.9563，基于19个轨迹特征的随机森林分类器将AUC提升至0.9904（BCa 95% CI [0.987, 0.993]）。跨9个模型（7B-120B参数）验证，6/9的留出测试AUC为1.000。该签名可泛化至GPT-4.1和GPT-4o等前沿模型，无需重新训练。通过工具调用日志即可区分记忆通道攻击与提示注入攻击。

论文 LLM Agent 记忆中毒行为检测 GPT-4.1 GPT-4o

推荐理由：这篇论文发现了一个简单规律就能检测AI Agent的记忆中毒攻击，准确率高达99%，还能区分不同攻击类型，非常实用。

原文

15:10

arXiv cs.LG@Matan Schliserman, Gon Buzaglo, Itay Evron, Daniel Soudry

该论文刻画了同质模型中的弱正则化持续分类问题，将其视为在任务间隔集上的顺序投影。这一结果推广了此前仅限于单任务深度模型或持续线性模型的分析。研究表明，即使对于数据线性但参数非线性的简单模型，全局收敛一般也会失败。然而，利用非凸投影理论，论文识别了同质深度网络的规则性，保证在随机和循环任务序列下的局部线性收敛。最后，分析扩展到持续回归，统一了同质模型的框架。

论文 Continual Learning Homogeneous Deep Networks Deep Networks 理论分析收敛性

推荐理由：这篇论文从理论上搞清楚了持续学习中同质深度网络的收敛性质，比之前只分析线性模型或单任务模型的结果更通用。

原文

15:09

arXiv cs.LG@Anurag K. S. V., Ashish Kumar Patra, Manas Mukherjee, Ruchika Bhat, Sai Shankar P., Rahul Maitra, Jaiganesh G

该论文提出一个混合量子-经典工作流，在Fujitsu FX700理想态矢量模拟器上使用QARP运行。它用O(N^4) MP2振幅初始化的LCNot-UCCSD ansatz替代O(N^6) CCSD初始化，并引入QSCI-RBM以RBM替代SQD进行配置恢复。方法在8种分子的STO-3G基组上进行14个误差等级各100次独立运行，并在cc-pVDZ基组的N2分子势能面扫描和DMET嵌入的Amantadine（C10H17N，11个片段）及SARS-CoV-2主蛋白酶-Carmofur复合物（10个片段）上验证。这是首次在量子模拟器上将LCNot-UCCSD部署于QSCI，也是首次将DMET-QSCI(LCNot-UCCSD)-RBM应用于工业相关蛋白-配体系统，计算资源需求低于Cleveland Clinic等先前工作。

论文 QSCI RBM LCNot-UCCSD DMET 分子模拟

推荐理由：这篇论文用生成式ML(RBM)和优化初始化让量子分子模拟更省计算资源，能处理实际药物分子比如抗病毒药和新冠病毒蛋白酶。

原文

15:07

arXiv cs.LG@Orazio Pontorno, Mattia Litrico, Luca Guarnera, Mario Valerio Giuffrida, Sebastiano Battiato

μFlow是一种仅用真实图像训练的一类深度伪造检测器，无需依赖伪深度伪造或合成伪影。它通过平均多张图像放大GANs和扩散模型等生成器的一致生成痕迹，并训练归一化流将个体图像的特征空间与该分布对齐。在完全未见过生成器的测试集上，μFlow在F1分数等指标上显著优于当前最先进检测器。实验表明该方法对跨生成器类别（如GANs vs 扩散模型）具有良好的泛化能力。

论文 μFlow 深度伪造检测 GANs 扩散模型 AI安全

推荐理由：他们提出μFlow，只用真实照片训练就能识别各种AI生成的假脸，在完全没见过的生成器上效果碾压现有方法。

原文

15:05

arXiv cs.LG@Javier Lazaro, Juan-Ignacio Vazquez, Pablo Garcia-Bringas

论文提出分阶段知识蒸馏(KD)策略，用于视觉量子强化学习(QRL)。先训练经典视觉老师模型，冻结编码器作为特征接口，将老师策略行为蒸馏到紧凑下游头中。下游头可以是经典或变分量子电路(VQC)的。在CartPole Pixels和Acrobot Pixels环境上评估，结果显示浅层VQC头能在直接像素训练困难的情况下获得非平凡视觉控制行为。角度编码VQC头保持接近老师性能(约90%成功率)，而幅度编码头更紧凑(参数减少70%)但更脆弱。

论文 VQC Knowledge Distillation Quantum Reinforcement Learning 量子强化学习

推荐理由：这篇论文用蒸馏方法让量子电路也能搞定视觉强化学习，实验做得扎实，省去从头训练的麻烦。

原文

13:54

arXiv cs.AI@Xuan Zhang, Wenxuan Zhang, See-Kiong Ng, Yang Deng

WorldEvolver是一个自进化世界模型框架，在部署时通过记忆模块修正上下文，同时保持下游智能体和模型参数冻结。它包含三个模块：Episodic Memory利用检索模拟实际动作转换，Semantic Memory从预测-观测不匹配中提取启发式规则，Selective Foresight过滤低置信度预测。在ALFWorld和ScienceWorld上评估，WorldEvolver在Word2World上取得最高预测准确率，并在AgentBoard上显著提升下游智能体成功率。实验表明，测试时记忆修正同时增强了预测保真度和规划性能。

论文 WorldEvolver LLM 世界模型智能体规划 ALFWorld

推荐理由：WorldEvolver通过三种记忆模块让智能体的世界模型在测试时自我进化，在ALFWorld和ScienceWorld上预测准确率最高，下游成功率也领先其他方法。

原文

13:53

arXiv cs.AI@Yuhong Deng, Yuyao Liu, David Hsu

GROW^2提出一种层次化功能定位方法，将物体部件作为抽象层分割语义和几何过程。语义层利用VLM（如GPT-4V）分析任务指令并选择合适工具及关键部件；几何层通过视觉基础模型（如SAM）从单张RGB-D图像定位精确3D区域。在功能预测基准上，GROW^2优于现有基线方法，并实现对开集物体的零样本泛化。仿真和真实机器人工具使用实验均验证了其有效性，例如用盘子代替刀切蛋糕。

论文 GROW^2 VLM 视觉基础模型机器人工具使用

推荐理由：这篇论文教机器人像人类一样用盘子切蛋糕，不受工具原始功能限制。用VLM选工具、SAM定位，零样本效果比现有方法好。

原文

13:53

arXiv cs.AI@Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary

论文在Qwen3-14B策略上采用DPO，设置三个保守度β（低、中、高），并在在线适应中使用3×Qwen3-1.7B奖励集成。在GSM8K基准上测量准确率，发现更高保守度单调增加奖励黑客损伤，Goodhart gap及其曲线下面积AUGC的Spearman ρ=1.0。机制分析表明，高β DPO压缩策略熵，导致响应多样性降低，但集成分歧增加且被更快利用。论文进一步拟合幂律曲线，确定了平衡对齐保真度和漏洞的最优保守度β*。

论文 Qwen3-14B DPO GSM8K 推理模型 RLHF

推荐理由：这篇论文用Qwen3-14B和DPO实验证明，离线训练越保守，在线适应越容易翻车，还在GSM8K上给出了最优保守度公式。做RLHF的值得一读。

原文

13:46

arXiv cs.AI@Xinlei Yu, Gen Li, Qingyi Si, Guibin Zhang, Yuqi Xu, Congcong Wang, Shuai Dong, Kaiwen Tuo, Xiangyu Zeng, Kaituo Feng, Qunzhong Wang, Yang Shi, Xiaobin Hu, Xiangyu Yue, Jiaqi Wang, Shuicheng Yan

精选

DOPD是一种advantage-aware的双重蒸馏范式，通过动态路由令牌级监督信号，在特权教师和特权学生策略之间进行分配，缓解了传统同策略蒸馏中的特权幻觉问题。实验在LLM（如GPT-2）和VLM（如CLIP）上验证，结果显示DOPD在稳定性和鲁棒性等指标上持续优于Vanilla OPD。

论文 DOPD LLM VLM 蒸馏模型压缩

推荐理由：这篇论文提出了一种新蒸馏方法DOPD，通过分令牌监督解决特权幻觉，在LLM和VLM上效果都更好，适合关注模型压缩的研究者。

原文

13:46

arXiv cs.AI@Ziwei Su, Junyu Ren, Victor Veitch

该论文研究了对比嵌入模型中，尽管训练损失是尺度不变的且通常使用余弦相似度，但嵌入向量的范数（norm）却意外地与概念特异性、词频和人类不确定性等语义属性相关。作者通过分析优化动力学，推导出一个解析公式，证明嵌入长度作为训练过程的副产品自然地编码了这些信息。研究还展示了这种信号如何在特定模型和检索任务中作为“免费”校准工具使用，为之前仅基于经验的观察提供了理论解释。

论文对比嵌入嵌入范数语义特异性校准优化动力学

推荐理由：一篇理论论文，解释了为什么对比嵌入模型的向量长度能反映语义，以后做检索任务可以白捡校准信号。

原文

13:45

arXiv cs.AI@Haoran Jin, Xiting Wang, Shijie Ren, Hong Xie, Defu Lian

稀疏自编码器（SAE）常用于解释大语言模型，但扩展到大规模字典时会出现特征分裂（将连贯概念拆分为非原子潜在变量）和特征吸收（在通用特征中创建任意例外）问题。这些问题源于不同样本间的潜在变量分配不一致。C^2R方法通过惩罚批量中方向相似潜在变量的共激活，显式鼓励每个语义特征由统一潜在变量表示。评估显示C^2R有效缓解分裂和吸收，同时保持重建保真度，代码已在GitHub开源。

论文 C^2R 稀疏自编码器特征分裂可解释性正则化

推荐理由：这篇论文发现了SAE解释模型时的两个大坑——特征分裂和吸收，然后用C^2R正则化给治好了，代码开源，直接上手试试。

原文

13:43

arXiv cs.AI@Kunyang Li, Kyle Domico, Jonathan Gregory, Patrick McDaniel

多智能体系统（MAS）的通信信道面临攻击风险，单个被攻破的边可导致高达75%的攻击成功率。Mesa框架无需攻击痕迹，结合6种图论度量和2种动态探测（消融和掩蔽）对边进行安全性排序。在三个MAS场景、八种网络拓扑和Qwen、Llama、Gemma等五个开源LLM上测试，排序与经验攻击成功率平均Spearman ρ=0.60，峰值0.73。资源受限时，监控Mesa排名前10%的边可拦截约3倍于随机分配的成功攻击。

论文 Mesa 多智能体系统通信信道 AI安全

推荐理由：Mesa能提前找出多智能体系统里最危险的通信链路，监控前10%就能拦截3倍攻击，比随机分配强多了。

原文

13:41

arXiv cs.AI@Asif Shahriar, Hongyu Cai, Hadjer Benkraouda, Gang Wang, Z. Berkay Celik

研究者首次系统探索认知启发对LLM代码漏洞检测的影响。他们构建控制框架，通过改变上下文触发光环、框架、锚定三种启发。在8个LLM和3种编程语言上的评估显示，所有模型均受影响：框架效应平均易感性最高（33.2%），锚定效应23.5%，光环效应18.4%。代码级分析表明，需语义推理的漏洞比模式匹配的更易受影响。此外，黑盒攻击可抑制高达97%之前检测到的漏洞。

论文 LLM 代码漏洞检测认知启发光环效应锚定效应

推荐理由：想知道LLM有多容易受骗吗？这篇论文用实验告诉你，LLM检测漏洞时跟人一样有认知偏差，改个上下文就能让它放跑97%的漏洞。

原文

13:39

arXiv cs.AI@Liyao Wang, Ruipu Wu, Haojun Xu, Lei Shi, Linjiang Huang, Si Liu

现有跨视角目标地理定位方法依赖2D外观匹配，受限于缺少几何元数据的数据集。研究者提出GAGeo框架，基于置换等变3D基础模型π³，在单次前向传播中联合预测边界框、分割掩码和相机位姿。新构建的GeoTerra数据集包含超过22万对地面-卫星和无人机-卫星图像，提供多模态提示（点、框、蒙版）和相机位姿。引入的对比损失利用卫星视图作为通用锚点，实现零样本地面到无人机定位。实验表明该方法在未见场景和新型跨视角设置中显著优于现有方法。

论文 GAGeo GeoTerra 跨视角定位 3D基础模型 π³

推荐理由：想搞跨视角目标定位？这篇论文用GAGeo和22万对数据集解决了2D匹配的局限，还能零样本从地面转到无人机视角。

原文

13:38

arXiv cs.AI@Jithin S., Roshin Sleeba C., Anvin Mariya P. B., Asmitha K. A., Vinod P., Serena Nicolazzo, Antonino Nocera

该论文提出一个基于混合专家（MoE）架构的统一多任务恶意软件分析框架，同时在高维EMBER特征集和原始1D字节数组上处理三种任务：恶意软件家族分类、加壳/未加壳检测、恶意/良性识别。研究了Homogeneous MoE、Heterogeneous MoE和Multi-Gate MoE（MMoE）三种变体，在原始和变异样本上评估对抗鲁棒性。MMoE模型取得最佳性能，综合检测率0.9744，失败率仅2.56%，且在分布偏移下表现出更强的鲁棒性。结果表明专家专业化和任务特定路由能有效应对复杂恶意软件分布。

论文 MoE EMBER 恶意软件分类多任务学习二进制分析

推荐理由：这篇论文用MoE同时干分类、查加壳、判黑白三种活，检测率97.44%，比单模型稳多了，做恶意软件方向的值得看。

原文

12:46

arXiv cs.AI@Aspen Hopkins, Allison Nulty, Alexandria Minetti, Anoop Pakki, Angad Singh

该论文提出人类创造力基准(HCB), 收集15000个专业判断覆盖5个创意领域和3个工作流阶段(构思/模型/细化)。HCB将评价分为收敛(如技术正确性)和发散(如美学方向), 发现专业分歧代表真实品味差异而非测量误差。单一质量指标会丢失关键信息: 模型在哪些维度必须正确、哪些维度应保持可操控性。

论文 Human Creativity Benchmark 创意AI 评估基准专业判断 AI评估

推荐理由：这篇论文用15000个专家评价告诉你, 测AI创意能力不能只看平均分, 分歧本身才是宝藏。

原文

12:46

arXiv cs.AI@Kan Zhu, Mathew Jacob, Chenxi Ma, Yi Pan, Stephanie Wang, Arvind Krishnamurthy, Baris Kasikci

华盛顿大学发布了TraceLab数据集，收录约4,300个编码Agent会话、350,000个LLM步骤和430,000次工具调用，数据来自日常使用的Claude Code和Codex。分析显示，工作负载具有长自主循环、长上下文短输出、多样且长尾的工具调用等特征，前缀缓存命中率虽高但存在不完美之处。基于这些发现，研究者提出了低开销工具调用、追加长度感知的预填充、语义感知工具延迟预测以及改进KV缓存管理四项优化方向。数据集和分析代码已开源在GitHub。

论文 TraceLab Claude Code Codex 编码Agent 工作负载

推荐理由：想看看编码Agent真实的调用模式？TraceLab用4300个会话告诉你Claude Code和Codex的工作负载细节，还指明了KV缓存优化的具体方向。

原文

12:43

arXiv cs.AI@Dvir Alsheich, Adar Peleg, Ben Hagag, Rom Himelstein, Amit Levi, Avi Mendelson

ANTAP 是一种评估驱动的路由架构，通过主动能力测试取代代理的文本描述或嵌入代理。在实验中，ANTAP 对基于描述的注入攻击的攻击成功率（ASR）接近 0%，而基于描述的路由基线 ASR 达到 67.3% 以上。对于自适应嵌入攻击，ANTAP 的 ASR 比基于嵌入的基线降低 20%，且设计上对描述操控具有鲁棒性。该架构建立“语言防火墙”，使基于元数据的攻击无法表达。

论文 ANTAP 多智能体 AI安全路由

推荐理由：这篇论文提出了 ANTAP，用代数投影代替代理描述做路由，把注入攻击成功率打到了接近零，比传统方法安全太多。

原文

12:42

arXiv cs.AI@Jessica Hutchison, Ian Tyler Applebaum, Kenneth Angelikas, Kush Rakesh Patel, Phuoc Nguyen, Antonio Lazaro, Nicholas Rucinski, Rahad Arman Nabid, Stephen MacNeil

研究者提出Clover代码补全工具，记录学生与代码建议的交互（如tab接受、停留时间），并嵌入注意力检查来探测反思性参与。基于文献构建了AI辅助编程的行为交互度量分类法。实验发现，高tab接受率与低注意力检查表现相关，而长时间停留与高注意力检查表现相关。该研究为衡量学生是否批判性评估AI代码建议提供了定量方法。

论文 GitHub Copilot Clover AI代码补全编程教育注意力检查

推荐理由：这篇论文用Clover工具测出学生无脑接受Copilot建议会导致注意力下降，建议看看怎么避免。

原文

12:29

arXiv cs.AI@Heejeong Nam, Chandradithya S Jonnalagadda, Harshit Aggarwal, Eric Xu, Randall Balestriero

Observed Transition Factorization (OTF) 将每个过渡分解为稀疏的观察过渡原语，用于解耦智能体动作与干扰物、相机动态等。基于此，OTF-LAM 在标准逆向正向动力学框架中将运动原语抽象为动作潜变量，而 OTF-LAM-Dino 则在冻结的 DINOv2 表示空间中预测未来状态，无需解码器。实验表明，OTF 原语在控制载体和形态变化下零样本迁移，下游策略学习性能在复杂过渡歧义下匹配或优于基线。

论文 OTF-LAM OTF DINOv2 智能体歧义运动原语

推荐理由：这篇论文提出了新方法 OTF，能在有干扰的场景下解耦动作源。OFT-LAM 和 OFT-LAM-Dino 两种变体在零样本迁移和复杂环境下表现不错，适合做多物体交互推理的研究者看看。

原文

12:28

arXiv cs.AI@Sathvik Manikantan Napa Ugandhar, Hao Zhang, Alison Gunzler, Yuzhe Wang, Thomas Thebaud, Georgi Tinchev, Venkatesh Ravichandran, Laureano Moro-Velázquez

论文提出DyadEE数据集，包含真实情感协调对话和通过交换伴侣、情感重合成制造的干扰对话。同时提出TRACE框架，将双人交互建模为基于情感微调Whisper声学嵌入的有序序列，将每个样本视为交互痕迹而非池化话语。在DyadEE上实验表明，融入对话上下文和关系信息可提升检测效果，TRACE达到97.01%的准确率。

论文 TRACE DyadEE Whisper 情感识别语音交互

推荐理由：想研究语音AI如何感知对话中的情感协调？这篇论文提出了新数据集DyadEE和框架TRACE，准确率高达97%，值得做语音交互的朋友看看。

原文

12:23

arXiv cs.AI@Cheng Gong, Haoyang Wang, Chao Lu, Zirui Li, Jianwei Gong

这篇论文提出 Rollout-Retrieval Lifelong Policy Learning（R^2LPL）框架，让预训练的自动驾驶策略能从自身闭环错误中持续学习。R^2LPL 通过回滚可恢复的错误状态并检索可行修正目标，将稀疏的失败证据转化为紧凑的监督信号。在大型闭环 nuPlan 基准上，经过少量轮次的 rollout 和终身学习迭代，R^2LPL 将中等初始性能的学习型规划器提升至 SOTA 水平，尤其在具有挑战性的 Test14-hard 分集上表现突出。该方法证明了将可恢复闭环错误转化为修正知识用于持续策略改进的有效性。

论文 R^2LPL nuPlan 自动驾驶终身学习策略学习

推荐理由：这篇论文教你用 R^2LPL 让自动驾驶策略从自己的错误里学，在 nuPlan 上跑分直接刷到 SOTA。

原文

12:22

arXiv cs.AI@Rahul Suresh Babu, Shashank Indukuri

工具增强语言模型智能体在选取正确工具后仍可能对错误的外部实体执行操作。例如，请求“给Alex发邮件关于发布事宜”可能导致联系错误的Alex或附加错误文档。该研究区分了工具正确性与实体正确性，提出了企业工作流中错误实体失败的分类法。在60个任务、5个模型后端和6种工具方法的评估中，所有方法实现0.0%工具错误，但动作基线仍有24.0-26.0%的运行出现错误实体动作。实体感知方法消除了错误实体动作，但会因模糊延迟降低直接任务完成率。

论文智能体工具增强实体绑定 AI安全可靠性

推荐理由：这篇论文揭露了一个容易被忽视的坑：智能体工具用对了，但可能找错对象。测试中有24-26%的出错率，很值得关注。

原文

12:12

arXiv cs.LG@Srinivasa Rao P., Vangmayi P Reddy

该论文提出统一框架，连接信息论、拓扑和统计力学，解释深度学习的泛化极限。核心是熵可学习性界限（ELH），规定网络仅当数据流形香农熵超过决策边界拓扑熵且平衡网络权重的冯·诺依曼熵时才能学习。作者证明香农-拓扑瓶颈定理，表明超过此界限时系统进入信息挫折的玻璃态记忆阶段，泛化变得热力学不可能。他们发现grokking现象实质是熵释放，权重突然重组解锁瓶颈。论文还提出熵梯度下降（EGD）算法，动态管理权重熵以保持学习轨道。

论文深度学习理论信息论泛化 grokking 可学习性

推荐理由：这篇论文用熵来解释深度学习泛化的硬极限和grokking，还给了EGD优化算法，理论研究者可以看看。

原文

12:10

arXiv cs.LG@Mark Rhee, Jamie Simon, Dhruva Karkada

该论文研究Muon优化器在矩阵分解问题中的参数动力学，发现其与梯度下降有三点关键差异：1）Muon避免从小初始化开始的慢鞍点动力学，以相同速率学习所有顶模，较小模先收敛；2）即使学习率超过局部损失尖锐度的临界阈值，Muon仍保持稳定，允许通过指数学习率退火实现快速收敛；3）Muon流守恒矩阵√(P^T P)-√(Q^T Q)，而梯度流守恒P^T P - Q^T Q。从零初始化时，两者都能找到平衡解。论文还推导了简单设定下的对齐速率，并利用Muon结构属性设计了仅需两步达到近完美对齐的学习率调度。

论文 Muon 矩阵分解优化器动力学平衡解

推荐理由：如果你关注优化器理论，这篇论文揭示了Muon比梯度下降更快的机制，并且给出了一个只需两步就对齐参数的学习率调度，很实用。

原文

11:53

arXiv cs.LG@Nick Oh, Helen Jin

本文指出，后验解释方法常用于解释科学机器学习模型，但仅凭模型可靠（预测匹配结果）和解释忠实（解释匹配模型）不足以证明模型揭示了现象的真实结构。文章强调，两者均未验证模型的工作机制是否与现象本身一致。作者认为，要支持关于现象结构的声明，还需依赖外部佐证，而非仅靠解释链。

论文后验解释可解释性科学模型 XAI

推荐理由：这篇论文点出一个关键漏洞：模型准、解释对，不等于模型真懂现象。做AI科学发现的人必看。

原文

11:52

arXiv cs.LG@Isao Kurosawa

研究人员针对碳捕获与封存（CCS）、地热等场景中事件检测的鲁棒性展开研究，将传感器故障容错与低信噪比鲁棒性区分开。他们基于Hi-net地震波形、Utah FORGE 2024钻孔DAS和MAFAULDA工业振动三个真实数据集构建了统一二进制事件检测基准，使用8通道256样本表示。在干净数据上所有模型AUC约0.99。在渐进式传感器丢失下，简单模型已具备鲁棒性，CEPHALON无优势。但在加性噪声-2.5 dB时，CEPHALON的AUC为0.939，而卷积基线在0.532-0.572之间。消融实验表明训练策略（每样本传感器丢弃）是低SNR鲁棒性的主导因素，而非平行冗余架构。

论文 CEPHALON Hi-net Utah FORGE MAFAULDA 事件检测鲁棒性

推荐理由：这篇论文用三个真实数据把故障容错和抗噪鲁棒性分清楚了，发现训练方式比架构更关键，做事件检测的可以看看。

原文

11:51

arXiv cs.LG@Chuxiao Zuo, Yao Zhu, Minqiang Xu, Manhong Wang, Yunke Zhang, Fei Huang

提出自适应模态路由（AMR）模块，用于多模态多语言说话人识别。AMR使用W2V-BERT 2.0音频编码器和IResNet-18人脸编码器，通过可训练路由器动态分配模态权重。在POLY-SIM 2026评估集上，系统在4个协议上的平均准确率达99.07%，比FOP基线提升32.73%。具体成绩：英语多模态99.93%，乌尔都语多模态100.00%，英语仅音频97.50%，乌尔都语仅音频98.83%。

论文 W2V-BERT 2.0 IResNet-18 AMR 多模态说话人识别

推荐理由：这篇用AMR动态融合音视频特征，缺失模态也能准确识别说话人。在POLY-SIM上平均99%准确率，比基线高32%，很实用。

原文

11:47

arXiv cs.LG@Şuayp Talha Kocabay, Talha Rüzgar Akkuş, Kerem Yalçın

精选

论文证明组合函数树的Rademacher复杂度不随符号结构数量指数增长，而是受深度d和基算子Lipschitz常数控制。具体界为ℜ_n(ℋ_comp^d) ≤ (Kb√2L)^{d-1}ℜ_n(ℋ_comp^1)，其中K为算子库大小、b为元数。当K,b=O(1)时，高概率风险界为O(L^d/√n)。实验在合成物理类目标上验证了理论预测。

论文 PAC学习符号回归 Rademacher复杂度组合函数树

推荐理由：论文把PAC学习理论用到符号回归上，证明了组合函数树的样本复杂度不会随深度爆炸，还给了可跑的代码。

原文

11:45

arXiv cs.AI@Tianyu Ding, Aditya Nannapaneni, Bingfan Liu, Ling Zhang

该综述聚焦于“永远在线”的LLM智能体，将其视为持久状态系统，涵盖可检索记忆、任务账本、权限、凭证等。论文提出了六个诊断轴（权威性、范围、可变性、来源、可恢复性、可操作性）和生命周期（写入、验证、组织、检索、行动、更新、遗忘、审计、回滚）。基于435篇论文的编码语料库，发现当前研究集中在状态积累与检索，而忽视治理、恢复与放弃。为此，作者引入了Always-On Evaluation Protocol（AOEP-v0），一种通过评分状态突变和恢复义务来测试治理需求的评估合同。该议程将永远在线智能体与数据库、分布式系统、形式化方法、能力安全和机器遗忘等领域联系起来。

论文 Always-On Agents LLM智能体持久状态治理综述

推荐理由：一篇很扎实的综述，把LLM智能体“一直在线”带来的状态管理问题系统化了。有435篇论文支撑，还提出了自己的评估协议AOEP-v0，适合想深入理解智能体持久化设计的读者。

原文

11:44

arXiv cs.AI@Xingran Ruan, Angelo Salatino, Rosa Filgueira, Kara Moraw, Alexandru Marcoci, Gemma Derrick, Sarah Callaghan

这篇论文比较了GPT-4o、Mistral和DSIT-Taxonomies算法从42份UKRI基金提案摘要中提取研究实体的效果。Mistral实现了90.5%的主题分类准确率，远超DSIT-Taxonomies的71.4%。Mistral与GPT-4o的实体集质量相当且语义重叠度高，但Mistral在操作效率和安全性上更优。研究依托OpenAlex Topics分类体系，为大规模敏感数据分析提供参考。

论文 Mistral GPT-4o 实体提取主题检测 OpenAlex Topics

推荐理由：这篇论文实打实比较了GPT-4o、Mistral和DSIT-Taxonomies在提取基金提案实体上的能力，Mistral准确率90.5%碾压对手，做科研数据挖掘的可以看看。

原文

11:43

arXiv cs.AI@Wenjia Jiang, Zongyuan Cai, Yuanhang Shao, Chenru Wang, Boyan Han, Zhixue Song, Keyu Chen, Shengwei An, Xu Yang, Zhou Yang

ManimAgent是一个基于大语言模型的自进化多模态智能体，能从学术论文段落生成Manim库的Python代码以渲染数学动画。它通过双通道情节记忆库（M+和M-）跨任务保存反思经验，无需权重更新或人工种子。在固定探针评估中，相比无记忆、匹配预算的检索增强生成和混洗记忆基线，盲人Pass@1随记忆增长而上升，反思轮次下降。

论文 ManimAgent Manim 多模态智能体代码生成视觉教育

推荐理由：这篇论文提出了ManimAgent，它能通过经验记忆自我进化，生成数学动画代码时效果比基线方法好很多。

原文

11:42

arXiv cs.AI@Rahul Khedar, Mayank Malhotra, Avinash Karn, Mouli V, Prakhar Mehrotra

Rhetor是一个多智能体系统，输入运行中的web应用和源码，输出带旁白和实时语音问答的排练直播演示。其跨模态特征表示融合UI探索与源码分析，并采用多策略语义定位器。在四个应用中测试，包括公共白板应用Excalidraw，定位器触发率（sigma-bar）在147个动作中为0.31-1.00。在53个动作的大负载任务上触发率约0.92，Excalidraw在迭代2收敛至1.00。论文还定义了十项指标的基准协议用于评估设计选择。

论文 Rhetor 多智能体实时语音问答直播演示 Excalidraw

推荐理由：Rhetor能自动生成带实时问答的直播演示，比纯浏览器代理或固定视频强，在Excalidraw上达到100%定位准确率。

原文

11:41

arXiv cs.AI@Zhifei Hu, Alexandra I. Cristea

PromptGNN-sim提出双向结构-语义融合框架，利用GAT进行语义感知邻域选择，生成结构感知提示（含目标节点摘要、标签类别、相似邻居关键词）引导LLM。通过跨模态对比学习和交叉注意力联合优化GNN与LLM。在Cora、Pubmed、WikiCS等6个公开数据集上，PromptGNN-sim在准确率、泛化性和鲁棒性上超越经典GNN、LLM及近期融合方法。

论文 PromptGNN-sim GNN LLM 图学习文本属性图

推荐理由：这篇论文给出了一个让GNN和LLM真正协作的新思路——用图结构信息去构造提示词，再反过来优化图模型。实验扎实，覆盖6个数据集，比现有融合方法都强。

原文

11:39

arXiv cs.AI@Bang An, Yibo Yang, Dandan Guo, Ebtisam Alshehri, Carlos Hinojosa, Bernard Ghanem

论文提出Embedded Attack，将有害的问答对嵌入良性训练样本中，测试表明代表性防护机制在样本级别难以检测。为应对这一威胁，作者提出双参考SFT（DR-SFT），通过词元级正则化将DPO风格的对比目标适配到SFT，在粗粒度数据过滤之外缓解有害微调。实验证明该攻击能绕过现有防御，而DR-SFT可有效降低有害行为。

论文 Embedded Attack DR-SFT AI安全微调对抗防御

推荐理由：这篇论文揭示了有害微调的新方式，提出Embedded Attack和DR-SFT，对AI安全研究者很有启发。

原文

11:35

arXiv cs.AI@Maxime Riché, Daniel Tan, Vili Kohonen, Niels Warncke

该论文提出接种适配器（Inoculation Adapters, IA），基于LoRA在训练时强化不良特征以减轻优化压力。方法分三步：在不良特征上训练IA，冻结IA同时训练任务适配器，部署时丢弃IA仅保留任务适配器。在6个模型家族和包括突发性错位（emergent misalignment）在内的多种不良特征上，IA比接种提示（inoculation prompting）更有效抑制不良特征。同时避免接种提示的两个缺点：无法可靠通过提示诱发的特征抑制、引入较少意外后门。但IA在保留期望特征方面未一致优于接种提示，仍是挑战。

论文 Inoculation Adapters LoRA 选择性泛化 AI安全后门

推荐理由：这篇论文提出了一种叫接种适配器的新方法，用LoRA在训练时强化不想有的特征，比之前的接种提示更好用，后门更少，适合关心AI安全的人看。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？