全部 AI 动态 · AI 热点

6月16日

10:50

arXiv: Google DeepMind@Robert Dorward

本文研究两种极小格 L(m,n)（m×n 盒子中的分区）和 M(n)（至多 n 的不同部分分区）的对称链分解（SCD）计数问题。作者给出了 L(2,n) 的 #SCD 显式公式，该公式基于排列反演集。对于固定 m>1，他们猜想 #SCD(L(m,n)) 和 #SCD(M(n)) 均超指数增长，该猜想由 Google DeepMind 的进化编码代理 AlphaEvolve 生成的数据支持。文章还证明 Lusztig 对合（evacuation）可扩展为 SCD 上的对合，由此推出 n>2 时 #SCD(M(n)) 为偶数。最后，他们引入与 SCD 等价的 skew tableaux 序列，并探讨了通过 tableau 回避寻找 SCD 的路径。

论文 L(m,n)M(n)对称链分解 AlphaEvolve Google DeepMind

推荐理由：这篇论文给出了 L(2,n) 的对称链分解精确计数公式，并用 AlphaEvolve 数据支持超指数增长猜想，与布尔格的最新结果相呼应。

原文

10:49

arXiv: DeepSeek@Ke Miao, Jiaxin Li, Hongliang Chen, Yuke Hu, Zhan Qin

论文Safe Trigger提出利用大推理模型(LRM)自身的潜在安全意识进行安全对齐，无需外部人工标注。该方法先使用监督微调(SFT)为不安全查询注入安全标签触发安全分析，对一般查询保持原响应实现自适应；再通过直接偏好优化(DPO)提升安全分析的稳定性。实验显示，DeepSeek-R1-Distill-Llama-8B在有害和越狱基准上的攻击成功率(ASR)平均下降24.65%和36.72%，且通用性能几乎不受影响。

论文 Safe Trigger DeepSeek-R1 大推理模型 AI安全 SFT

推荐理由：这篇论文发现LRM自己就能识别风险，用SFT+DPO触发安全分析，让DeepSeek-R1的越狱成功率高降36%，还不用外部数据，挺实用的。

原文

10:48

arXiv: DeepSeek@Zewen Liu

论文发现，当AI智能体使用语言模型在反馈循环中自我评估时，会产生系统性偏好偏差。在多模态环境中，评估者偏好崩溃（EPC）被显著放大：用GPT-4o评估DeepSeek-chat时，单一策略step_by_step吸收48.4%权重，是纯文本自评估崩溃程度的3.2倍，而三个视觉域策略合计仅占9.1%。跨模态传染现象揭示：在一个模态获得的评估者偏好会转移到另一个模态并扭曲策略选择。四阶段隔离训练实验测量了传染系数，并发现跨模态暴露后最优策略发生反转。在53次独立重复、15,592次API调用统计中，跨模型评估产生强对称双向传染（均值γ_{T->V}=1.176, γ_{V->T}=1.089），而自评估（DeepSeek-chat）97%运行传染为零。

论文 GPT-4o DeepSeek-chat 多模态评估者偏好崩溃跨模态传染

推荐理由：这篇论文用GPT-4o和DeepSeek-chat做实验，发现AI自我评估时策略偏好会崩坏，还跨模态传染，数字很硬核，搞多模态和智能体的值得看。

原文

10:48

arXiv: DeepSeek@Xiaoyun Xu, Lichao Wu, Jona te Lintelo, Siyu Zhang, Stjepan Picek

SPARK是一种无需重训练的推理时安全机制，通过两步骤激活预训练模型中已有的安全知识。第一步针对编码任务检索少量CWE条目并附加结构化提示，第二步在每个解码步骤添加预计算token偏置（来自安全方向向量投影）。在9个开源模型（C++/Java/Python）上评估，SPARK匹配或优于7种基线方法，同时保持HumanEval代码能力。在Claude、DeepSeek、GPT等7个黑盒模型上进一步验证了激活瓶颈的存在和SPARK的改进效果。

论文 SPARK 代码安全安全生成推理时 CWE

推荐理由：不用微调，不拖慢速度，只加几行提示和词向量偏置，代码安全就上去了，效果和重训练一样好。

原文

10:47

arXiv: DeepSeek@Haolong Qian, Xianliang Yang, Yinuo ma, Lirong Che, Feng Lu, Ye Guo, Lei Song, Jiang Bian, Chun Yuan

论文在Qwen2.5、LLaMA-3和DeepSeek三个系列上发现：用小模型自身生成并通过拒绝采样选取的轨迹，比用更强Oracle模型精炼的高奖励数据，能更有效提升数学推理。Oracle精炼虽修复逻辑，但引入分布偏移，增加小模型适应成本，抵消了逻辑改进的收益。作者提出风格对齐精炼（Style-Aligned Refinement），保留小模型原生轨迹风格同时融入Oracle逻辑修复，降低适应成本并恢复下游效用。该发现挑战了数学推理蒸馏中依赖奖励模型分数选择数据的常规做法。

论文 Qwen2.5 LLaMA-3 DeepSeek 知识蒸馏推理模型

推荐理由：这篇论文揭穿了一个直觉错误：你以为给小白模型喂“学霸笔记”能变强，结果效果还不如它自己瞎写的解题草稿。原因是学霸的思路和它不匹配，硬学反而费劲。

原文

10:45

arXiv cs.AI@Yizhen Yao, Qinglin Zhu, Runcong Zhao, Xiangxiang Dai, Yanzheng Xiang, Yulan He, Lin Gui

扩散大语言模型(dLLMs)在并行生成中面临解码速度与质量权衡。现有可撤销解码策略存在错误传播和局部错误强化问题。研究提出ASRD框架，通过时间一致性识别锚点令牌并动态缓存，引入锚点引导生成和锚点扰动验证两种机制。在数学和编码基准上，ASRD相比最新基线实现准确率提升最高6.4%，推理吞吐量提升最高7.2倍。

论文 ASRD 扩散LLM Anchor Tokens 可撤销解码推理模型

推荐理由：这篇论文帮你用更少计算让扩散LLM更准更快，数学编程题准确率升6.4%，速度翻7倍，值得看一下。

原文

10:44

arXiv cs.AI@Qian Qi

精选

该论文研究了连续时间随机控制中Q-learning的算子理论核心，在均匀椭圆性和Hölder正则系数条件下，证明了Bellman更新将有界输入映射到各向异性正则类，状态变量被平滑而动作变量仅保持Lipschitz依赖。论文提出了适应混合正则性的张量积DeepONet架构，并给出了显式近似和资源界限以及时间步δ→0时的刚度-复杂度权衡。作者未声称对带探索、经验回放和随机梯度更新的实际采样Q-learning有完整的收敛定理。

论文 Q-learning DeepONet Hölder空间正则性强化学习

推荐理由：这篇论文把Q-learning的Bellman目标正则性研究透了，还给出了DeepONet的近似界限，适合搞理论强化学习的人细读。

原文

10:43

arXiv cs.AI@Ankit Bhattacharjee, Krityapriya Bhaumik

RDS Fusion是一种混合神经符号架构，通过压缩链式思维（CoT）推理轨迹实现零样本讽刺检测，无需监督微调。在TweetEval测试集（N=734）上，RDS取得78.1%准确率和0.777宏F1，匹配微调BERTweet的性能上限。在严重不平衡的iSarcasm数据集上，其冻结CoT管道过滤了22.5%的分布外幻觉，零样本宏F1达0.6726，Ironic F1为0.4821，优于多个有监督SemEval集成模型。统计消融实验表明，仅当三种信号完全融合时才产生显著改善（p=0.005）。

论文 RDS Fusion 讽刺检测混合神经符号 Chain-of-Thought 社交文本

推荐理由：这篇论文提出了RDS Fusion，不用微调就能在讽刺检测上达到和微调BERTweet一样的水平，还在难数据集上比很多监督方法强。

原文

10:41

arXiv cs.LG@Miso Choi, Seonga Choi, Mincheol Kwon, Woosung Joung, Jinkyu Kim, Jungbeom Lee

论文发现，在Vicuna、Qwen2.5、LLaMA2和Mistral等模型家族中，上下文的真实性评分（Truth Scores）在指令微调或多模态适配后高度保留，与其注意头权重继承一致。作者提出TruthProbe软门控策略，通过放大上下文真实头而保留其他头贡献，在HaluEval上提升上下文真实性，并在POPE和CHAIR上减少多模态幻觉。基础LLM的真实头评分有效传递给微调后的LLM和多模态LLM后代。代码已开源。

论文 TruthProbe Vicuna Qwen2.5 多模态幻觉

推荐理由：这篇论文挺有意思，发现模型家族里真实头会继承，搞了个TruthProbe来减少幻觉，效果不错，适合研究模型可解释性和幻觉问题的人看。

原文

10:38

arXiv cs.LG@Jinrong Xiang, Ming Xu

针对跨域交通预测中粗粒度适应、未知模式处理不足等问题，提出Memory-Augmented Graph Liquid Time-Constant Network (MA-GLTC)。该框架通过时空单元分解网络实现细粒度知识对齐，利用图液体时间常数网络 (GLTC) 建模连续时间图耦合演化，并设计基于记忆的迁移存储 (MTS) 机制保留和更新跨域模式。在5个公开交通数据集上，MA-GLTC在短期和长期预测任务中均优于代表性内域和跨域基线。相比第二优方法，MA-GLTC平均预测误差分别降低3.02%、0.33%、8.92%、10.09%和2.11%。

论文 MA-GLTC 跨域交通预测图液体时间常数网络 GLTC 智能交通

推荐理由：这篇论文提出了MA-GLTC，通过记忆增强和图液体时间常数网络解决了跨域交通预测的连续动态问题，在5个数据集上平均误差最高降10%。

原文

10:37

arXiv cs.LG@Tamim Zoabi, Ameen Ali, Liran Ringel, Lior Wolf

离散扩散语言模型通过并行生成令牌降低延迟，但独立选择易产生不兼容配置。本文提出训练免费解码框架，利用成对交互调整commit scores，通过变分松弛实现不动点更新。该方法无需辅助模型或重训练，可嵌入现有扩散解码流程。在推理和代码生成基准上，该方法在质量-延迟权衡方面取得一致改进。

论文离散扩散语言模型并行解码推理基准代码生成

推荐理由：不用额外训练，给离散扩散模型装上智能调度，并行生成质量更好、延迟更低。推理和代码生成都有效。

原文

10:36

arXiv cs.LG@Anna Zykova-Myzina, Timofei Gritsaev, Daniil Tiapkin, Nikita Morozov

该论文将近端策略优化（PPO）应用于生成流网络（GFlowNet）框架下的离散概率分布采样。作者推导了GFlowNet的等价策略梯度算法，并实验探索了基线训练和优势估计等环节。这是首次成功将PPO应用于GFlowNet，在合成能量和分子图生成等基准上，PPO相比标准GFlowNet训练目标提升了收敛速度和数据效率。

论文 PPO GFlowNet 离散采样策略梯度强化学习

推荐理由：这篇论文把PPO用到了GFlowNet上，收敛更快、数据效率更高，做离散采样研究的可以看看。

原文

10:35

arXiv cs.LG@Nguyen Linh Dan Le

该论文提出BN-LTE（贝叶斯网络与潜在时间嵌入）框架，用于阿尔茨海默病进展的阶段感知因果建模。模型从基线生物标志物图像估计疾病伪时间，并依据AT(N)级联顺序约束有向依赖。在ADNI数据上，BN-LTE在tau蛋白扩散的空间重建上优于多个预测基线。模型识别出中伪时间窗口的淀粉样蛋白敏感性，并通过g-formula对比、AIPW和鲁棒性分析验证。代码已在GitHub公开。

论文 BN-LTE 阿尔茨海默病贝叶斯网络 AT(N)级联 ADNI

推荐理由：这篇论文用贝叶斯网络模拟阿尔茨海默病的AT(N)级联，比黑箱预测更可解释。它从ADNI数据中找到了tau扩散的关键时间窗，对神经影像研究有参考价值。

原文

10:34

arXiv cs.LG@Van Thong Huynh, Hong Hai Nguyen, Thuy Pham, Trong Nghia Nguyen, Soo-Hyung Kim

FACR将面部动作单元到情绪的推理建模为反事实一致性问题，提出基于独立诱导极性感知因果图G的训练目标。在UNBC-PAIN数据集上的主体无关评估中，该目标将调用动作单元与PSPI构造的一致性从基线0.08提升至0.57，代价是检测精度小幅下降。跨数据集七类情绪任务中一致性从0.50提升至0.84。通过将动作单元潜在激活与文本生成绑定，可实现语言解释的构造性忠实性，并迁移至第二套语言模型骨干。

论文 FACR PSPI UNBC-PAIN 反事实推理动作单元

推荐理由：这篇论文提出了FACR方法，用反事实干预让模型解释情绪时真正依赖因果相关的动作单元，不再只是表面合理，在UNBC-PAIN上一致性从0.08跳到0.57。

原文

10:33

arXiv cs.LG@Ali Sarabadani, Mahtab Tajvidiyan

DYNA是一个轻量级框架，通过整合时间知识图来增强冻结的LLM。该图将事件作为节点、时间关系作为带时间戳的有向边，作为外部可更新记忆。在查询时，DYNA通过随机游走和中心性度量检索相关节点，然后增强LLM的响应。在三个时间回忆任务上，DYNA相比微调减少约7%的灾难性遗忘，相比标准RAG提升约5%的时间排序准确性。实验发现，更高的图聚类系数与更好的检索性能相关。

论文 DYNA LLM 时间知识图知识检索

推荐理由：这篇论文提出DYNA，用时间知识图给LLM加外挂记忆，不用重新训练就能减少遗忘，比微调和RAG都更准，适合看重时效性的应用。

原文

10:27

arXiv cs.LG@Dong Hyun Jeong, Feng Chen, Jin-Hee Cho, Lance M. Kaplan, Audun Jøsang, Soo-Yeon Ji

论文提出不确定性激活图（UAM）框架，结合证据深度学习（EDL）和FullGrad，生成空间不确定性热力图。该方法区分空缺（缺乏证据）和不和谐（证据冲突）两种不确定性类型。通过主观逻辑和完全梯度分解，UAM可以定位图像中导致模型不确定的区域。在多个基准数据集上的评估表明，该框架弥补了不确定性量化与可解释性之间的差距。

论文 Uncertainty Activation Map Evidential Deep Learning FullGrad 不确定性可视化

推荐理由：这篇论文把不确定性可视化了，能告诉你模型哪里没学过、哪里证据打架，比光给一个置信度有用多了。

原文

10:26

arXiv cs.LG@Marios Koulakis, Constantin Seibold

论文提出了一个基准测试框架manifold-microscope，用于研究数据流形的几何特性。它扩展了dSprites和COIL-20数据集，引入额外的变换维度和密集轴对齐采样，并搭配有限差分估计器。该框架能以接近真实值的精度恢复曲率、reach和体积，而通用估计器在这些场景中不可靠。两个应用研究展示了该框架的用途：评估Genovese et al.和Fefferman et al.理论边界的缩放行为，以及跟踪β-VAE的逐层几何变化。

论文 dSprites COIL-20 β-VAE 数据流形几何估计基准测试

推荐理由：这篇论文给了一个实用的基准测试工具，帮你检验数据流形几何估计方法的准确性，还能用来验证理论假设。

原文

10:24

arXiv cs.LG@Mohamed Manzour, Aditya Kumar, Augusto Luis Ballardini, Miguel Ángel Sotelo

该框架采用因果推断方法进行换道预测，结合专家约束因果发现与Deep End-to-end Causal Inference (DECI) 模型。在车道线跨越事件前3秒内，平均F1分数超过95%。通过干预效应分析区分直接贡献变量与中介效应，并生成对比因果链解释。与传统基于相关性分类的方法不同，该框架提供可解释的因果推理。

论文换道预测因果推理自动驾驶可解释性 DECI

推荐理由：这篇论文把换道预测从统计相关提升到因果推理，用DECI模型实现了95%以上的F1分数，还给出了清晰的因果链解释，做自动驾驶可解释性的一定要看。

原文

10:23

arXiv cs.LG@Hyebin Cho, Jaehyuk Jang, Changick Kim, Joon Son Chung

提出在音频编码器中引入可训练提示（acoustic prompt）以捕获任务特定声学特征，与现有文本端提示学习结合，增强少样本适应能力。在11个数据集上的实验表明，该方法作为即插即用模块可普遍提升性能。显式调制音频表示空间有效补充纯文本提示方法。代码已开源。

论文音频语言模型少样本学习提示学习声学提示音频分类

推荐理由：这篇论文把提示学习从文本拓展到音频端，在11个数据集上验证了效果，代码已开源做少样本音频分类的可以看看。

原文

10:22

arXiv cs.LG@Hassan Ismkhan, Hamid Bouchahcia

论文提出UL4M4框架，通过无监督聚类和贪心插补处理多模态学习中任意缺失模态。该方法使用模态特定归一化和部分模态距离度量，在超过50%模态缺失时仍能在F1-Micro指标上首次稳定超过0.7。框架轻量级，可适配任意融合架构，性能显著优于现有基线。

论文 UL4M4 多模态学习模态缺失无监督学习论文

推荐理由：这篇论文提出了UL4M4，一个能在半数以上模态缺失时仍保持高F1分数的无监督框架，特别适合实际中数据不全的多模态场景。

原文

10:05

arXiv: Anthropic@Linus Bantel, Anna-Lena Roth, Jonas Posner, Dirk Pflüger

一项新研究使用基于OpenCode的智能体扩展Julia文档MCP服务器，评估了OpenAI GPT-5.5、Anthropic Claude Opus 4.7和开源Qwen3-Coder-Next在三个并行问题（π近似、分块矩阵乘、分块Cholesky分解）上生成Dagger.jl代码的能力。实验在共享内存192核和分布式两节点上进行，与Base.Threads和MPI.jl基线对比。结果显示智能体能生成小规模可执行代码，但在大规模下因死锁、过订阅或内存溢出失败，其中开源模型受影响最严重。商业模型在Base.Threads和MPI.jl上可扩展性相当，但Dagger.jl实现存在任务依赖、粒度和调度方面的反复弱点。

论文 GPT-5.5 Claude Opus 4.7 Qwen3-Coder-Next Julia 并行计算

推荐理由：这篇论文测试了GPT-5.5、Claude Opus 4.7和Qwen3-Coder-Next用智能体写并行Julia代码，在超算上跑192核，发现小规模还行，大规模容易死锁或OOM，开源模型最差。做HPC或Julia并行开发的人值得看。

原文

10:04

arXiv: Anthropic@David Huang, Jaewon Chang, Avidan Shah, Prateek Mittal, Chawin Sitawarin

这篇论文揭示了对快速响应（RR）框架的投毒攻击方法，RR框架部署于生产系统（如Anthropic的ASL-3安全防护），用于持续改进越狱检测分类器。攻击者通过在越狱样本中注入提示词，可以渗透训练管道，实现两种攻击目标：第一种是针对性投毒，在无害样本上制造假阳性（分类为越狱），特定特征（如格式、主题、关键词）可触发。第二种是基于概念的后门攻击，在存在后门触发器的越狱输入上诱导假阴性，甚至能泛化到防御方已训练过的攻击策略。论文提出的Omission Attack利用了一个新现象：训练时缺少特定概念的unsafe样本，会导致分类器将该概念的出现与safe标签错误关联。在仅1%的投毒率下，两种攻击分别实现高达100%的假阳性率和96%的假阴性率。

论文 Rapid Response Anthropic 投毒攻击后门攻击 ASL-3

推荐理由：这篇论文讲了对Anthropic等用的越狱检测防御框架的投毒攻击方法，投毒率才1%就能让检测器几乎失效，搞安全的一定要看。

原文

10:03

arXiv: Anthropic@Christian Seto, Jacqueline Nguyen, Jiayi Hong, Ross Maciejewski

论文 Claude GPT Gemini LLM 可视化素养

推荐理由：这篇论文测了Claude、GPT和Gemini最新版，看图能力比人强，但让它们判断图表有没有骗人，还是不行。有意思的发现。

原文

09:52

arXiv cs.LG@Weihang Su, Jiacheng Kang, Jingyan Xu, Qingyao Ai, Jianming Long, Hanwen Zhang, Bangde Du, Xinyuan Cao, Min Zhang, Yiqun Liu

论文提出ReGrad（Retrievable Gradients）范式，将梯度视为可检索的知识单元。方法预先离线计算文档特定梯度并存入索引梯度库，推理时仅检索查询相关梯度进行临时权重适应。为解决原始语言建模梯度不适于查询驱动知识使用的问题，引入双层元学习目标重塑梯度为通用适应信号。实验在通用和领域特定设置中表明，ReGrad优于CPT和RAG基线，实现可扩展且可逆的参数化知识注入，不累积权重漂移。

论文 ReGrad CPT RAG 持续学习可检索梯度

推荐理由：这篇论文提出了ReGrad，把梯度当知识存起来，推理时才取用，不破坏原有模型参数，效果比CPT和RAG都好。

原文

09:51

arXiv cs.LG@Zhenyu Yu

InstantForget是一种新的后门遗忘方法，无需更新模型参数即可在推理时移除恶意触发行为。在CIFAR-10 ResNet-18上，它针对BadNets、WaNet、Blended和SIG四种触发方式，将平均攻击成功率（ASR）降至0.071。该方法通过马氏距离标记异常特征并重置为中性表示，达到0.981的检测AUROC，并成功迁移至六种主干网络。论文还揭示了投影假设在WaNet等触发下的失效（ASR分别达0.683、0.888和0.941），并用logit-trilplet间隙预测失败。

论文 InstantForget 后门攻击模型安全 CIFAR-10 推理时

推荐理由：这篇论文提出InstantForget，不用重新训练就能清除模型后门，在CIFAR-10上把攻击成功率压到7%，还搞了个检测机制AUROC 98%，挺实用的。

原文

09:50

arXiv cs.LG@Zongfang Liu, Jinghui Zhang, Zijian Ma, Guangyi Chen, Xin Yuan

该研究提出MoE专家一次性剪枝的统一公式，将现有启发式标准归为路由频率、门控权重、激活强度三类因素。基于此给出选择原则：任务无关剪枝应优先使用基于激活强度、无门控的标准。新提出的MAN和MSAN标准在4个MoE模型、16个基准上取得任务无关设置平均排名前两位。平均性能比最强基线提升最多8.8个百分点。

论文 MoE 专家剪枝语言模型基准测试模型压缩

推荐理由：这篇论文把MoE剪枝的各种评分方法统一了，还提出MAN和MSAN两个新标准，在多个模型和基准上表现更稳定，适合做模型压缩的人参考。

原文

09:48

arXiv cs.LG@Tien Thanh Thach

本文提出改进的Transformer架构，结合余弦退火调度和移位数据增强(SDA)用于一步股票指数预测。在VN30和S&P 500两个基准数据集上评估，余弦退火调度相比逆幂调度持续提升预测精度。SDA显著降低预测误差和运行间变异，提高对超参数选择的鲁棒性。组合方法在两个数据集上取得最佳性能，表明数据增强比增加模型复杂度更有效。

论文 Transformer SDA 股票预测时间序列金融预测

推荐理由：这篇论文在股票预测上用改进的Transformer和数据增强，在VN30和标普500上效果比堆模型还管用，值得看看具体方法。

原文

09:47

arXiv cs.LG@Thinh T. H. Nguyen, Khoa D. Doan, Binh T. Nguyen, Danh Le-Phuoc, Kok-Seng Wong

论文提出PRO框架，用投影排练编排替代合成输入回放，在服务器维护紧凑的类级投影记忆。客户端通过平衡伪多任务训练结合当前样本和旧投影记忆。进一步提出的PRO-MAX增加了邻域加权记忆对齐。在图像、文本、图基准上，PRO和PRO-MAX在异构流下提升了保留率和最终效用，而基线即便扩大回放预算仍因监督不平衡退化，证明回放数量不足以解决质量问题。

论文联邦学习类增量学习记忆回放投影排练异构任务流

推荐理由：联邦学习各客户端标签不同步？PRO用投影记忆代替生成回放，不用额外预训练，在异构环境下表现更稳，值得做增量学习的试试。

原文

09:47

arXiv cs.LG@Hangling Xie

该论文提出MAF（多模态自适应少样本提示）框架，用于提升多模态大语言模型在情感分析任务中的表现。MAF动态检索与查询相关的演示样本，通过编码面部表情、场景上下文和文本语义，并引入唇动幅度检测机制在多人场景中准确识别说话人。一个轻量级系数生成网络被训练用于实时输出查询条件化融合权重，加权聚合多模态相似度以选取Top-K信息量最大的示例。在多个公开基准数据集上，MAF相比骨干模型取得显著且一致的性能提升，并与强基线方法保持竞争力。

论文 MAF MLLM 情感分析少样本提示多模态

推荐理由：这篇论文提出MAF，能根据输入动态挑选示例来引导MLLM做情感分析，在多个数据集上效果提升明显，比固定提示强很多。

原文

09:45

arXiv cs.AI@Yaoting Huang, Yifu Yuan, Linqi Han, Chengwen Li, Shuoheng Zhang, Xianze Yao, Hongyao Tang, Yan Zheng, Jianye Hao

RoboPIN提出PinCoT（固定思维链）方法，将每个推理步骤绑定到视觉锚点，每个锚点包含实体名称、唯一标识、视图索引和空间定位。基于4B参数的小模型，在14个基准测试（涵盖空间推理、多视图推理和指向任务）中，平均超越7B开源模型Mimo-Embodied达12%。该方法通过三阶段后训练注入具身知识和过程监督，显著提升定位精度和跨步骤实体一致性。

论文 RoboPIN PinCoT 具身推理推理模型多模态

推荐理由：这篇论文用4B小模型在具身推理上打败了7B的Mimo-Embodied，平均提高12%，靠的是把每一步推理都牢牢钉在视觉证据上，挺有意思。

原文

09:44

arXiv cs.AI@Maonan Wang, Zhengyan Huang, Kemou Jiang, Yuhang Fu, Jiayue Zhu, Yuxin Cai, Xingchen Zou, Qiaosheng Zhang, Yi Yu, Ding Wang, Xi Chen, Ben M. Chen, Yuxuan Liang, Zhiyong Cui, Man On Pun, Yirong Chen

OmniTraffic是一个基于12个真实十字路口重建3D环境的可控生成管道，可编辑车道拓扑、信号相位等参数。它产出800万VQA样本和3000个人工验证的测试集，覆盖场景感知、多视角推理和决策支持三个层级。评估11个前沿MLLM显示人类与模型间存在显著差距，尤其在拓扑和时空推理任务上。基于OmniTraffic模拟数据微调轻量级MLLM后，在真实场景中性能得到提升。

论文 OmniTraffic 交通推理 MLLM 多模态 3D重建

推荐理由：想研究交通场景的多模态推理？OmniTraffic提供了大规模可控数据集和基准，还能用模拟数据微调小模型提升真实表现，很实用。

原文

09:43

arXiv cs.AI@Molham Mohamed, Ali Hamdi

针对叙事问答中单次解码易产生不一致答案的问题，提出自一致性重排序框架。该方法先生成多个候选答案，再根据语义一致性选择最终输出。在NarrativeQA数据集上使用FLAN-T5（Base/Small）和Pegasus-Large进行评测。FLAN-T5-Base从82.32%提升至86.66%（+4.34%），Pegasus-Large从72.50%提升至87.07%（+14.57%）。

论文 NarrativeQA FLAN-T5 Pegasus-Large 叙事问答重排序

推荐理由：一篇提升叙事问答准确率的新方法，用自一致性重排序让多个模型都涨分，Pegasus-Large提升超14个百分点，简单有效。

原文

09:42

arXiv: DeepSeek@Yixuan Wang, Yiyang Zhou, Yiming Liang, Congyu Zhang, Fuxiao Liu, Jiawei Zhou, Huaxiu Yao

精选72°

论文提出ASSAY框架，通过随机遮蔽测量技能库中每个技能的因果贡献，发现个体技能对某些任务类型有帮助但对其他任务有害，全局筛选效果欠佳。ASSAY在AppWorld和tau-bench两个基准上，对DeepSeek-V3、GPT-4.1等7个基础模型进行测试。在AppWorld最难分岔上，DeepSeek-V3达到69.3%任务目标完成率，相对提升47.4%，超越所有已发表方法包括权重微调方法。在tau-bench零售环境中，GPT-4.1相对提升8.7%，超越o4-mini、o1和GPT-4.5。消融实验表明主要增益来自推理时按任务遮蔽技能，而非全局移除坏技能。

论文 ASSAY DeepSeek-V3 GPT-4.1 智能体技能库

推荐理由：一篇教你如何让AI智能体更聪明的研究：不用改权重，光靠整理技能库就能让DeepSeek-V3和GPT-4.1冲上榜单第一，方法还开源了。

原文

09:42

arXiv: DeepSeek@Jiakai Li, Ke Qin, Rongzheng Wang, Yizhuo Ma, Qizhi Chen, Muquan Li, Shuang Liang

大推理模型（LRM）常因过度思考生成冗余token，降低准确率。ASAG方法通过分析注意力分布推断推理状态，自适应调整生成策略。该方法无需训练，可即插即用，在DeepSeek-R1-Distill和Qwen3系列等主流模型上测试。在Qwen3-8B上，ASAG平均准确率提升3.2%，生成token减少约40%。

论文 ASAG DeepSeek-R1 Qwen3 推理模型注意力机制

推荐理由：想减少推理模型输出废话？ASAG免费即插即用，在Qwen3-8B上准确率升3.2%还省近40%token，实打实的效果。

原文

03:15

AlphaSignal@AlphaSignalAI

精选

传统Agent系统依赖检索获取信息，但LCLMs（Latent Compression Language Models）提出先压缩所有信息。该方法将数据全局压缩一次，再基于压缩进行全局推理，仅当需要时才局部扩展。这与检索式记忆的本质区别在于：压缩使模型能理解整体结构而非片段匹配。LCLMs在多个知识密集型任务中展现出更高效的记忆利用。

论文 LCLMs 智能体 Agent记忆压缩检索

推荐理由：做Agent系统的话可以看看这个思路：不先检索，而是先全局压缩再按需展开，和传统做法完全不一样。

原文

02:20

LangChain@LangChainAI

LangChain Labs与Fireworks AI合作发布了一项新研究。该研究由Viv Vtrivedy等人参与。此次合作可能聚焦于提升大语言模型在实际应用中的效率。具体细节可参考原文链接。

论文 LangChain Fireworks AI Viv Vtrivedy LLM研究

推荐理由：LangChain和Fireworks联手搞研究，看看他们发现了什么新东西。

原文

6月15日

17:57

阿里云 Alibaba Cloud@alibaba_cloud

精选

阿里云等机构在论文中提出NLAH框架，用可执行自然语言替换刚性代码工具集（Agent Harness）。在相同任务上，NLAH性能与代码方案持平，但Token消耗从60k降至2.9k，降幅达95%。其模块化设计可精准归因每一步的值，并识别出多候选搜索等“负资产”环节。该工作将智能体构建从“胶水代码”转向科学策略。

论文 NLAH AgentHarness 智能体自然语言效率优化

推荐理由：看这篇论文，阿里云用自然语言写智能体工具，token省了95%，还能揪出拖后腿的环节。

原文

17:55

阿里云 Alibaba Cloud@alibaba_cloud

精选

阿里云ApsaraDB的10篇论文被SIGMOD 2026录用，研究方向覆盖DB×AI、云原生存储及智能工具。其中Beluga的CXL内存池已完成工程验证，CloudJump III已用于PolarDB的分层存储。这些成果展示了阿里云在数据库前沿技术的学术与产品化能力。

论文 ApsaraDB SIGMOD PolarDB 云原生存储数据库

推荐理由：阿里云ApsaraDB一下中了10篇SIGMOD论文，还把Beluga的CXL内存池和CloudJump III用到了PolarDB上，学术和落地两手抓，值得看看。

原文

11:13

arXiv cs.LG@Rohit Gandikota, David Bau

精选

论文发现视觉语言模型的LM骨干中存在一组称为gaze heads的注意力头，其注意力会追踪模型当前描述的图像区域。通过仅对top-100个gaze heads（少于全部9%）进行注意力掩码干预，能以83.1%的准确率引导模型描述指定的漫画面板，而随机干预无效。该干预同样适用于自然COCO图像，且机制在2B到32B参数规模及多种VLM架构中复现。该工作展示了通过机制分析实现无需重训的推理时多模态行为操控。

论文 VLM Gaze Heads 注意力头多模态模型可解释性

推荐理由：操控VLM输出，像翻漫画一样准

原文

11:13

arXiv cs.LG@Constanza A. Molina Catricheo, Simon Boeder, Ting-Jia Guo, Giacomo May, Clément Berthelot, Devis Tuia, Friedrich Fedor Reinhard, Fabio Remondino, Benjamin Risse

该研究发布了1.4 TB多模态无人机数据集，覆盖104棵含巢树木，包含27,945张RGB图像、111,780张多光谱图像及约7.81亿个3D点。语义分割基准测试中，Point Transformer V3在测试集上达到86.35% mIoU，优于KPConv和RandLA-Net。数据集结合光谱、空间与结构信息，可支持巢体积估计等生态应用，并为极端类别不平衡下的3D分割算法提供挑战性基准。

论文 NEST3D 多模态 3D分割语义分割数据集

推荐理由：生态数据集，3D分割新基准

原文

仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档（侧边栏 → AI 日报 → 顶部「往期日报」）。