全部 AI 动态 · AI 热点

6月5日

12:06

arXiv cs.AI@Yutao Sun, Yanqi Zhang, Li Dong, Jianyong Wang, Furu Wei

精选

本文提出跨层稀疏注意力（CLSA），一种基于KV共享架构（如YOCO）的新方法。核心创新在于不仅共享KV缓存，还共享路由索引——单个索引器计算一次token级top-k选择，结果跨层复用，既保留了细粒度选择性，又分摊了路由开销。实验显示，在128K上下文下，CLSA实现最高7.6倍解码加速和17.1倍整体吞吐提升，同时保持模型质量。这为长上下文LLM提供了一种兼顾效率与质量的架构方案。

论文稀疏注意力长上下文推理加速 KV缓存 YOCO

推荐理由：长上下文推理的瓶颈终于有了系统级解法——CLSA通过共享路由索引同时加速预填充、缓存和解码，做LLM推理优化的团队值得看看这个架构思路。

原文

12:05

arXiv cs.AI@Shiyun Xiong, Dongming Wu, Peiwen Sun, Yuang Ai, Bokang Yang, Wencheng Han, Xiao-Hui Li, Xiangyu Yue

精选

论文提出 Benchmark Agent，一个全自动构建 LLM/MLLM 评测基准的智能体系统。它从用户需求分析、子任务设计到数据标注和质量控制，全流程自动化。作者用它生成了 15 个覆盖文本理解、多模态理解和领域推理的基准，经人类评估和 LLM 评判验证，质量高且无需人工参与。该系统解决了传统基准构建劳动密集、易饱和的问题，能持续生成新基准以区分顶尖模型。代码和预览已公开。

论文评测基准智能体自动化 LLM MLLM

推荐理由：做 LLM 评测的团队终于有了自动化工具——Benchmark Agent 能持续生成新基准，避免模型性能饱和，建议做模型评估的开发者直接试试。

原文

12:03

arXiv cs.AI@Thamilvendhan Munirathinam

精选72°

论文提出了一种轻量级协议——Recuse Signal，允许服务器通过现有协议通道（如SSH横幅、PostgreSQL NOTICE）向连接的LLM智能体发送“请退出”信号，类似于robots.txt对爬虫的控制。实验表明，在SSH场景下，该信号能100%诱导智能体退出，而对照组则100%完成任务。但该信号是合作性而非绝对性的：当操作员明确授权时，最强模型会继续执行，其他模型则仍遵循主机策略。研究释放了标准、适配器和实验工具，为智能体行为治理提供了新思路。

论文智能体安全/治理协议/标准 LLM 实验/评估

推荐理由：做AI智能体运维或安全治理的团队终于有了一个轻量级工具来告诉智能体哪些资源不能碰，实测效果显著，建议直接看实验设计和适配器实现。

原文

12:02

arXiv cs.AI@Alexander Möllers, Marvin Sextro, Julius Hense, Gabriel Dernbach, Klaus-Robert Müller

精选

多实例学习（MIL）处理的是包级别监督的问题，在计算病理学、卫星图像等领域有广泛应用。但现有算法在低标签数据场景下表现不佳，灵活模型容易过拟合，刚性模型难以适应新任务。本文提出一种基于Perceiver架构的上下文学习器，在合成数据上预训练后，仅需少量标注包即可解决新任务，推理时单次前向传播完成，无需梯度更新。研究设计了多种合成数据生成器，它们捕获互补的归纳偏置，混合预训练模型在12个MIL基准上平均性能最优，超越需要任务特定训练的监督基线。

论文多实例学习上下文学习 Perceiver架构弱监督学习合成数据

推荐理由：做弱监督学习或医疗图像分析的团队，终于有了一个无需微调就能从少量标注包中学习的方案——单次前向传播搞定，值得直接试试。

原文

12:01

arXiv cs.AI@Zhuoming Chen, Xinrui Zhong, Qilong Feng, Ranajoy Sadhukhan, Yang Zhou, Michael Qizhe Shieh, Zhihao Jia, Beidi Chen

精选

Vortex 是一个专为大规模语言模型（LLM）设计的稀疏注意力服务系统，解决了稀疏注意力算法在部署和评估中工程成本高的问题。它通过 Python 嵌入式前端语言和页面中心张量抽象，支持广泛稀疏注意力算法的快速原型设计、部署和评估。在 NVIDIA B200 GPU 上，Vortex 使 AI Agent 自动生成的算法吞吐量比全注意力提升高达 3.46 倍，并在 MLA 架构的 GLM-4.7-Flash 和 229B 参数的 MiniMax-M2.7 上分别实现 4.7 倍和 1.37 倍的吞吐量提升。该系统显著加速了稀疏注意力算法的迭代，尤其适用于长序列生成场景。

论文稀疏注意力 LLM服务 AI Agent 吞吐量优化 Vortex

推荐理由：稀疏注意力是长上下文 LLM 服务的关键瓶颈，Vortex 让 AI Agent 和研究者能快速实验新算法，做 LLM 推理优化的团队可以直接用它提升吞吐量，值得关注。

原文

12:00

arXiv cs.AI@Yasmine Omri, Ziyu Gan, Zachary Broveak, Robin Geens, Zexue He, Alex Pentland, Marian Verhelst, Tsachy Weissman, Thierry Tambe

精选72°

该论文首次对 LLM 智能体的记忆系统进行系统性表征，提出了面向系统的四轴分类法，并构建了阶段感知的性能分析工具。研究覆盖了 10 个代表性记忆系统在两个基准套件上的行为，揭示了设计选择如何影响写入和读取路径的代价。最终给出了 10 条系统设计建议，涵盖构建调度、能力下限、查询量摊销、新鲜度-延迟权衡及集群管理。这项工作为构建高效、可扩展的长期记忆智能体提供了关键指导。

论文智能体记忆系统系统表征长时任务性能分析

推荐理由：做智能体系统架构的团队终于有了第一份记忆系统性能基准——10 条设计建议直接指导工程决策，建议做 Agent 框架或记忆中间件的开发者点开细读。

原文

11:59

arXiv cs.AI@Qi Lan, Yining Tang, Yu Shen, Yi Zhou, Yuhao Wei, Jie Li, Guofa Li

精选

安全关键交通场景生成对评估自动驾驶系统在罕见但高风险交互下的表现至关重要。现有扩散方法虽在闭环生成中可控性强，但迭代去噪过程计算成本高，且长序列中易累积采样和引导误差，导致抖动、异常加速等不真实运动。RiskFlow 提出一种新框架，将未来轨迹生成建模为动作空间中的传输，通过单次前向传播学习平均速度场，将高斯动作序列转化为加速度和偏航率指令，并利用输出空间引导生成高风险交互，同时保持物理可行性。实验表明，RiskFlow 在多智能体和长时域设置下实现了对抗性与真实性的良好平衡，显著提升真实性并降低推理时间。

论文自动驾驶安全关键场景生成 RiskFlow 交通仿真生成模型

推荐理由：自动驾驶安全测试场景生成一直面临计算慢、动作不真实的问题，RiskFlow 用单次前向传播替代迭代去噪，做仿真评估的团队可以直接用，效果比扩散方法更高效更保真。

原文

11:56

arXiv cs.AI@Thomas T. Zhang, Alok Shah, Yifei Zhang, Vincent Zhang, Nikolai Matni, Max Simchowitz

精选

论文提出一种名为双预处理（DoPr）的新优化范式，专门解决深度学习模型在部署时因自身预测滚动（如自回归语言模型、流生成模型、机器人策略学习）导致的误差累积问题。DoPr 结合梯度预处理（如 Adam、Muon）和激活预处理（如 KFAC），能直接提升下游任务性能（如成功率、生成质量），而不一定改善验证损失。这挑战了传统以验证损失为优化目标的评估方式，为训练-测试不匹配问题提供了新的优化维度。实验表明，DoPr 在多种测试时反馈（TTF）场景中作为即插即用模块有效。

论文优化器测试时反馈误差累积 DoPr 深度学习

推荐理由：DoPr 解决了训练和部署性能不一致的痛点，做自回归模型、流生成或机器人学习的团队可以直接尝试这个即插即用优化器，可能会发现验证损失没变但实际效果提升。

原文

11:55

arXiv cs.AI@Zhisong Qiu, Kangqi Song, Shengwei Tang, Shuofei Qiao, Lei Liang, Huajun Chen, Shumin Deng

精选

DataCOPE 是一种无监督的验证器引导技能发现框架，旨在从无标签探索轨迹中自动提取可复用的数据分析技能，无需更新模型参数。它通过协调数据分析智能体、无监督验证器和技能管理器三个组件，分别处理报告式和推理式分析任务。在报告式分析中，使用自适应检查表验证器动态生成评分标准；在推理式分析中，采用答案一致性验证器利用自一致性作为辅助信号。在 Deep Data Research 和 DABStep 基准测试中，DataCOPE 在报告式和推理式任务上分别平均提升 9.71% 和 32.30% 的得分。该方法为构建更高效的数据分析智能体提供了轻量级且可扩展的解决方案。

论文智能体数据分析无监督学习技能发现验证器

推荐理由：做数据分析智能体或自动化数据探索的团队，DataCOPE 解决了技能发现依赖昂贵标注的痛点，无需人工干预就能自动提炼可复用技能，建议关注其验证器设计思路。

原文

6月4日

12:10

arXiv: DeepSeek@Jiongjiong Gu, Jianfeng Wang, Zidong Han, Yongqiao Wang, Pengfei Xia, Mingjie Zhang, Hong Liu, Yuanyi Xia, Jiajia Chu, Yifeng Tang, Hui Zang, Xin Yao, Qijie Qiu, Yuzhao Wang, Chuanfei Xu, Lin Zhang, Zhuonan Lai, Hongming Huang, Jiawei Qiu, Gong Zhang, Zhong Ming, Weipeng Cao

精选72°

FlexNPU 提出了一种透明的用户空间虚拟化层，用于华为Ascend NPU，通过拦截AscendCL API并路由操作到设备守护进程，实现无需修改模型代码、AI框架或NPU驱动即可解耦应用与物理设备。该方案支持动态PD共置调度，根据prefill（计算密集）和decode（内存带宽受限）的互补资源特性灵活调整，解决了静态PD分离的资源不平衡和数据移动问题。在384卡Ascend 910C部署DeepSeek-R1时，相比静态PD分离，吞吐量提升5.15%和26.33%；在Qwen2.5-7B上，相比静态PD共置，TTFT降低超过92%且TPOT几乎不变。实验表明，透明NPU虚拟化是实现高效、响应式LLM服务的实用基础。

论文 NPU虚拟化 LLM推理 Prefill-Decode共置 Ascend NPU 动态调度

推荐理由：FlexNPU 解决了LLM推理中prefill和decode阶段资源冲突的痛点，做模型部署和推理优化的团队可以直接参考其动态调度思路，尤其适合使用华为Ascend NPU的开发者。

原文

12:09

arXiv: DeepSeek@Jianguo Zhu

精选

本文研究了在上下文增强的语言模型系统中，使用不同话语角色标签（如 Reference:、Evidence:、Instruction:、Note:、Example:）对模型行为的影响。通过设计 500 个 MMLU-Pro 项目的配对固定内容探针，每个项目在相同误导性断言下使用不同标签，测量模型输出错误选项的采纳率。在 GPT-5.5、DeepSeek V4 Pro、Llama-3-8B-Instruct 和 Qwen2.5-7B-Instruct 上，误导采纳率变化达 56-84 个百分点。Instruction: 和 Reference: 等绑定或来源类标签导致高采纳，而 Example: 则持续抑制采纳。边界探针显示算术任务降低采纳率，嵌套标签冲突表明示例性框架可限制采纳范围。结论是上下文利用和 RAG 基准应报告并控制包装标签，因为呈现方式会改变对提供上下文的依赖度量。

论文语言模型上下文利用 RAG 标签影响误导采纳率

推荐理由：这篇论文揭示了标签选择能显著改变模型对误导信息的采纳率（最高差 84 个百分点），做 RAG 系统或上下文增强应用的开发者需要警惕：你用的标签可能无意中放大了错误信息的影响。建议点开了解如何控制这一变量。

原文

11:37

arXiv cs.LG@Rishit Dagli, Abir Harrasse, Luke Zhang, Florent Draye, Amirali Abdullah, Bernhard Schölkopf, Zhijing Jin

精选

训练数据归因（TDA）旨在追溯模型预测与训练数据的关系，但传统方法依赖梯度追踪，对大型语言模型（LLM）计算成本极高。STRIDE 提出新思路：不在参数空间估计变化，而是在激活空间建模训练数据的功能影响。它通过轻量级“转向算子”模拟数据子集训练带来的行为偏移，并利用稀疏恢复技术从这些算子中分解出单个训练样本的影响。该方法在 LLM 预训练归因上达到最先进水平，且速度比此前方法快 13 倍。实验还验证了其在数据选择、数据污染检测等下游任务中的实用价值。

论文训练数据归因 LLM 稀疏恢复激活空间转向算子

推荐理由：STRIDE 解决了 LLM 训练数据归因计算成本高、依赖局部近似的痛点，做模型可解释性、数据质量分析的团队可以直接用这个新框架。

原文

11:35

arXiv cs.LG@Gandhimathi Padmanaban, Fred Feng

精选

该研究提出一个开源的两阶段计算机视觉流水线，用于从自然道路视频中细粒度分类车辆类型（轿车、SUV、皮卡、小型货车、大型货车、商用卡车），以评估自行车事故中骑车人受伤严重程度。第一阶段使用预训练的RT-DETR检测器进行粗略车辆定位，第二阶段使用微调的Vision Transformer（ViT-Base/16）进行六类车身类型分类。引入基于置信度的弃权机制（softmax输出低于0.60时输出“未知”标签），避免静默误分类。在密歇根州安阿伯市自行车道走廊的3805个超车事件（分布内）上，流水线准确率达0.94，各类F1分数在0.91（小型货车）到0.97（SUV）之间。在独立的外部数据集（311个事件，无再训练）上，准确率为0.89，其中三个常见类别F1仍保持在0.90以上，小型货车因弃权率从2.4%升至25.0%导致F1降至0.72，但未出现主动误分类。完整流水线（含推理脚本、训练代码、评估工具和模型权重）已开源，支持道路视频档案和骑行安全研究的复现与复用。

论文计算机视觉细粒度分类 Vision Transformer RT-DETR 交通安全

推荐理由：做交通安全分析或自动驾驶细粒度感知的团队，可以直接用这个开源流水线替代粗粒度检测，它用弃权机制解决了域迁移下的误分类问题，值得在真实道路视频上试试。

原文

11:32

arXiv cs.LG@Luca Thale-Bombien, Jan Ewald, Ralf König, Aaron Klein

精选

BBOmix 是首个针对真实生物数据的无监督表示学习超参数优化（HPO）开源表格基准。它包含来自 TCGA 和 SCHC 数据集的 105,000 次评估，涵盖四种自编码器架构和七种多组学模态。该基准量化了重建损失与下游任务性能之间的相关性，并评估了多种 HPO 方法，为无监督生物表示学习研究建立了严格基线。

论文超参数优化自编码器生物信息学组学数据基准测试

推荐理由：做生物信息学或组学数据降维的团队，终于有了一个标准化的 HPO 测试场——BBOmix 帮你省去从头调参的试错成本，做自编码器研究的可以直接用它验证方法。

原文

11:31

arXiv cs.LG@Konrad J. Mueller, Nikita Zozoulenko, Ben Wood, Thomas Cass, Lukas Gonon

精选

金融时间序列生成面临训练数据稀缺（通常只有一条历史路径）的挑战，导致对抗训练容易过拟合。现有方法通过匹配路径签名特征来训练生成器，但签名特征在有限截断深度下无法捕捉关键时间序列属性。本文提出SOCK（软竞争核），一种完全可微的随机卷积特征映射，能够有效监督生成模型。实验表明，基于SOCK特征匹配训练的生成器在多个小样本金融数据集上持续优于签名和扩散基线方法。此外，SOCK在双样本假设检验和时间序列分类任务中也匹配或超越了现有无监督特征映射。

论文时间序列生成金融数据随机卷积特征 SOCK 小样本学习

推荐理由：金融时间序列生成终于有了一个可微的随机卷积特征方案，做量化分析或金融建模的团队可以直接用SOCK替代签名特征，小样本场景下效果更好。

原文

11:29

arXiv cs.LG@Yaseen M. Osman, Geoff V. Merrett, Stuart E. Middleton

精选

该论文系统检验了基于MLP激活值的深度主动学习方法在LLM上下文学习（ICL）样本选择中的有效性。研究者使用Llama-3.2-3B和Qwen2.5-3B模型，在分类和生成任务上测试了多种注意力掩码策略，发现MLP输出的激活值（包括大规模激活和前四阶矩）与样本质量或任务性能的Spearman相关系数最高仅0.33，表明该方法不可靠。论文推测失败原因可能是“叠加”现象（模型表示的特征数超过维度数），并指出稀疏自编码器（SAE）可能是未来方向。这是目前最全面的MLP激活值主动学习在ICL中的分析，但结论为负。

论文上下文学习主动学习 MLP激活值 Llama-3.2-3B Qwen2.5-3B

推荐理由：如果你在做ICL样本选择或主动学习，这篇论文用实验告诉你MLP激活值这条路走不通，省下试错时间。做LLM推理效率或特征分析的开发者，看完会理解为什么SAE可能是更好的方向。

原文

11:28

arXiv cs.LG@Kelan Gray, Finlay Brown, Nicolas Boullé, Matthew J. Colbrook

精选

Koopman理论将非线性动力学转化为线性谱问题，但计算中依赖硬性的有限维选择。DeepMDMD结合深度Koopman方法与结构保持方法，学习潜在空间及其划分，同时强制Koopman乘积规则作为精确代数约束。训练在精确乘法算子更新和可微潜在聚类步骤之间交替，后者促进Koopman封闭性。结果在哈密顿、混沌和流体示例中，学习到的字典比几何MDMD划分更紧凑且动态一致，减少谱污染，揭示更丰富的连续谱结构，并在高维流动中保持相干结构和长期谱统计。

论文 Koopman理论非线性动力学深度学习结构保持流体仿真

推荐理由：做非线性动力学建模或流体仿真的研究者，DeepMDMD用代数约束解决了Koopman学习中的字典选择难题，值得关注其如何在高维噪声下保持稳定预测。

原文

11:25

arXiv cs.LG@Jian Yang, Yuan Tong, Qinbin Li, Zeyi Wen, Xiaofang Zhou

精选

本文提出一种基于全同态加密（FHE）的因果结构学习方法，在数据传输和计算过程中全程保持加密状态，解决分布式场景下的隐私泄露问题。针对FHE计算成本高、不支持除法和对数运算的挑战，作者设计了电路简化、牛顿-拉夫森倒数近似和泰勒展开等创新技术，并利用SIMD批处理加速。该方法还能扩展支持差分隐私，实验表明在测试数据集上结果与明文版本高度一致，且能在数十分钟内完成学习。

论文全同态加密因果结构学习隐私保护分布式计算 SIMD加速

推荐理由：做分布式数据挖掘或医疗、金融等隐私敏感领域因果分析的团队，终于有了一个可落地的加密方案——FHE 的算力瓶颈被巧妙绕过，建议直接看技术细节。

原文

11:23

arXiv cs.LG@Hongyu Zhou, Zorah Lähner

精选

3D高斯泼溅（3DGS）在新型视图合成中取得成功后，许多工作尝试将其用于几何表面表示。但直接从3DGS中提取准确几何信息仍具挑战，且常会降低外观渲染质量。本文证明默认形式的3DGS本质上不适合同时表示纹理和几何，并提出了简单解决方案：为每个高斯增加一个额外的几何不透明度参数，配合可选的透明度优化流程。实验表明，该方法在多种数据集上提升了渲染和几何性能，尤其对包含透明物体的复杂场景效果显著。

论文 3D高斯泼溅几何重建外观渲染透明物体 3DGS

推荐理由：解决了3DGS在几何与外观解耦上的根本矛盾，做3D重建和渲染的团队可以直接用这个简单改进提升效果，尤其处理透明物体时值得一试。

原文

11:22

arXiv cs.LG@Jose E. Escrig Molina, Baoquan Chen, Daniel Probst

精选

Graph Set Transformer (GST) 是一种专为图集（sets of graphs）学习设计的新型神经网络架构，解决了现有方法需先用GNN编码图嵌入、导致特征提取与集合上下文建模分离的瓶颈。GST在每一层交错进行节点级特征传播和图间上下文建模，并通过门控机制融合两类信息。在合成数据集和三个真实基准（原子反应中心识别、反应产率预测、图像分类）上，GST在相同参数量下优于DeepSets、SetTransformer等基线。消融实验表明，局部与集合上下文的交错融合是性能提升的关键。

论文图神经网络集合学习 Graph Set Transformer 架构创新图集

推荐理由：做图神经网络或集合学习的研究者，GST解决了图集任务中局部与全局信息割裂的痛点，代码已开源，值得复现对比。

原文

11:21

arXiv cs.LG@Vasiliki Rizou, Pascal Frossard, Dorina Thanou

精选

多模态数据解耦表示学习能分离共享与独特特征，但现有方法局限于双模态场景。RePercENT 提出自监督框架，通过即插即用架构直接处理预提取嵌入，无需联合预训练，支持任意数量模态。该框架引入联合优化目标同时学习共享与独特成分，并提供理论最优性保证。实验表明，RePercENT 在多种模态和任务中成功恢复解耦成分，性能持平且计算复杂度显著降低。这为多模态AI系统（如自动驾驶、医疗诊断）提供了可扩展的基础方案。

论文多模态学习解耦表示学习自监督学习即插即用架构可扩展性

推荐理由：多模态数据解耦是AI理解复杂场景的关键，但双模态瓶颈长期未解。做多模态学习、跨模态推理的团队可以直接用RePercENT的即插即用架构，无需重新训练基础模型，值得关注。

原文

11:11

arXiv cs.LG@Karan Gandhi, Ashish A. Mahabal, Jacob E. Jencson, Russ R. Laher, Ben Rusholme, Lin Yan, Ryan M. Lau, Schuyler D. Van Dyk, Mansi M. Kasliwal

美国宇航局的南希·格雷斯·罗马太空望远镜计划于2026年9月发射，将进行前所未有的高分辨率红外巡天，预计发现数百万天文瞬变现象。由于缺乏真实数据，开发自动警报管道面临挑战。研究团队提出机器学习模型RuBR，结合本地注入和OpenUniverse2024模拟数据，训练出三种变体（RuBR_comb、RuBR_loc、RuBR_DA），用于区分真实瞬变与虚假检测。实验表明，该方法在图像差分管道中表现有效，为罗马任务早期无真实标签情况下的鲁棒分类铺平了道路。

论文罗马太空望远镜瞬变天体机器学习自动分类天文数据处理

推荐理由：罗马望远镜即将带来海量天文数据，做瞬变天体探测的团队需要可靠的自动分类工具——RuBR模型解决了无真实数据时的训练难题，值得关注其后续在真实观测中的表现。

原文

11:10

arXiv cs.LG@Sepehr Dehdashtian, Jacob H Seidman, Vishnu N Boddeti, Gaurav Bharaj

音频深度伪造检测（ADD）模型对防御恶意TTS至关重要，但现有数据集构建面临手动收集和盲点发现低效的挑战。FoeGlass是首个黑盒自动化红队测试方法，利用LLM的上下文学习能力探索TTS输入空间，仅需黑盒访问即可生成欺骗ADD的音频样本。通过基于多样性度量的上下文设计，FoeGlass缓解了模式崩溃问题，在多个开源ADD和TTS模型上使假阴性率比基线提升高达94%。生成的攻击可跨不同ADD迁移，且用FoeGlass样本微调ADD模型可提升鲁棒性达41%。

论文音频深度伪造红队测试上下文学习 LLM 安全/对抗

推荐理由：做音频安全或深度伪造检测的团队，终于有了一个无需手动标注就能自动发现模型盲点的工具——FoeGlass用LLM上下文学习就搞定了，建议直接跑一下开源代码看看效果。

原文

11:08

arXiv cs.LG@Minh An Pham, Anton Segeler, Thomas Wiegand, Wojciech Samek, Sebastian Lapuschkin, Patrick Kahardipraja, Reduan Achtibat

函数向量（FVs）是在上下文学习中提取的任务表示，可用于引导大型语言模型（LLMs）。本研究探讨了不同FV定义对指令的影响，主要关注注意力头选择和引导两个自由度。在头选择上，使用基于梯度的归因方法（如层相关性传播LRP）显著提高了效率和准确性。在FV引导方面，分布式应用比简单聚合获得了更高的准确性。代码已公开。

论文函数向量上下文学习 LLM引导注意力头选择层相关性传播

推荐理由：这项研究为LLM任务表示提供了更高效、更准确的方法，做模型微调或上下文学习的开发者可以直接参考其开源代码来优化自己的应用。

原文

11:05

arXiv cs.LG@Lixing Zhang, Yidong Ouyang, Weifu Li, Shixiang Zhu, Guang Cheng, Liyan Xie

传统缺失值填补方法假设所有缺失都是随机且应被恢复，但现实中缺失可能来自两种不同来源：有意义缺失（数据本身不存在）和观测缺失（应被填补）。研究者提出Diff-Joint，一个基于扩散的框架，联合建模表格数据与潜在缺失掩码，通过条件采样和不确定性感知聚合迭代优化填补值与缺失标签。实验表明，该方法能有效识别有意义缺失，同时保持竞争性填补精度并提升下游任务性能。

论文缺失值填补扩散模型不确定性感知表格数据 Diff-Joint

推荐理由：处理表格数据的团队终于有了区分“不该填”和“该填”缺失值的工具——Diff-Joint解决了传统填补方法盲目恢复所有缺失的痛点，做数据清洗或医疗、金融等缺失值有语义含义的开发者可以直接试。

原文

11:04

arXiv cs.LG@Clément Elliker, Mathis Le Bail, Clément Mantoux, Jesse Read, Sonia Vanier

RIDE 是一个针对铁路延误预测的开放数据集与基准，覆盖比利时全国铁路网，包含 9450 万次列车事件、360 万次行程和 3570 万条天气记录（2023-2025 年）。它标准化了预测任务、训练测试数据及评估协议，支持模型间直接比较。基于该基准，研究首次全面对比了非学习、统计学习和深度学习模型，发现图神经网络平均表现最佳，但最强学习模型间差距不大。该框架还提供按预测时长和延误变化的细分分析，有助于深入理解模型行为。

论文铁路延误预测开放数据集基准测试图神经网络比利时铁路

推荐理由：铁路延误预测终于有了标准化数据集和评估基准，做交通预测或时序建模的研究者可以直接用 RIDE 来测试和对比模型，省去自己收集数据的麻烦。

原文

11:02

arXiv cs.AI@Zhen Yang, Xiaogang Xu, Wen Wang, Cong Chen, Xander Xu, Ying-Cong Chen

精选76°

多智能体推理系统通常采用“先生成再传输”的范式，导致端到端延迟随流水线深度线性增长。StreamMA 提出流式方案，每个推理步骤生成后立即流式传输给下游智能体，实现流水线并行，显著降低延迟。令人意外的是，这种流水线还提升了效果：因为多步推理质量不均匀，早期步骤更可靠，使用早期步骤而非完整链条可防止错误后期步骤误导下游智能体。在数学、科学和代码等八个推理基准上，StreamMA 平均提升 7.3 个百分点，最高提升 22.4 个百分点。研究还发现了“步骤级缩放定律”：增加每个智能体的步骤数能同时提升效果和效率，这是一个与智能体数量缩放正交的新维度。

论文多智能体推理系统流式通信延迟优化缩放定律

推荐理由：做多智能体系统或推理管线的开发者，StreamMA 用流式通信同时解决了延迟和效果问题，值得直接参考实现思路。

原文

11:01

arXiv cs.AI@Rishabh Agrawal, Jacob Fein-Ashley, Paria Rashidinejad

72°

当前主流的强化学习从可验证奖励（RLVR）方法仅使用最终答案正确与否的单一比特信号，忽略了执行轨迹、工具输出、专家修正和模型自评估等丰富反馈。研究者提出DistIL方法，基于分布化DAgger算法，通过前向交叉熵目标利用这些反馈，实现序列级别的信用分配。理论证明该方法能保证单调策略改进和遗憾界，而基于反向KL或JS散度的自蒸馏目标则无法保证。实验表明，DistIL在科学推理、编程和数学问题求解等多个领域优于RLVR和自蒸馏基线。

论文强化学习 DAgger 丰富反馈推理模型信用分配

推荐理由：DistIL解决了RLVR只利用最终答案信号的局限，让模型能从执行过程和专家反馈中学习，做推理模型和编程助手的团队值得关注这一新范式。

原文

11:00

arXiv cs.AI@Ammar Hoori, Yuichi Motai

该研究提出两种新方法：多列RBF神经网络结合PSO（MC-PSO）和结合自适应PSO（MC-APSO），旨在解决传统RBF神经网络在大数据集上的可扩展性问题。传统梯度下降和PSO方法在处理大数据时面临核计算过多和隐藏层结构过大的挑战。新方法通过并行部署多个小型RBF网络，每个网络独立训练于数据子集，仅选择与测试实例邻近的网络参与输出，从而提升准确率和速度。实验表明，MC-PSO和MC-APSO在多个基准数据集上优于现有方法，训练和测试时间也更快。

论文 RBF神经网络粒子群优化并行计算大规模数据自适应算法

推荐理由：这项研究为处理大规模数据的神经网络训练提供了并行化新思路，做机器学习和数据挖掘的开发者可以关注其如何平衡精度与效率。

原文

10:58

arXiv cs.AI@Nizar Islah, Istabrak Abbes, Irina Rish, Sarath Chandar, Eilif B. Muller

该论文提出，大语言模型在推理任务中失败时，常见的做法是增加采样次数重试，但忽略了失败轨迹本身蕴含的宝贵信息。作者发现，失败可分为“运气不好”和“结构性问题”两类，前者可通过更多采样解决，后者则无法通过重试修复。他们从失败轨迹的分布特征中提取了三个问题级特征，这些特征不依赖轨迹文本，而是基于可用的测试时干预结构。这些特征能以84.3%的准确率聚类失败模式，并支持一种无需训练的路径选择规则，在Steerable-Hard子集上将修复成功率提升12.2%。该方法无需访问训练过程或模型权重，即可用于测试时路由和后训练分析。

论文推理模型失败分析测试时扩展可修复性路径选择

推荐理由：这篇论文为AI推理失败提供了诊断工具，做模型调试和推理优化的团队可以直接用这三个特征来区分可修复与不可修复的失败，无需额外训练或权重访问，值得关注。

原文

10:57

arXiv cs.AI@Josef Bengtson, Yaroslava Lochman, Fredrik Kahl

现有多视图图像编辑方法大多局限于刚性或外观编辑，无法处理改变场景几何的非刚性编辑。GeM-NR 提出了一种无需训练的快速方法，通过深度图对齐、视角投影和条件细化，实现多视图一致的几何与外观编辑。该方法兼容 FLUX、Qwen、BrushNet 等主流编辑器，支持从两视图扩展到多视图，显著提升了编辑质量和几何光度一致性。实验表明，GeM-NR 在非刚性编辑任务上达到当前最优水平，甚至能生成编辑后的 3D 表示。

论文多视图编辑非刚性编辑几何感知 3D生成无需训练

推荐理由：做 3D 内容生成或多视图编辑的开发者，终于有了能处理大幅几何变形的工具——GeM-NR 无需训练即可与主流编辑器配合，建议试试看能否解决你场景中的非刚性编辑痛点。

原文

10:56

arXiv cs.AI@Linyao Chen, Qinlao Zhao, Zechen Li, Mingming Li, Likun Ni, Jinyu Chen, Yuhao Yao, Xuan Song, Noboru Koshizuka, Hiroki Kobayashi

AgentMob 提出了一种无需训练的 LLM 驱动智能体框架，用于个体级移动预测。它通过快速路径处理常规出行，对模糊情况则触发迭代工具调用，结合历史轨迹、停留概率和地理证据进行决策。在三个数据集上，AgentMob 在无需训练的 LLM 方法中表现最佳，GPT-5.4 在 BW 数据集上达到 71.42% 的 Acc@1。该方法显著提升了模糊预测的准确性，并提供了决策透明度。代码已开源。

论文移动预测 LLM智能体可解释性工具调用开源/仓库

推荐理由：做城市模拟、交通规划或政策分析的团队，终于有了一个无需训练就能解释预测结果的方案——AgentMob 在模糊场景下准确率提升 18%，建议直接试一下开源代码。

原文

10:55

arXiv cs.AI@Zhifei Xie, Zihang Liu, Ze An, Xiaobin Hu, Yue Liao, Ziyang Ma, Dongchao Yang, Mingbao Lin, Deheng Ye, Shuicheng Yan, Chunyan Miao

72°

现有大型音频语言模型（LALM）多为离线处理，而流式音频模型又各自为政，只能处理单一任务（如流式语音识别或语音聊天）。研究者提出 Audio Interaction Model 概念，通过始终在线的“感知-决策-响应”循环，实现实时听音、理解环境并即时反应。他们构建了 Audio-Interaction 统一流式模型，并配套 SoundFlow 框架（含流式数据构建、理解感知训练和异步低延迟推理）以及 260 万条流式语料 StreamAudio-2M。在 8 个基准测试中，该模型在保留主流音频任务性能的同时，解锁了实时 ASR、流式音频指令跟随和主动帮助等离线模型无法实现的能力。

论文音频交互流式模型 LALM SoundFlow 实时ASR

推荐理由：做语音交互或智能助手的团队终于有了一个能同时处理流式对话、环境音和实时指令的统一模型，比拼凑多个专用模型高效太多，做音频 AI 的建议点开看看框架和数据集。

原文

10:50

arXiv cs.AI@Xiaoyang Jiang, Yanlai Yang, Kenneth A. Norman, Brenden Lake, Mengye Ren

精选

儿童从连续的自我中心经验流中学习词汇，而现有神经网络模型通常对数据进行数百轮随机打乱训练，与真实学习过程不符。研究者提出BabyCL框架，以单次时间顺序处理SAYCam数据集，结合流式视觉表示学习和图像-文本对比目标。BabyCL采用多阶段时间分割和双回放缓冲区，在匹配优化预算下，在SAYCam Labeled-S 4AFC基准上优于流式学习基线，显著缩小了与离线训练的差距。消融实验表明，其增益对时间分割窗口长度和回放缓冲区驱逐规则具有鲁棒性。这项工作表明，在更接近儿童实际体验的训练条件下，有意义的词-指代映射可以涌现。

论文持续学习多模态学习儿童认知对比学习 SAYCam

推荐理由：BabyCL解决了持续学习场景下多模态对齐的难题，做认知科学或持续学习的研究者可以直接参考其双回放缓冲区设计，值得关注。

原文

10:41

arXiv cs.AI@Elouan Gardès, Seung Eun Yi, Kartik Ahuja, Théo Moutakanni, Huy V. Vo, Piotr Bojanowski, Wolfgang M. Pernice, Loïc Landrieu, Camille Couprie

论文提出一种无标签方法 FINO，利用元数据（如拍摄条件、地理位置等）以自监督方式将通用视觉基础模型适配到专业科学领域。该方法结合自监督学习与灵活的元数据引导，能处理离散和连续元数据，保留有用信息并抑制噪声。在亚细胞荧光显微镜、地球观测、野生动物监测和医学影像等多个领域，FINO 超越了标准无监督域适应和全监督适应方法，甚至超过了高度专业化的领域特定模型。该方法无需任务标签进行骨干网络适配，仅需轻量级分类头进行监督，解决了科学领域标签稀缺和模型泛化性下降的问题。

论文视觉基础模型无监督域适应元数据科学图像自监督学习

推荐理由：科学图像分析团队终于有了不用手动标注就能适配大模型的方法——FINO 用已有的元数据就能提升效果，做显微镜、卫星或医学影像的开发者可以直接试试。

原文

10:39

arXiv cs.AI@Andhika Bernard Lumbantobing, Hokky Situngkir

精选

该研究借鉴印尼GASING算术教学法，将左到右的计算步骤序列化为自然语言思维链（CoT）监督数据，训练了一个86M参数的GPT-2模型。模型仅使用下一个词预测目标，无需强化学习或奖励优化，在保留问题上达到80%以上准确率，性能可与更大模型竞争。通过注意力掩码、残差流探测等机制分析发现，模型先内化程序化路径，随后发展出类似心算的关联检索能力。这项工作表明，基于教学法的针对性训练能以较小规模实现强算术能力。

论文算术推理思维链CoT 教学法 GPT-2 小模型

推荐理由：做小模型算术推理的团队可以借鉴这种教学法思路——用人类教学步骤替代复杂强化学习，86M参数就能达到大模型水平，值得一试。

原文

10:37

arXiv cs.AI@Sheng Jin, Minghao Liu, Yunze Xiao, Zeqi Zhou, Heli Qi, Yifan Yao, Meishu Song, Kaijing Ma, Xuan Zhang, Sicong Jiang, Yizhe Li, Ningshan Ma, Jie Wei, Ziniu Li, Minglai Yang, Bangya Liu, Yiming Liang, Xiao Fang, Qingcheng Zeng, Jiarui Liu, Rui Yang, Shen Yan, Wenhao Huang, Jiaheng Liu, Zihan Wang, Weihao Xuan, Ge Zhang

精选

针对现有LLM知识基准存在的三个问题（学科代表性不足、标注激励不当、排名不稳定），研究者提出了KINA基准，包含899道题目，覆盖261个细粒度学科。该基准通过贪心近似算法确保学科代表性，并设计了锦标赛式奖励机制以提升标注质量。在13个实验室的42个模型评估中，Gemini-3.1-Pro-Preview以53.17%的准确率领先，Claude-Opus-4.6和GPT-5.4紧随其后，整体排名呈现分层结构，远未达到饱和。工具增强平均提升5.17个百分点，但模型间差异显著。该基准还提供了自举排名稳定性统计，避免对相邻排名的过度解读。

论文 LLM 知识基准 KINA 模型评估学科代表性

推荐理由：KINA 解决了 LLM 知识评估中学科代表性不足和排名不稳定的痛点，做模型评测或研究 LLM 知识边界的团队可以直接用这个基准来更可靠地对比模型，建议点开看看具体的设计和排名细节。

原文

10:36

arXiv cs.AI@Tohida Rehman, Debarshi Kumar Sanyal, Samiran Chattopadhyay

研究人员提出了一种利用开源预训练模型和大语言模型自动生成学术论文标题的方法。他们使用了 CSPubSum、LREC-COLING-2024 以及新构建的 SpringerSSAT 数据集，并引入 GPT-3.5-turbo 进行零样本生成。实验表明，微调后的 PEGASUS-large 在 ROUGE、METEOR、BERTScore 等指标上全面优于微调后的 LLaMA-3-8B 和零样本 GPT-3.5-turbo。此外，ChatGPT 生成的标题更具创意性。整体上，AI 生成的标题可靠且适用。

论文论文标题生成 PEGASUS LLaMA-3 GPT-3.5 自然语言处理

推荐理由：写论文总为标题发愁的研究者可以关注——PEGASUS-large 能自动从摘要生成靠谱标题，省去反复推敲的时间，建议试试这个开源方案。

原文

10:35

arXiv cs.AI@Zhangchen Xu, Junda Chen, Yue Huang, Dongfu Jiang, Jiefeng Chen, Hang Hua, Zijian Wu, Zheyuan Liu, Zexue He, Lichi Li, Shizhe Diao, Jiaxin Pei, Jinsung Yoon, Hao Zhang, Mengdi Wang, Radha Poovendran, Misha Sra, Alex Pentland, Zichen Chen

精选76°

AutoLab 是一个新基准，用于评估 AI 模型在超长周期闭环优化任务中的表现，涵盖系统优化、谜题挑战、模型开发和 CUDA 内核优化四个领域。每个任务从次优基线开始，要求智能体在严格时间预算内通过反复实验和反馈改进。测试 17 个前沿模型后发现，成功的关键不是初始尝试的质量，而是持续迭代和利用经验反馈的能力。Claude Opus 4.6 表现突出，但多数模型过早终止或进展有限。该基准开源，旨在推动长周期自主智能体的研究。

论文基准测试长周期优化智能体 Claude Opus 4.6 开源/仓库

推荐理由：AutoLab 填补了现有基准只测短周期任务的空白，做 AI 智能体研究和开发的团队可以直接用它来测试模型的持久迭代能力，值得关注。

原文

10:34