全部 AI 动态 · AI 热点

6月17日

09:40

arXiv cs.AI@Jinghan Wu, Jing Li, Ivor W. Tsang, Xuetao Zhang

论文提出即插即用的多模态指代消解方法 Plug-and-Adapt，无需在目标数据集上训练即可使用。该方法先利用视觉-语言对齐数据集预训练一个细粒度对齐模型，再通过证据理论融合视觉和类别线索进行相似度聚合。在 CIN 基准测试中，CoNLL F1 比现有专用方法提升 5.31%，比主流 VLLM 提升 2.12%。在掩码 CIN 和 VCR-MCR 数据集上验证了鲁棒性和泛化能力。

论文 Plug-and-Adapt 多模态指代消解对齐模型证据理论 CIN基准

推荐理由：这篇论文提出不用大模型也能高性能做多模态指代消解，直接在 CIN 上就比专用方法和 VLLM 高 5% 和 2%，而且即插即用，挺实用的。

原文

09:40

arXiv cs.AI@Liangkai Hang, Junjie Yao, Zhiyu Li, Feiyu Xiong, Hongkang Yang, Zhi-Qin John Xu

73°

论文发现缩小参数初始化尺度能持续改善大语言模型的预训练效果，在推理密集型任务上提升最为显著，同时识别出两种常见训练设置会抑制该优势。研究揭示了初始化尺度的关键平衡点，并发现小初始化驱动参数先凝聚为低复杂度结构再扩展为丰富表示。基于此提出γ初始化规则——将初始化范围作为可调旋钮，默认使用小初始化几乎不增加成本即可改善训练和推理。

论文初始化大语言模型推理预训练压缩

推荐理由：发现一个几乎零成本的训练技巧：缩小初始化尺度能大幅提升大模型推理能力。

原文

09:39

arXiv cs.AI@Jessica McFadyen, Ole Jorgensen, Harry Coppock, Kevin Wei, Cozmin Ududec

一项研究评估了12个前沿语言模型在7个基准上的表现，包括FrontierMath、TerminalBench和网络安全任务。研究发现，增加推理计算（如更大token预算和重复提交）能显著提升得分，例如在FrontierMath上提升达20%以上。固定预算的评估会低估新一代模型能力，因为它们在更大预算下能解锁并更可靠地解决难题。不同基准对推理缩放方法的依赖各异：重复提交对多数基准有效，但外部反馈仅在特定任务中有帮助。

论文推理计算 FrontierMath TerminalBench LLM评估

推荐理由：别被固定预算的基准分数骗了，这篇论文揭示了很多模型实际能力需要更多推理计算才能看出来。

原文

09:39

arXiv cs.AI@Bojie Li

PreAct 是一种让计算机使用代理（如屏幕点击、打字）在重复任务上更快的新方法。首次成功时，PreAct 将运行编译为小状态机程序，后续重放直接执行，无需逐步骤调用语言模型，速度提升8.5-13倍。重放时每步检查屏幕状态，若不一致则交回代理处理。在移动、桌面和Web基准上，存储时检查机制确保编译程序可靠，避免错误积累，平均多完成1.75-2.6个任务。

AI模型 PreAct Computer-Using Agents 智能体效率优化

推荐理由：想让你那个傻傻的屏幕操作AI学会重复干活不重来？PreAct把第一次成功步骤变成程序，后面直接快10倍，还不容易翻车。

原文

09:38

arXiv cs.AI@Julian Hoever, Gregor Schiele

KANLib是一个模块化、可扩展且计算高效的Kolmogorov-Arnold网络（KAN）框架，统一了PyKAN、EfficientKAN和FastKAN等现有实现的核心概念。它支持两种基函数类型、自适应网格缩放、网格扩展及细粒度架构定制，并保持与PyTorch工作流的兼容性。在California Housing基准上，KANLib再现了参考KAN实现的预测行为，同时实现了有竞争力的计算效率。该框架允许探索超出标准KAN公式的架构变体，对预测性能影响微小。

论文 KANLib KAN Kolmogorov-Arnold Networks 可解释性模块化框架

推荐理由：想试KAN但被碎片化实现劝退？KANLib把PyKAN、EfficientKAN、FastKAN统一成一个高效框架，直接上手跑基准。

原文

09:38

arXiv cs.AI@Aueaphum Aueawatthanaphisut, Badri Raj Lamichhane

该论文提出一个基于LLM编排的多智能体框架，将大数据即服务生命周期分解为数据摄取、数据清洗、特征工程、AutoML训练、模型评估、MLOps部署、监控和漂移检测等专业智能体。中央LLM编排层协调代理执行、验证中间输出、管理流程上下文并支持动态工作流组合。框架包含共享工件治理、可重复性支持、人在回路检查点和漂移感知反馈循环。在包含缺失值、分类变量、异常值、类别不平衡和模拟协变量漂移的受控表格基准数据集上，与手动ML、仅AutoML和单智能体LLM基线对比，该多智能体BDaaS管道实现了有竞争力的预测性能，并提高了工作流完成率、工件可追溯性、部署就绪度、可重复性和漂移恢复能力。

论文 LLM 多智能体 AutoML MLOps BDaaS

推荐理由：这篇论文用LLM编排多个专业智能体，自动搞定数据工程到部署监控的全流程，比单智能体和纯AutoML更可靠，适合做生产级自动化参考。

原文

09:38

arXiv cs.AI@Koki Okajima, Yasutoshi Ida, Tsukasa Yoshida, Yasuaki Nakamura

论文提出 Non-Negative Elastic Net (NNN) 解码，将检索视为联合解码问题，通过稀疏非负线性组合用文档嵌入重构查询嵌入。理论证明，对所有语料库，NNN 解码能处理稠密检索能处理的全部查询，并在有相关文档的语料库上额外处理稠密检索无法处理的查询。在多个基准测试上，对冻结嵌入应用 NNN 解码带来一致改进；端到端训练嵌入进一步超越稠密检索的所有指标。

论文 NNN decoding dense retrieval 信息检索稀疏表示嵌入

推荐理由：这篇论文提出一种叫 NNN 的解码方法，能比传统向量点积检索挑出更多样化的文档，在多个基准上都有提升，做搜索相关的值得看看。

原文

09:37

arXiv cs.AI@Guillermo Gil de Avalle, Laura Maruster, Shaina Raza, Christos Emmanouilidis

新基准DiagFlowBench包含50张工业诊断流程图，转化为1676轮多轮对话，对比合规与偏离流程的输入。评估10个商业和开源模型发现，模型在识别超范围输入时表现差异大，常见错误是选择真实但上下文不合适的步骤。该基准揭示了基于文档的对话系统在输入偏离时容易被看似合理但错误的建议误导的脆弱性。

论文 DiagFlowBench 诊断对话推理模型 AI安全多轮对话

推荐理由：DiagFlowBench这个新基准专门用来测语言模型在操作维护场景里，能不能识别用户问跑题的问题。10个模型测下来，差得挺大，而且那种看似合理但不对的答案最危险。论文值得一看。

原文

09:37

arXiv cs.AI@Bochen Yang, Lianlei Shan

精选

PearlVLA提出一种将动作规划调度到VLM潜在空间的新框架，通过将元查询表示分为视觉定位分支和迭代潜在规划分支，利用冻结的潜在世界模型生成未来观测，并经过K轮细化后并行解码动作块。在LIBERO基准上，PearlVLA达到了现有方法中的最佳性能，证明了潜在空间推理在降低延迟的同时提升规划质量的有效性。

AI模型 PearlVLA VLA模型具身智能 LIBERO 动作规划

推荐理由：这篇论文提出了PearlVLA，把动作规划放到了潜在空间里，比传统文本链式推理延迟更低，在LIBERO上刷了SOTA，做具身智能的可以看看。

原文

09:31

arXiv: DeepSeek@Esteban Schafir, Xu Zheng, Hojat Allah Salehi, Zhuomin Chen, Mo Sha, Wei Cheng, Dongsheng Luo

精选

DecoSearch是一个无需训练的Text-to-SQL框架，通过轻量级Schema Selector修剪数据库模式，LLM Judger判断查询是否需要分解为DAG子问题。在BIRD上达到70.53%执行准确率，在Spider上达88.31%，使用DeepSeek作为骨干模型，比训练无关基线消耗少一个数量级的token。该方法还可作为模型无关包装器，一致提升微调后的SQL生成骨干性能。

AI模型 DecoSearch DeepSeek Text-to-SQL 推理模型 RAG

推荐理由：DecoSearch不用训练就能把自然语言转SQL，在BIRD和Spider上准确率分别超70%和88%，比同类方法省十倍token。想提升SQL生成效率可以看看。

原文

09:31

arXiv: DeepSeek@Siyue Chen, Yifu Guo, Yuquan Lu, Zishan Xu, Jiaye Lin, Jianbo Lin, Siyu Zhang, Cheng Yang, Junxin Li, Yujia Li, Yu Huo, Ruixuan Wang

该论文提出了LLM代码推理的内部生命周期概念：模型先在早期层中酝酿答案，使其线性可解，然后在后期层分化为四种解析结果——已解析、过度处理、错误解析、未解析。研究对Qwen、Llama、DeepSeek三个架构的16个模型进行了6类代码推理任务的层析探针和上下文剥离解码（CSD）实验。结果显示已解析平均仅41.5%，且函数调用任务中，调用深度从1层增至3层时已解析率从61.1%骤降至2.5%。所有模型的酝酿持续时长稳定在24%-42%，但解析成功率随模型能力和规模变化。

论文代码推理 Qwen Llama DeepSeek 推理模型

推荐理由：这篇论文用层析探针找到了LLM做代码推理时“酝酿”到“解析”的秘密，发现即便准确率相近，内部失败模式也截然不同，值得想理解推理本质的人读。

原文

09:27

arXiv: DeepSeek@Filip Sondej, Yushi Yang, Adam Mahdi

精选

现有大模型遗忘方法（如GradDiff、NPO、SimNPO、RMU、UNDIAL）易被微调或少样本提示逆转，表明确实只是浅层遗忘。RepSelect通过每次更新前崩塌权重梯度的主成分，隔离遗忘集特定的表示，保持通用能力不受影响。在生物危害知识和虐待倾向两个遗忘类别上，对Llama 3、Qwen 3.5、Gemma 4 E4B、DeepSeek V2 Lite四个模型族评估，RepSelect后学习准确率降低幅度是最好基线的4-50倍，且对少样本提示攻击接近完全鲁棒。

论文 RepSelect Llama 3 Qwen 3.5 模型遗忘 AI安全

推荐理由：这篇论文发现现有大模型遗忘只是表面记忆，新方法RepSelect能真正让模型忘记特定知识，还防微调和提示破解。

原文

6月16日

13:08

arXiv cs.AI@Jiaju Han, Ben Zhang, Xuemeng Sun, Qike Zhang, Yuxian Dong, Chengyin Hu, Fengyu Zhang, Yiwei Wei, Jiujiang Guo

FusionRS是用于遥感双模态视觉语言学习的首个大规模RGB-红外-文本数据集。它由超过100万对对齐的RGB和红外风格图像组成，每对包含场景描述和红外感知描述。基于FusionRS训练的CLIP-style和生成式VLM模型在RGB-红外对齐、红外-文本检索和双模态描述任务上均优于纯RGB训练基线。消融实验表明，红外感知描述对强化红外-语言对齐至关重要。

AI模型 FusionRS RGB-红外遥感数据集视觉语言模型双模态学习

推荐理由：FusionRS填补了RGB-红外双模态遥感数据集的空白，用公开RGB图转红外风格，加上两种描述，让模型同时理解可见光和红外信息。

原文

13:05

arXiv cs.AI@Yanan Long

论文 LiveBench Open LLM Leaderboard 贝叶斯推断 AI评估审计

推荐理由：这篇论文用贝叶斯方法检查了LiveBench等公共AI评估档案，发现很多宣称有问题，帮你判断哪些基准成绩可信。

原文

12:55

arXiv cs.AI@Sara Fish

该研究以EC 2025论文中一个关于公共物品稳定菜单的开放问题为测试平台，评估不同AI研究工作流的效果。实验发现：(1)在提示中加入人类直觉能提升LLM的“品味”；(2)多轮交互工作流在鼓励“大胆步骤”时更有效。与一名一年级博士生比较，LLM在解决该问题上的效果略逊一筹。研究尚未公开博士生参与前的原始手稿对比细节。

论文 EconCS LLM 公共物品工作流 AI研究

推荐理由：这篇论文告诉你，用AI做经济学研究时，喂它人类直觉比纯指令好使，但别指望它比刚入行的博士生强多少。

原文

12:54

arXiv cs.AI@Truong Thanh Hung Nguyen, Khanh Van Quynh Nguyen, Hoang-Loc Cao, Tri Duong, Phuc Ho, Van Pham, Loc Nguyen, Hung Cao

这篇论文提出一种基于共识的智能体大语言模型（LLM）框架，专为加拿大10位HTS代码分类设计。框架集成了多智能体信息检索、官方关税文档的语义检索、证据推理、共识验证、层次化代码组件投票以及人为干预机制。在包含3300条专家标注产品记录的数据集上评估，精确的10位分类对先进LLM仍具挑战性，性能从粗粒度章节级预测到细粒度关税和统计后缀逐步下降。结果表明需要证据驱动、不确定性感知和以人为中心的分类流程，而非完全自主的单步预测。

论文 HTS LLM 智能体海关分类证据推理

推荐理由：这篇论文提出了一个多智能体协作的LLM框架，通过证据推理和共识投票来提升海关HTS代码分类的准确性，特别适合物流合规场景。

原文

12:53

arXiv cs.AI@Kevin L Coakley, Thijs Snelleman, Holger Hoos, Odd Erik Gundersen

该研究分析了2014至2024年间五大顶级AI会议发表的56800篇论文，评估其文档实践。结果显示，代码和数据共享比例从11%增至64%，增长了近六倍。基于文档实践推断的可重复性从28%提升至64%。这些改进在可重复性检查清单引入之前就已开始，反映的是开放科学趋势而非形式要求。

论文可重复性 AI研究开源科学文档实践

推荐理由：这篇论文用56800篇数据告诉你，AI研究的可重复性在过去十年大幅提升，代码共享从11%涨到64%，而且不是靠强制清单推动的。

原文

12:52

arXiv cs.AI@Eduardo Ferreira da Silva, Mayki dos Santos Oliveira, Joel Machado Pires Denis Dantas Boaventura, Frederico Araújo Durão

论文 Matrix Factorization 推荐系统文本增强协同过滤评论

推荐理由：这篇论文告诉你：别盲目堆文本特征做推荐，协同过滤本身已经很强了，加文本未必有多大提升。

原文

12:52

arXiv cs.AI@Alex Gichamba, Moise Busogi

这篇论文通过控制帧率消融实验，发现神经音频编解码器在6.25 Hz处存在质量悬崖，并排除了音素冲突和码本饱和两种假设。作者指出问题源于固定训练片段时长导致解码器缺乏帧间上下文，而修正后词错误率（WER）在3.1 Hz和1.6 Hz下仍随音素负载平滑下降。研究结果表明，低帧率编解码器的推理效率增益比此前认为的更易实现。

论文 Neural Audio Codecs 低帧率退化音素负载词错误率音频编解码器

推荐理由：这篇论文解释了为什么音频编解码器在6.25Hz会突然变差，原来不是理论限制而是训练设置问题，修正后能降到1.6Hz依然可用。

原文

12:28

arXiv cs.LG@Abbas Mammadov, Ozgur Kara, Kaan Oktay, Iskander Azangulov, Adil Kaan Akan, Hyungjin Chung, James Matthew Rehg, Yee Whye Teh

精选72°

本文提出 Exact Posterior Score (EPS) 方法，针对线性高斯逆问题推导出后验分数的闭式解。该方法在一般高斯插值下，将后验采样转化为特定算子依赖的平移点下的各向异性噪声去噪问题。EPS 可从头训练或从预训练去噪器微调，推理时使用与基础模型相同的采样器，无需似然梯度或投影。在 FFHQ 和 ImageNet 上的五个线性逆问题中，EPS 在保真度、感知和分布指标上优于无训练和基于训练的方法，且去噪器评估次数比基于梯度的后验采样器少约一个数量级。

论文 EPS 线性逆问题后验分数估计扩散模型 FFHQ

推荐理由：这篇论文提出了 EPS 方法，能更高效准确地求解线性逆问题，在多个基准上表现优异，且计算开销低。

原文

12:28

arXiv cs.LG@Jisang Han, Seonghu Jeon, Jaewoo Jung, René Zurbrügg, Honggyu An, Tifanny Portela, Marco Hutter, Marc Pollefeys, Seungryong Kim, Sunghwan Hong

Geometric Action Model (GAM) 将预训练的几何基础模型 (GFM) 拆分为观测编码器和未来预测解码器两部分，在中间层插入因果未来预测模块，结合语言、本体感受和动作历史，预测未来潜在标记，再利用剩余 GFM 块进行特征传播与动作解码。在多个仿真和真实机器人操作基准上，GAM 的准确率、鲁棒性、速度和模型大小均优于当前基于基础模型尺度的基线方法，例如在 RoboMimic 和 ManiSkill2 任务中表现显著提升。

AI模型 GAM 几何基础模型机器人策略学习操作视觉-语言-动作模型

推荐理由：这篇论文提出了一种新思路：用几何基础模型直接做机器人操作策略，不依赖二维图像，效果更快更准更轻。

原文

12:27

arXiv cs.LG@Tongyan Fang, Siyuan Huang, Naiyu Fang, Ganlong Zhao, Zhongjin Luo, Jianbo Liu, Xiaogang Wang, Ying Dong, Hongsheng Li

针对VLA策略在线RL微调中每个回合仅产生二元结果（成功/失败）的问题，现有方法将稀疏结果简化为单一标量优势，混淆了可行性与效率两类目标。本文提出分层优势加权行为克隆（HABC），训练两个独立critic头分别优化这两类目标，并通过状态自适应门（gt）合并其输出。在三个接触丰富的双手机器人任务上，HABC将监督微调（SFT）基线36%、44%、12%的成功率分别提升至92%、88%、38%。

论文 HABC VLA 机器人学习在线强化学习

推荐理由：HABC方法解决了VLA在线RL微调中稀疏结果的问题，在双手机器人任务上成功率从12-44%提升到38-92%。

原文

12:26

arXiv cs.LG@Alper Yıldırım

论文复现了Oppenheim和Lim（1981）的经典实验，在隐藏层中测试相位与幅度对图像识别的影响。在PRISM2D、GFNet和ViT-B/16中，预测完全跟随相位或符号捐赠者，删除幅度信息后准确率几乎不变。ResNet-50在ReLU后看似不遵循此模式，但ReLU前的干预显示晚期块中存在强相位编码，且DC-only控制表明读取器依赖通道式空间平均。这些架构共享相位/符号身份编码，但因整流和读取几何暴露在不同基底上，为CNN与注意力模型间的纹理-形状差距提供了机理解释。

论文 PRISM2D GFNet ViT-B/16 ResNet-50 相位编码图像分类神经网络

推荐理由：这篇论文用Oppenheim-Lim实验方法测试了多个模型（ViT、CNN）的内部表示，发现相位才是关键，还解释了为什么CNN和ViT对纹理和形状的偏好不同。

原文

12:24

arXiv cs.LG@Xiaolin Li, Ning Wang, Ninghui Li, Wenhai Sun

该论文挑战了差分隐私（DP）固有增强联邦学习（FL）鲁棒性的假设。通过分析两种基线攻击策略，发现DP会掩盖恶意更新的统计特征，使现有防御失效。作者提出RING攻击，显式利用DP来隐藏恶意贡献，同时最大化攻击影响。在四个图像和文本数据集上的非独立同分布场景中，RING在中等隐私预算下对六种先进防御的平均攻击成功率达到90.3%，相比基线策略提升高达26.08倍。评估表明缓解该威胁会带来显著的效用权衡，暴露了差分隐私FL部署中的根本安全漏洞。

论文 Federated Learning Differential Privacy Backdoor Attack RING AI安全

推荐理由：这篇论文颠覆了'差分隐私天然防后门'的认知，提出了RING攻击，平均成功率90.3%，建议做联邦学习安全的都看看。

原文

12:23

arXiv cs.LG@Mufei Li, Shikun Liu, Dongqi Fu, Haoyu Wang, Yinglong Xia, Hong Li, Hong Yan, Pan Li

KVEraser是一种面向大语言模型KV缓存的编辑方法，旨在高效擦除已处理上下文中的指定片段。该论文提出，直接擦除会导致全局影响，需重新计算后续所有token，成本高昂。KVEraser通过两阶段训练（通用跨度-邻居预训练和任务微调），仅替换被擦除区间的KV状态，保留其余缓存。在1K至32K上下文长度的域内任务中，KVEraser的擦除后性能接近完全重计算，延迟仅增加24%，而完全重计算延迟增加17.6倍。在未见过的长文档问答任务中，KVEraser在有害事实干扰下比近似基线表现更好，速度比完全重计算快3至4倍。

论文 KVEraser KV缓存上下文擦除推理效率长上下文

推荐理由：这篇论文提出KVEraser，能快速从大模型KV缓存中擦除指定内容，不用全部重算，1K-32K长度下延迟只增24%，效果接近重算，适合长上下文场景。

原文

12:22

arXiv cs.LG@Alper Yıldırım

HAMON是一种基于无源衍射光学的时序预测核心，将历史值编码到光瞳面上，未来位置留暗，通过级联可训练相位掩模和自由空间衍射直接输出预测场。在ETTm2数据集上所有预测区间均超越最强数字基线，在ETTh2上除最长区间外也领先，MSE最多降低14%。在Weather数据集上表现有竞争力，在Traffic和Electricity等高通道数据集上稍弱。消融实验和交叉仿真验证了预测来自光学场而非数字头部。

AI模型 HAMON 时间序列预测光学计算无源衍射光学长程预测

推荐理由：这篇论文用纯光学硬件做时序预测，在多个基准上不输甚至超过数字模型，为低功耗预测提供了新思路。

原文

12:20

arXiv cs.LG@Violet Xiang, Amrith Setlur, Chase Blagden, Nick Haber, Aviral Kumar

ExpRL提出一种自动化方法，通过基于强化学习的中间训练来提升LLM推理能力。该方法不直接模仿参考解决方案，而是将其作为奖励支架，利用LLM裁判对比策略生成的推理轨迹与参考解，给出稠密奖励。在具有挑战性的数学推理任务上，ExpRL相比SFT、稀疏奖励GRPO和自蒸馏方法，能提供更强的RL初始化和更好的最终性能。此外，混合领域实验表明ExpRL可扩展至数学以外的场景。

论文 ExpRL LLM 强化学习推理模型数学推理

推荐理由：这篇论文用参考答案做奖励支架，让模型自己探索推理路径，数学推理效果超过了SFT和GRPO，想提升推理能力的可以看看。

原文

12:19

arXiv cs.LG@Gary P. T. Choi, Khanh Dao Duc, Shira Faigenbaum-Golovin, Karen Habermann, Emmanuel Hartman, Christoph von Tycowicz, Chi Zhang, Wenjun Zhao, Felix Zhou

这篇综述整理了形状空间分析的快速发展领域，提供了基于微分几何、统计学和机器学习的数学与计算框架。它围绕形状表示、鲁棒测地度量构建、形状空间统计分析和几何感知学习方法组织文献。应用涵盖亚细胞形态学和灵长类牙齿演化等多个生物组织尺度。文章最后指出了理论计算挑战以及由大规模几何数据集驱动的新机遇。

论文 Shape Space Analysis 微分几何几何数据形状分析机器学习

推荐理由：如果你处理非线性的几何数据（比如生物形态或3D模型），这篇综述总结了形状空间分析的核心方法，帮你理解如何比较和统计分析几何对象。

原文

12:18

arXiv cs.LG@Buqiang Xu, Zirui Xue, Dianmou Chen, Chenyang Fu, Chiyu Wu, Caiying Huang, Chen Jiang, Jizhan Fang, Xinle Deng, Yijun Chen, Yunzhi Yao, Xuehai Wang, Jin Shang, Gong Yu, Ningyu Zhang

TokenPilot提出了一种双粒度上下文管理框架，通过Ingestion-Aware Compaction稳定提示前缀并消除环境噪声，以及Lifecycle-Aware Eviction监控上下文段残余效用。在PinchBench和Claw-Eval基准测试中，TokenPilot在孤立模式下分别降低61%和56%的成本，连续模式下降低61%和87%，同时保持与先前系统相当的性能。该框架已集成到LightMem2中，可访问https://github.com/zjunlp/LightMem2。

论文 TokenPilot LightMem2 缓存管理上下文优化 LLM智能体

推荐理由：想降低LLM智能体长会话的推理成本？看看TokenPilot，它通过智能管理上下文缓存，在三个基准上省了61%-87%的费用，性能还不掉队。

原文

12:18