全部 AI 动态 · AI 热点

5月21日

09:46

arXiv cs.AI@Akhitha Pakala, Mohammed Mahir Rahman, Shahzad Memon, Tauseef Ahmed

精选

这项研究比较了 VGG16、ResNet50、EfficientNetB0 和 XceptionNet 四种预训练 CNN 模型在假图像检测上的表现。在统一预处理和训练流程下，VGG16 以 91% 的准确率领先，其他三个模型均达到 90%。EfficientNetB0 对假图更敏感，但对真实样本可靠性较低，反映了数据集不平衡导致的偏差。研究指出了数据集不平衡、过拟合和可解释性有限等限制，为开发更可靠的假图检测系统提供了可复现的基准。

论文假图检测 CNN模型 VGG16 数字取证 GAN

推荐理由：数字取证和内容安全团队需要知道哪个模型最靠谱——VGG16 以 91% 准确率胜出，但 EfficientNetB0 对假图更敏感，做检测系统的开发者可以直接参考这个基准来选型。

原文

09:46

arXiv cs.AI@Ishaan Kelkar, Nebras Alam, Vikram Kakaria, Madhur Panwar, Vasu Sharma, Maheep Chaudhary

精选

研究发现，使用现成的“怀疑”或“审视”人设向量，可以将模型的谄媚行为（即盲目同意用户错误观点）减少到CAA（对比激活添加）效果的68%至98%，且不会在用户正确时牺牲准确性。与CAA不同，这些向量并非针对谄媚数据训练，而是来自通用角色扮演。此外，人设向量与谄媚方向在激活空间中几乎正交，表明谄媚更像是一种人设级属性而非单一可操控方向。研究还发现，向“顺从”人设引导并不会镜像增加谄媚。代码已开源。

论文模型对齐谄媚行为人设向量 CAA 开源/仓库

推荐理由：做AI对齐和模型安全的研究者值得关注——用现成人设向量替代CAA，既减少谄媚又保持准确性，省去标注谄媚数据的麻烦。建议直接看代码和实验细节。

原文

09:46

arXiv cs.AI@Souvick Das, Sallam Abualhaija, Domenico Bianculli

精选

法律领域对检索增强生成（RAG）系统的可靠性要求极高，但现有基准缺乏细粒度评估，且多为英文、面向专家。研究者提出ClaimRAG-LAW数据集，支持法语和英语，覆盖专家与非专家用户，包含多样问题类型。通过细粒度评估框架分析现有法律RAG系统，揭示了检索、生成及声明级分析的局限性。该工作为法律AI的可靠性评估提供了更精准的工具。

论文法律AI RAG/检索增强生成基准测试细粒度评估多语言

推荐理由：法律AI的幻觉问题一直难量化，这个基准把检索和生成拆开评估，做法律NLP或合规系统的团队可以直接用来测试自己的RAG管线。

原文

09:46

arXiv cs.AI@Minghao Chen, Xinyi Hu, Zhou Yu, Yufei Yin

精选

AutoRPA是一个新框架，能将ReAct风格的LLM智能体决策逻辑自动转化为高效的RPA函数。它通过翻译-构建流水线，把硬编码的ReAct动作转为软编码过程，并利用多轨迹检索增强生成合成鲁棒的RPA函数。在代码验证阶段，采用混合修复策略，结合RPA执行和ReAct回退进行迭代优化。实验表明，AutoRPA生成的RPA函数在解决相似任务时，token使用量减少82%到96%，显著提升了运行时效率和可复用性。

论文 RPA LLM智能体 GUI自动化代码合成效率优化

推荐理由：做GUI自动化的团队终于有了兼顾效率和智能的方案——AutoRPA把LLM的推理能力压缩成轻量RPA函数，省掉重复调用LLM的高昂成本，做流程自动化的开发者可以直接用起来。

原文

09:46

arXiv cs.AI@Junsung Park, Hyunjung Shim

精选

现有驾驶视觉-语言-动作模型（Driving VLA）在轨迹预测时严重忽视视觉特征，原因是任务定义存在结构性缺陷。研究者从逆运动学角度重新设计，要求模型预测未来视觉状态作为边界条件，并引入独立逆运动学网络（交叉注意力条件扩散模型）来抑制对自车状态和文本指令的捷径依赖。仅用0.5B参数，该模型在NAVSIM-v2和nuScenes基准测试中达到7B-8B大模型的轨迹规划性能，尤其在动态驾驶场景（如转弯）中视觉特征利用显著提升。

论文 Driving VLA 逆运动学轨迹预测自动驾驶视觉特征

推荐理由：这篇论文用逆运动学原理解决了Driving VLA忽视视觉特征的顽疾，做自动驾驶轨迹规划的团队值得关注——0.5B模型就能达到7B-8B的效果，意味着更低的部署成本和更好的视觉鲁棒性。

原文

09:46

arXiv cs.AI@Islam Mansour, Ronny Haensch, Irena Hajnsek, Konstantinos Papathanassiou

精选

该研究提出一种混合机器学习模型，将物理模型约束与光学Landsat数据结合，用于从TanDEM-X干涉相干数据估算森林高度。通过引入Landsat多光谱信息，模型能更好区分森林类型和结构，解决原始数据中的高度/结构与基线/地形坡度歧义。在加蓬Lopé国家公园的验证中，相比原混合模型，RMSE降低13.5%，MAE降低16.6%。这项工作展示了多源遥感数据融合对提升地球物理参数反演精度的价值。

论文遥感机器学习森林高度估算 TanDEM-X Landsat

推荐理由：做遥感或森林生态研究的团队，这个模型直接帮你把森林高度估算误差砍掉一成多，而且方法可复现，建议点开看具体实现。

原文

09:46

arXiv cs.AI@Fernando Ortega, Raúl Lara-Cabrera, Jorge Dueñas-Lerín, Alejandro de la Torre-Luque, Mercé Salvador Robert, Enrique Baca-García

精选

该研究利用自然语言处理与机器学习技术，将自由文本的精神科诊断描述自动映射到国际疾病分类（ICD）编码。研究基于14.5万条西班牙语精神科描述数据集，比较了从词袋模型、TF-IDF到大型语言模型（如e5_large、BioLORD、Llama-3-8B）等多种文本表示方法。结果显示，基于Transformer的嵌入方法在捕捉隐含语义和医学术语方面显著优于传统方法，其中e5_large模型通过端到端微调取得了0.866的F1_micro最高分。研究强调，将LLM适配到特定临床术语对于克服“长尾”标签分布和精神科话语的固有歧义至关重要。

论文 NLP ICD编码精神科诊断大型语言模型临床文本

推荐理由：精神科医生和医疗编码员每天面对大量诊断文本，这项研究展示了如何用LLM自动化ICD编码，大幅减轻行政负担。做医疗NLP或临床信息学的团队值得关注其方法。

原文

09:46

arXiv cs.AI@Yan Xia, Zhuangzhuang Pan, Amirrudin Kamsin, Chee Seng Chan

精选

多方面情感分析（ATSA）中，现有模型要么为每个方面重新编码句子，要么静态使用深层表示，导致计算冗余和适应性不足。DABS 提出单次推理框架，仅对句子编码一次，构建可复用的深度排序基板，每个方面通过查询该基板选择性读取相关 token 和抽象层级，无需重新编码。在四个基准测试中，DABS 在保持竞争性能的同时，将端到端计算量减少高达 60%，尤其在否定和对比等复杂语言场景中优势明显。代码已开源。

论文情感分析单次推理深度选择性读取计算效率开源/仓库

推荐理由：做情感分析或文本分类的团队，DABS 用单次编码解决了多方面的计算冗余问题，直接复用编码结果能省 60% 算力，建议试试这个轻量方案。

原文

09:46

arXiv cs.AI@Samuele Pasini, Jinhan Kim, Paolo Tonella

精选

研究者提出MIST方法，通过分析深度神经网络在微调过程中内部表征的谱变化来检测后门攻击。该方法将良性模型更新建模为预激活谱的回归问题，通过检测谱偏差识别恶意更新。在四个数据集和八种后门攻击的实验中，MIST在单次更新后即达到最先进的检测准确率，且无需了解中毒数据或触发器。该方法在多步良性演化下仍保持有效，性能退化可控。这表明谱演化信号为检测恶意模型更新提供了稳定且假设较少的方案。

论文后门检测谱回归分析模型安全微调 DNN

推荐理由：安全团队和AI部署者终于有了一个无需先验知识就能检测模型后门的方法——MIST通过分析微调时的谱变化，在单次更新后即可识别恶意植入，比现有方法更早更准。做模型安全审计的开发者值得关注。

原文

09:46

arXiv cs.AI@Bo Ye, Xinyu Cui, Jian Zhao, Tong Wei, Min-Ling Zhang

精选

自回归长视频生成通常采用有界内存流式处理，结合局部窗口和静态早期帧汇（sink）来保持长期连续性。但静态帧汇在视觉状态大幅变化后仍缓存早期帧，丢弃了可能更相关的中间历史，导致生成偏向过时内容，甚至引发注意力坍塌。DySink 提出基于检索的动态帧汇框架，维护紧凑记忆库并选择视觉相关的历史帧作为动态汇，同时引入异常检测门控抑制坍塌。实验表明，DySink 在分钟级视频上持续提升动态度指标，并实现更高时间质量。代码和模型权重将开源。

论文长视频生成自回归模型动态帧汇注意力机制开源/仓库

推荐理由：长视频生成长期受困于静态帧汇导致的注意力坍塌问题，DySink 用检索式动态帧汇解决了这个痛点，做视频生成或自回归模型的团队可以直接参考其开源代码。

原文

09:46

arXiv cs.AI@Alexi Canesse, Benoît Goupil, Jesse Read, Sonia Vanier

精选

多智能体强化学习（MARL）中，通信是实现协作的关键，但许多实际应用（如无人机群搜索救援）面临严重的带宽限制。现有通信架构通常将共享潜在表示同时用于策略执行和智能体间通信，导致减少消息大小会直接限制策略的潜在空间，造成性能显著下降。本文提出两个贡献：一是引入归一化的每智能体带宽预算 β，统一了稀疏性、轮次和消息维度；二是提出 SLIM 架构，将通信路径与策略的潜在表示解耦，从而隔离带宽对策略容量的影响。实验表明，SLIM 在多个部分可观测的 MARL 基准上达到最先进性能，并在带宽减少时仅出现轻微性能下降，展现出良好的可扩展性和鲁棒性。

论文多智能体强化学习带宽约束通信解耦 SLIM 鲁棒性

推荐理由：做多智能体系统或机器人集群的团队，终于有了一个能直接应对带宽瓶颈的架构——SLIM 解耦通信与策略，带宽砍半性能也不崩，值得在无人机或边缘设备场景里试试。

原文

09:46

arXiv cs.AI@Cesare Barbera, Lorenzo Perini, Giovanni De Toni, Andrea Passerini, Andrea Pugnana

精选

该论文提出了一种基于向量量化（VQ）的多类校准方法，解决了全局校准假设误差均匀分布和局部校准因降维导致信息丢失的问题。方法通过VQ对表示空间进行结构化分区，并利用共享码字依赖因子构建区域特定的校准映射，同时引入狄利克雷浓度的索引参数化实现跨区域参数共享。实验表明，该方法在保持全局校准和预测性能的同时，显著提升了局部校准效果，尤其适用于稀疏区域。

论文多类校准向量量化局部校准机器学习可靠性参数共享

推荐理由：做高可靠性机器学习模型（如医疗、金融）的团队，终于有了一个能兼顾全局和局部校准的实用方法——VQ分区加参数共享的设计让校准更精准，建议做模型可靠性的开发者点开看看具体实现。

原文

09:46

arXiv cs.AI@Gábor Recski, Szilveszter Tóth, Nadia Verdha, István Boros, Ádám Kovács

精选

ACL-Verbatim 是一个基于提取式问答的系统，专门用于从 ACL Anthology 研究论文中直接提取原文片段，避免大语言模型常见的幻觉问题。研究者构建了一个新的基准数据集，包含合成用户查询与论文片段配对，并由 NLP 专家进行人工标注。一个 1.5 亿参数的 ModernBERT 分词分类器在该基准上取得了最佳词级 F1 分数（53.6），超过了最强的大语言模型提取器（48.7）。该系统为学术研究者提供了一种可靠、高效的信息检索方式，尤其适合需要精确引用的场景。

论文问答系统无幻觉 ACL Anthology 提取式问答 ModernBERT

推荐理由：做文献综述或学术研究的团队终于有了一个靠谱的问答工具——直接提取原文片段，彻底告别幻觉。用 ACL 论文的 NLP 研究者可以直接试试这个开源方案。

原文

09:46

arXiv cs.AI@John-Joseph Brady, Nikolas Nusken, Yunpeng Li

精选

深度状态空间模型（DSSM）在统计建模中广泛应用，但大规模训练一直困难。现有方法分为两类：自编码DSSM通过优化变分下界训练生成模型，而基于序贯蒙特卡洛（SMC）的方法可处理判别与生成任务，但因前向过程的顺序性在GPU上扩展性差。研究者提出并行变分蒙特卡洛（PVMC）方法，融合两类范式优势，在基准实验中达到或超越当前最优结果，且训练速度比最快的SMC方法快10倍。该方法可稳健训练DSSM用于判别和生成任务，解决了SMC方法在硬件上的扩展瓶颈。

论文深度状态空间模型并行变分蒙特卡洛训练加速序贯蒙特卡洛生成模型

推荐理由：做时间序列建模或状态空间模型研究的团队，PVMC让训练速度提升10倍且不牺牲精度，值得直接尝试。

原文

09:46

arXiv cs.AI@Gundeep Singh, Parsa Kavehzadeh, Jing Xia, Xue-Yong Fu, Julien Bouvier Tremblay, Md Tahmid Rahman Laskar, Vincent Lum, Shashi Bhushan TN

精选

传统Text-to-SQL方法在企业环境中面临挑战，因为企业分析依赖受治理的API而非原始数据库。本文提出Analytic Agent，一个基于LLM的智能体系统，能将自然语言意图转化为安全的API交互。该系统通过多步推理和策略感知编排，实现用户目标理解、权限验证、受控查询执行和合规可视化生成。在90个真实企业用例上评估，表现可靠。

论文智能体企业分析 LLM API治理自然语言查询

推荐理由：企业数据分析团队终于有了兼顾安全与易用性的方案——Analytic Agent解决了LLM直接操作数据库的合规风险，做BI或数据治理的开发者值得关注。

原文

5月20日

16:00

arXiv cs.AI@Zhefan Xu, Ghassen Jerfel, Marina Haliem, Qi Zhao, Jeonhyung Kang, Khaled S. Refaat

精选

本文提出 VL-DPO 框架，利用视觉语言模型（VLM）作为零样本推理器，自动从预训练模型的轨迹输出中生成偏好对，再通过直接偏好优化（DPO）微调运动预测模型，使其与人类驾驶偏好对齐。在 Waymo Open End-to-End Driving Dataset 上实验表明，VLM 的轨迹选择可作为人类偏好的高质量代理，最终模型在评分反馈（RFS）上提升 11.94%，平均位移误差（ADE）降低 10.01%。该方法解决了标准模仿学习难以捕捉人类驾驶偏好细微差异的问题，为自动驾驶行为决策提供了新的对齐思路。

论文自动驾驶偏好对齐视觉语言模型直接偏好优化运动预测

推荐理由：自动驾驶团队终于有了一个自动对齐人类偏好的实用方法——用 VLM 生成偏好对再微调，比手工标注高效太多，做运动预测或决策规划的开发者值得一试。

原文

15:58

arXiv cs.AI@Zijun Jia, Yuanchang Ye, Sen Jia, Yiyao Qian, Haoning Wang, Baojie Chen, Diyin Tang, Jinsong Yu, Zhiyuan Wang

精选

BalanceRAG 提出了一种针对级联检索增强生成（RAG）系统的联合风险校准方法。传统级联RAG会先尝试仅用大模型回答，不确定时再启用RAG，但各阶段独立校准可能过于保守。BalanceRAG 将阈值对视为二维网格上的操作点，通过序贯图形测试识别安全操作点，实现系统级错误率控制。该方法支持多风险校准，能在保证风险水平的同时保留更多样本，减少不必要的检索调用。在多个开放域问答基准测试中，BalanceRAG 在满足预设风险水平的前提下，提高了覆盖率和正确样本接受数。

论文 RAG 风险校准级联系统问答大模型

推荐理由：做RAG系统优化的团队终于有了一个能精确控制风险与检索成本的校准工具——BalanceRAG 用联合阈值替代逐级保守校准，在保证准确率的同时减少不必要的检索调用，建议做问答系统的开发者点开看看。

原文

15:54

arXiv cs.AI@Chuanyang Jin, Binze Li, Haopeng Xie, Cathy Mengying Fang, Tianjian Li, Shayne Longpre, Hongxiang Gu, Maximillian Chen, Tianmin Shu

精选

现有AI对话数据集仅记录用户说了什么，但忽略了用户在想什么。ThoughtTrace是首个大规模数据集，包含1,058名用户、2,155次对话、17,058轮交互和10,174条思维标注，覆盖20种语言模型。研究发现，用户的思维与消息内容在语义上截然不同，前沿LLM难以从上下文中推断，且思维内容多样、与对话阶段相关。该数据集可用于改进用户行为预测和训练个性化助手，为构建更理解用户潜在目标的AI系统奠定基础。

论文数据集用户思维对话AI 个性化助手对齐

推荐理由：做对话AI研究和产品开发的团队，终于有了一个能捕捉用户真实想法的数据集——ThoughtTrace帮你理解用户为什么发那条消息、对回复的真实感受，值得用来改进助手对齐和个性化。

原文

15:51

arXiv cs.AI@Gabriel Freedman, Adam Dejl, Adam Gould, Mansi, Lihu Chen, Jianqi Jiang, Francesca Toni

精选

该论文提出推理时论证（ITA），一种可训练的神经符号框架，用于三元声明验证（真/假/不确定）。ITA 使用形式论证语义指导 LLM 生成论证并分配基础分数，同时计算三元预测。训练时，论证生成和评分根据预测质量优化；推理时，最终预测忠实于决定判决的论证和分数，而非事后推理痕迹。在两项三元声明验证数据集上，ITA 优于论证基线，并与非论证直接预测基线竞争，同时提供可检查的论证结构。

论文神经符号学习声明验证三元分类可解释AI 推理时论证

推荐理由：这个框架解决了高可信场景下声明验证的忠实性和不确定性表达问题，做事实核查、医疗或金融 AI 的团队可以直接参考其可解释的推理机制。

原文

15:41

arXiv cs.AI@Gabriel Rongyang Lau

精选

本文报告了使用Aristotle API对IMO 2009第6题（Grasshopper问题）进行Lean 4形式化证明的案例。生成的代码包含一个广义定理的Lean版本、四个已验证的辅助引理，但主定理的证明中有一个未解决的“sorry”占位符。已验证的部分建立了局部数学性质，但全局组合计数步骤未被自动化证明覆盖。该案例揭示了AI辅助形式化的核心局限：局部证明搜索可以成功，但全局推理仍需人工介入。论文提供了可复现的Lean代码，并分析了已验证与未验证的证明内容。

论文定理证明 Lean 4 Aristotle API 形式化验证 IMO问题

推荐理由：这个案例对做AI辅助形式化验证的团队很有参考价值——它清晰展示了当前AI在局部引理证明上的能力，以及全局推理的瓶颈，做Lean或定理证明器开发的值得点开看看。

原文

15:38

arXiv cs.AI@Saurav Ghosh, Gabriella Polach, Abdou Sow

精选

这篇论文研究了结构化提示设计是否能提升大语言模型的回答质量并减少用户交互成本。研究者对比了三种提示条件：原始提示、清单改进提示和澄清问题提示，在摘要、规划、解释和编程四种任务上测试了ChatGPT、Claude和Grok三个模型。结果显示，清单改进提示的平均评分最高（7.50/8），远超原始提示（5.67）和澄清问题提示（6.67），且使用的token数更少。研究表明，简单的提示清单就能显著提升回答质量并减少不必要的来回交互。

论文提示工程结构化提示清单提示 LLM 研究论文

推荐理由：做AI提示工程或日常使用LLM的开发者，用清单提示法能直接提升输出质量并省去反复调试的麻烦，建议试试这个简单但有效的技巧。

原文

15:36

arXiv cs.AI@Guangzhi Xiong, Qiao Jin, Sanchit Sinha, Zhiyong Lu, Aidong Zhang

精选

大型视觉语言模型在医疗应用中潜力巨大，但其回答缺乏视觉证据的可信归因，引发临床信任问题。现有归因方法无法验证是否真正反映模型决策依据，因为缺乏内部推理的真实标注。研究者开发了因果评估框架，通过反事实编辑验证专家标注区域是否因果影响模型预测，并测试了11种归因方法、6个开源LVLM和两种输出模式。结果发现现有方法常无法识别模型使用的视觉证据。为此提出MedFocus，基于不平衡最优传输定位临床解剖区域，并通过定向干预测量因果效应，在空间、概念和词元层面显著优于现有方法。数据和代码已开源。

论文视觉归因医学影像因果评估 LVLM 开源/仓库

推荐理由：医疗AI的信任危机终于有了可验证的归因方案——MedFocus让医生能看清模型到底看了哪里才下诊断，做医学影像AI的团队值得试试这个因果框架。

原文

15:34

arXiv cs.AI@Utkarsh Tyagi, Xingang Guo, MohammadHossein Rezaei, Daniel George, Anas Mahmoud, Jackson Lee, Bing Liu, Yunzhong He

精选

强化学习中的可验证奖励（RLVR）在自动检查正确性时很有效，但许多模型行为需要同时满足多个定性标准。基于评分标准的奖励（rubric-based rewards）通过聚合多个标准来解决这一问题，但静态聚合会混淆人类赋予的重要性和当前优化信号的有效性。研究人员提出POW3R框架，它能在训练过程中动态调整各标准的奖励权重，优先关注当前能区分模型输出的标准。实验表明，POW3R在30个基线策略/指标比较中赢了24个，平均奖励和严格完成率均优于传统方法，且训练速度提升2.5-4倍。

论文强化学习奖励设计 RLVR 评分标准 POW3R

推荐理由：做RLHF或RLVR的团队终于有了更聪明的奖励设计——POW3R解决了静态评分标准浪费训练信号的问题，做多模态或文本模型对齐的开发者可以直接参考实验设置。

原文

15:30

arXiv cs.AI@Antonio Ielo, Francesco Doria, Sandra Castellanos-Paez, Marco Maratea, Francesco Percassi, Mauro Vallati

精选

该论文首次提出使用回答集编程（ASP）自动化长期电网规划过程。电网作为关键基础设施，需应对可持续目标、需求模式和城市化趋势，而规划周期可能长达十年，需保持拓扑和组合不变量。传统规划语言难以表达这些复杂约束，而ASP能简洁优雅地编码。实验在合成和真实电网数据上验证了该方法的表达力和有效性。

论文电网规划回答集编程自动化基础设施优化

推荐理由：电网规划人员终于有了自动化工具——ASP 优雅处理了传统语言难以表达的拓扑约束，做电力系统优化的团队可以直接参考论文方法。

原文

15:29

arXiv cs.AI@Vasundra Srinivasan

精选72°

该论文首次将LLM输出与确定性系统之间的边界定义为“随机-确定性边界”（SDB），并视其为生产级智能体运行时的核心原语。作者围绕SDB提出了运行时设计的三个关注点（协调、状态、控制），并给出了六种运行时模式（如层次委派、散聚+Saga、事件驱动序列等），每种模式都追溯了其分布式系统根源并分析了当工作节点变为随机模型时的变化。论文贡献了一套五步模式选择方法论、一个将生产故障映射到模式弱点的诊断流程，以及一种名为“回放发散”的故障模式。通过可靠性分解，论文论证了随着模型方差降低，模式选择和SDB强度对长期可靠性的影响越来越大。

论文智能体运行时架构随机-确定性边界模式选择可靠性

推荐理由：做LLM智能体工程化的团队终于有了系统化的架构设计方法论——不再靠直觉拼凑，而是有模式可循、有故障可诊断。建议负责智能体生产部署的架构师和SRE点开，看完能少踩几个坑。

原文

11:42

arXiv: OpenAI@Zhuohan Gu, Qizheng Zhang, Omar Khattab, Samuel Madden

精选

PEEK 是一种为长上下文 LLM 智能体设计的系统，通过缓存和维护“上下文地图”来提升其在重复外部上下文（如文档库、代码仓库）中的表现。现有方法要么保留智能体的轨迹、被动访问原始材料，要么保留任务级策略，但都忽略了可复用的方向知识（如上下文内容、组织方式、历史有用的实体和模式）。PEEK 通过三个模块（Distiller、Cartographer、Evictor）将推理信号转化为结构化、固定大小的上下文地图，并嵌入智能体提示中。实验显示，PEEK 在长上下文推理和信息聚合任务上比强基线提升 6.3-34.0%，同时减少 93-145 次迭代，成本比最先进的 ACE 框架低 1.7-5.8 倍。在上下文学习任务上，PEEK 的解决率和评分准确率分别提升 6.0-14.0% 和 7.8-12.1%，成本仅为 ACE 的 1.4 倍，且泛化到不同语言模型和智能体架构。

论文长上下文智能体缓存策略上下文地图 PEEK

推荐理由：PEEK 解决了长上下文智能体在重复场景中反复“从头探索”的痛点，做文档分析或代码库维护的开发者可以直接用，能显著降低推理成本并提升准确率。

原文

11:41

arXiv: Google DeepMind@Bosun Liang, Shuo Pei, Zirui Chen, Chuanzhi Fan, Chen Sun, Yuankai Wu, Huachun Tan, Yong Wang

精选

强化学习常产生高频振荡控制信号，影响物理部署的安全与稳定。显式动作分块虽能预测固定轨迹，但会扩大策略输出维度，导致优化困难。本文提出双窗口平滑（DWS）框架，通过隐式动作分块实现平滑连续控制，无需扩展动作空间。DWS包含执行窗口（确保物理平滑）和价值窗口（修正评论家偏差），并引入轻量级时序正则化器。在DeepMind控制套件、工业能源管理及视觉自动驾驶任务中，DWS超越现有方法，实现100%成功率。

论文强化学习连续控制动作分块平滑控制 DWS

推荐理由：做机器人控制或自动驾驶的团队，DWS解决了强化学习控制信号抖动这个老大难问题，无需增加模型复杂度就能提升安全性和成功率，值得在你们的仿真或实机任务上试试。

原文

11:39

arXiv cs.LG@Thien Le, Melanie Weber

精选

本文研究了在组合优化任务中，如何将大型模型的知识蒸馏到更小、更高效的模型。作者假设目标模型是图神经网络，其架构与任务的动态规划算法对齐。基于决策树蒸馏的最新理论分析，论文证明了当源模型足够丰富（通过线性表示假设形式化）时，蒸馏问题可以在动态规划转移函数的复杂度参数内高效解决。该工作为算法对齐框架下的成功蒸馏提供了严格充分条件。

论文蒸馏组合优化图神经网络算法对齐动态规划

推荐理由：组合优化任务通常依赖大型模型，但部署成本高。本文给出了理论保证，让做图神经网络和算法对齐的开发者知道何时可以安全地蒸馏到小模型，值得关注。

原文

11:37

arXiv cs.LG@Parsa Esmati, Junha Hyung, Amirhossein Dadashzadeh, Jaegul Choo, Majid Mirmehdi

精选

扩散和流生成模型依赖引导机制对齐样本与用户输入，但现有方法如无分类器引导（CFG）是启发式的速度/分数线性组合，忽略生成流形几何，导致概率不守恒，强引导下样本偏离流形。研究者通过连续性方程分析引导，将其分解为散度项和分数平行项，并证明散度项在接近数据流形时结构性地发散。基于此提出自适应流形引导（AdaMaG），通过时间依赖调度和分数平行衰减同时约束两项，无需额外推理成本。实验表明，AdaMaG在图像生成基准上提升真实感、减少幻觉，并在高引导强度下实现受控去饱和。

论文扩散模型流生成模型引导机制概率守恒 AdaMaG

推荐理由：做图像生成的开发者终于有了理论扎实的引导方法——AdaMaG解决了CFG强引导下样本失真和幻觉问题，直接提升生成质量，建议做扩散模型的团队试试。

原文

11:35

arXiv cs.LG@Nico Pelleriti, Sree Harsha Nelaturu, Zhanke Zhou, Zongze Li, Max Zimmer, Bo Han, Sebastian Pokutta

精选72°

论文进化算法编码智能体 LLM EvoTrace 基准分析

推荐理由：做 AI 编码智能体或进化算法研究的开发者，这篇论文帮你拆解了 benchmark 分数的真实来源——别再只看最终得分了，EvoTrace 让你看清智能体到底在“进化”什么。

原文

11:31

arXiv cs.LG@Yuhao Shen, Tianyu Liu, Xinyi Hu, Quan Kong, Baolin Zhang, Jun Dai, Jun Zhang, Shuang Ge, Lei Chen, Yue Li, Mingcheng Wan, Cong Wang

精选

投机解码通过草稿-验证范式加速大模型推理，但现有方法构建的庞大草稿树带来严重的显存带宽和计算开销。动态深度剪枝虽能减少延迟，却会丢弃潜在有效候选，导致接受率无法达到稠密树的上限。本文提出Graft框架，将剪枝与检索作为相互增强的操作：剪枝释放计算预算，检索补偿剪枝导致的覆盖损失并恢复接受长度。Graft采用“先剪后接”机制，以近乎零开销将高预测性的检索令牌填入剪枝空位，无需训练且无损。在短上下文、长上下文及大规模模型（如Qwen3-235B）上，Graft实现了最高5.41倍加速，平均加速比EAGLE-3提升21.8%，并初步探索了在非自回归草稿范式中的应用。

论文投机解码推理加速剪枝检索补偿大模型部署

推荐理由：做推理加速的团队终于有了一个不牺牲接受率的剪枝方案——Graft用检索补偿剪枝损失，直接提升EAGLE-3 21.8%的加速比，搞LLM部署的值得试试。

原文

11:30

arXiv cs.LG@Valentina Njaradi, Clémentine Dominé, Rachel Swanson, Marco Mondelli, Andrew Saxe

精选

该论文通过高维分析框架，研究了预训练表征维度对下游线性探测泛化性能的影响。作者将预训练建模为无标签数据的主成分分析，下游任务建模为有标签数据的线性回归，并推导出训练误差和泛化误差的精确表达式。研究发现，当预训练数据充足但下游数据稀缺时，最大压缩的表征最优；而当预训练数据有限时，高维表征泛化更好。论文还量化了无标签数据与有标签数据之间的替代关系，并在自编码器和预训练大语言模型中观察到类似现象。

论文预训练表征学习泛化理论线性探测高维分析

推荐理由：这篇论文为预训练表征的维度选择提供了理论指导，做迁移学习或模型压缩的研究者可以直接参考其结论来优化训练策略。

原文

11:28

arXiv cs.LG@Robert Jenkinson Alvarez

精选

论文指出JEPA（联合嵌入预测架构）通常将单视图嵌入正则化为各向同性高斯分布，这隐含地引入了欧几里得对称性，但并非无害。当下游几何结构已知时，最优协方差应为哈密顿能量预算下的(c/d)H^{-1}，各向同性会导致可量化的性能损失。当下游几何未知时，任何固定边际目标都可能与某些结构严重不匹配。作者提出HamJEPA，将每个视图编码为相空间状态(q,p)，并用可学习的哈密顿跳蛙映射预测视图间转换，非各向同性尺度和谱底防止崩溃。在CIFAR-100上，HamJEPA在30轮时比SIGReg提升+4.89 kNN@20和+3.52线性探针点，80轮时提升+6.45 kNN@20和+10.64线性探针点。在ImageNet-100上，45轮时提升+4.82 kNN@20和+7.52线性探针点。

论文 JEPA 表示学习哈密顿几何自监督学习各向同性

推荐理由：这篇论文戳破了JEPA中“各向同性正则化无害”的默认假设，做自监督表示学习的团队值得关注——它用哈密顿几何给出了更优的耦合方式，实验提升显著且理论扎实。

原文

11:26

arXiv cs.LG@Ben Wooding, Hongchao Zhang, Taylor T. Johnson, Abolfazl Lavaei

精选

传统离散时间屏障证书要求安全函数每一步都非增，约束严格。本文提出 k-inductive 屏障证书，允许函数在 k-1 步内暂时增加（每步不超过阈值 ε），同时保证整体安全，提升了灵活性。研究利用神经网络构建 k-inductive 神经屏障证书（k-NBCs），适用于部分未知的非线性系统。为解决神经网络缺乏形式化保证的问题，采用反例引导归纳合成（CEGIS）与可满足性模理论（SMT）验证，但传统方法需已知系统动力学。本文借助 Willems 基本引理的推广，仅用单条状态轨迹构建数据驱动表示，实现未知模型的 SMT 验证，且不牺牲精度。在三个非线性案例上验证了方法的有效性。

论文安全验证神经屏障证书未知非线性系统 CEGIS-SMT 数据驱动

推荐理由：做安全关键系统（如自动驾驶、机器人）验证的团队，终于有了处理未知动力学的方法——用一条轨迹就能生成带形式保证的屏障证书，比传统依赖精确模型的方式实用得多，值得关注。

原文

11:24

arXiv cs.LG@Emaad Khwaja, Chris Lettieri, Gerald Woo, Eden Belouadah, Marc Cenac, Guillaume Jarry, Enguerrand Paquin, Xunyi Zhao, Viktoriya Zhukov, Othmane Abou-Amal, Chenghao Liu, Ameet Talwalkar, David Asker

精选76°

Toto 2.0 是一系列开源时间序列基础模型，参数规模从 4M 到 2.5B，展示了单一训练配方即可实现预测质量的可靠提升。该模型家族在 BOOM、GIFT-Eval 和 TIME 三个基准上刷新了最先进水平。研究团队详细描述了架构、训练数据、超参数迁移管道等设计决策。所有五个基础检查点均以 Apache 2.0 许可证开源。这项工作标志着时间序列预测领域正式进入规模扩展时代。

论文时间序列预测基础模型开源/仓库规模扩展 Toto 2.0

推荐理由：时间序列预测终于有了可扩展的基础模型，做金融、能源、运维等预测任务的团队可以直接用开源权重，值得关注。

原文

11:20

arXiv cs.LG@Ken Nakamura, Tomoya Nakai, Ryuto Yashiro, Ayumu Yamashita, Kaoru Amano

精选

本文提出一个统一框架，通过识别预测恢复的响应维度来评估人工视觉模型与人类视觉皮层的对齐程度，而不仅仅是依赖预测精度。利用重复fMRI测量，先确定可重复预测的脑响应维度，再量化模型或他人脑信号对这些维度的恢复程度。在自然场景数据集上的实验显示，早期到中期视觉皮层存在低维可重复维度，脑间比较可提供诊断性人类参考。预训练和随机初始化模型有时预测精度相似，但恢复轮廓不同，表明仅靠预测精度可能掩盖模型与大脑的失配。该框架为评估模型-大脑对齐提供了更诊断性的方法。

论文视觉模型大脑对齐 fMRI 预测精度可重复维度

推荐理由：做视觉模型与脑科学交叉研究的团队，终于有了一个能诊断模型到底恢复了大脑哪些维度的工具，而不是只看一个精度数字。建议做fMRI或视觉编码模型的点开，看完会重新理解什么才是真正的模型-大脑对齐。

原文

11:19

arXiv cs.LG@Jintao Li, Weichang Li, Kai Tong, Xaingyu Guo

精选

FiLark 是一个专为分布式声学传感（DAS）设计的 Python 框架，采用“流式优先”原则统一处理数据访问、信号处理、可视化和监控。它解决了传统批处理框架无法高效处理连续、超高通道数据流的问题，支持交互式浏览任意长录音、在数据流中直接标注事件，并集成 CPU/GPU 加速的信号处理库。该框架通过统一的流抽象，使交互式开发的处理配置可直接迁移到生产流水线，无需修改。

论文分布式声学传感流式处理 Python框架信号处理可视化

推荐理由：DAS 领域的研究者和工程师终于有了一个能处理连续数据流的工具，不用再手动切片段做离线分析了。做地震监测、管道检测或声学事件标注的团队，可以直接用 FiLark 搭建从探索到部署的完整工作流。

原文

11:17

arXiv cs.LG@Zhen Xiong, Shang-Ling Hsu, Cyrus Shahabi

精选

TrajTok 是一种新型轨迹编码器，通过自适应多分辨率六边形网格分词和掩码标记预训练，从原始GPS轨迹中学习可迁移的轨迹表征。它解决了传统网格分词中细粒度导致稀疏、粗粒度混淆运动模式的问题。TrajTok 使用分解式Transformer编码器，分别处理几何和运动学特征，并通过交叉注意力融合。在Porto数据集上，冻结的TrajTok编码器配合轻量任务适配器，在轨迹相似性搜索、分类、预计到达时间等任务上超越多个专用方法。这表明多分辨率空间分词与掩码预训练是构建通用轨迹基础模型的有前景方向。

论文轨迹表征空间分词 Transformer 预训练 GPS数据

推荐理由：做轨迹分析或时空数据挖掘的团队，TrajTok 提供了一种无需为每个任务单独训练模型的通用方案，值得关注其预训练权重和代码开源。

原文

11:15

arXiv cs.LG@Aurélien Pion, Emmanuel Vazquez

精选

贝叶斯优化依赖高斯过程预测分布来选择评估点，但核函数和超参数选择可能导致预测分布校准不良，影响探索-利用平衡。针对最小化问题，期望改进等采样准则依赖于当前最优值以下的预测分布，下尾校准直接决定采样决策。本文提出tcGP，一种后处理方法，专门校准高斯过程在低阈值以下的预测分布，并证明基于tcGP的EI全局优化算法在设计空间中是稠密的。标准基准实验表明，tcGP相比标准GP和全局校准GP，显著改善了下尾校准和贝叶斯优化性能。

论文贝叶斯优化高斯过程下尾校准期望改进 tcGP

推荐理由：做贝叶斯优化的团队终于有了专门解决下尾校准问题的工具——tcGP直接提升低值区域的预测可靠性，让EI采样更精准，做超参数调优或实验设计的建议试试。

原文

11:13

arXiv cs.LG@Yuchen Wu, Kangjie Zhou, Weijie Su

精选

本文研究了在结构化交互学习环境中，生成模型因反复使用其他模型生成的合成数据而导致性能退化（模型崩溃）的条件。作者用有向图形式化模型间的交互模式，发现模型崩溃的发生关键取决于交互图的拓扑结构。他们推导出模型崩溃发生的充要条件，并为线性回归和一般M估计器建立了有限样本和渐近理论保证。这项研究填补了此前仅关注单模型自训练而忽略多模型交互场景的空白。

论文模型崩溃交互学习生成模型有向图统计学习

推荐理由：做生成模型训练或数据增强的团队，这篇论文帮你搞清楚多模型交互时什么时候会踩坑——交互图拓扑是决定因素，值得仔细看看理论条件。

原文