全部 AI 动态 · AI 热点

5月25日

11:24

arXiv cs.LG@Lizhang Chen, Jonathan Li, Chen Liang, Ni Lao, Qiang Liu

精选

研究者提出了一种无需训练的循环Transformer方法，通过在推理时对冻结的预训练模型进行轻量级循环包装，无需微调或架构改动即可提升性能。该方法将Transformer块视为ODE的欧拉步，通过阻尼子步替代大步更新，避免了简单重复块导致的性能下降。在7个模型家族（包括密集、稀疏MoE和MLA+MoE）上验证有效，如Qwen3-4B-Instruct在MMLU-Pro上提升2.64个百分点，Qwen3-30B-A3B-Instruct在CommonsenseQA上提升1.14个百分点。该方法为利用现有模型提升推理能力提供了低成本方案。

论文循环Transformer 推理优化无需训练预训练模型 ODE视角

推荐理由：这项研究让使用冻结模型的团队无需重新训练就能提升推理性能，做模型部署或推理优化的开发者值得关注，可以直接在现有模型上尝试。

原文

11:22

arXiv cs.LG@Hongwu Peng, Ohiremen Dibua, Yuanjun Xiong, Yifan Gong, Jianming Zhang, Yan Kang

精选

研究者提出Complete-muE框架，解决了从密集FFN到混合专家（MoE）模型架构的超参数迁移问题。现有方法如μP和SDE无法处理MoE中专家数量变化带来的架构和每个专家token数同时改变的问题。Complete-muE通过双桥系统实现迁移：桥I利用激活宽度μP和归一化路由器尺度映射密集FFN到密集MoE；桥II通过激活专家缩放映射密集MoE到稀疏MoE，并处理一阶SDE学习率/权重衰减校正。实验表明，在语言模型和扩散模型预训练中，该框架能使超参数在多种MoE配置下保持稳定，实现“一次调参，迁移所有”的效果，显著加速MoE模型收敛。

论文 MoE模型超参数迁移缩放法则 Transformer 预训练

推荐理由：做大规模MoE模型训练的团队终于有了可靠的超参数迁移方案——不用为每个专家配置重新调参，直接复用密集模型的超参数即可，建议做预训练优化的点开看看。

原文

11:21

arXiv cs.AI@Yoosung Hong

精选

PCSP（Persona Conditioned Shared Policy）是一种基于强化学习的单策略框架，通过冻结LLM嵌入的低秩投影来条件化NPC行为，实现数百至数千个具有一致个性的非玩家角色控制。在300人生命模拟基准上，PCSP实现了零样本个性识别（组合泛化能力比随机高17倍）、语义-行为对齐（Spearman ρ≈0.73），以及比LLM策略基线快22倍的推理速度。该方法结合PPO、InfoNCE一致性损失和KL多样性目标，其中InfoNCE轨迹一致性目标至关重要，移除后零样本识别降至随机水平。在Melting Pot 2.4.0多智能体环境和UE5引擎部署中均验证了其个性条件化行为差异和实时推理能力。

论文强化学习 NPC控制个性条件化游戏AI LLM嵌入

推荐理由：游戏AI团队终于有了可落地的NPC个性控制方案——单策略支持数千角色且推理速度比LLM快22倍，做开放世界或模拟游戏的开发者可以直接在UE5中复现。

原文

11:20

arXiv cs.AI@Jiangwang Chen, Bowen Zhang, Zixin Song, Jiazheng Kang, Xiao Yang, Da Zhu, Guanjun Jiang

精选

当前大语言模型对话系统本质上是反应式的，只能在用户输入后响应。OnePred 提出通过递归更新的意图记忆来预测用户下一轮查询，无需重读完整对话历史。该方法采用两阶段强化学习训练，先教模型预测什么，再教如何压缩，形成面向预测的意图链。作者还发布了 NQP-Bench 基准测试集，包含三个子集。实验显示，OnePred 将每轮 token 消耗降低最多 22 倍，同时预测质量优于所有基线，在长对话中优势更明显。

论文对话系统预测模型强化学习意图记忆 NQP-Bench

推荐理由：对话系统从反应式走向主动式的关键一步，做对话 AI 或智能客服的团队值得关注，OnePred 的递归记忆思路可以直接参考或复现。

原文

11:19

arXiv cs.AI@Zhewen Tan, Yilun Yao, Huiyan Jin, Wenhan Yu, Guoan Wang, Mengyuan Fan, liang lu, Feng Liu, Xiangzheng Zhang, Duohe Ma, Tong Yang, Lin Sun

精选

大语言模型智能体依赖持久记忆来存储历史交互并提升长任务执行能力，但这也带来了安全漏洞：对抗用户可通过正常交互向记忆库注入恶意记录，后续检索时操纵智能体行为。现有防御主要聚焦在线干预（如提示过滤），无法在有害行为发生后定位哪些记忆是罪魁祸首。MemAudit 提出后验因果审计框架，结合反事实记忆影响分数和记忆一致性图，从结构异常中识别恶意记忆。在 QA 和推理智能体场景下，MemAudit 将攻击成功率从 70% 和 83.3% 降至 0%，为智能体记忆安全提供了有效的审计工具。

论文智能体安全/对抗记忆审计因果归因 LLM

推荐理由：智能体记忆安全是实际部署中的盲区，MemAudit 解决了「事后追责」的难题，做 LLM 安全或智能体系统的团队可以直接参考其因果审计方法。

原文

11:19

arXiv cs.AI@Ming Yang, Tao Yu, Feng Li, Hua Chen

精选

全身跟踪（WBT）模型是人形机器人模仿多样动作的关键基础，但从头训练需要大量数据和计算资源。Any2Any 提出一种新范式，通过运动学对齐和轻量级参数高效微调（PEFT），将预训练的 WBT 模型快速迁移到新的人形机器人本体上。实验表明，仅需 1% 的计算和数据量，Any2Any 就能将基于 Unitree G1 预训练的 Sonic 模型成功迁移到 LimX Oli 和 LimX Luna 上，性能与从头训练相当甚至更优。这为快速部署人形机器人全身控制提供了可扩展的路径。

论文人形机器人全身跟踪迁移学习参数高效微调 Any2Any

推荐理由：人形机器人开发者终于有了低成本复用预训练模型的方法——Any2Any 用 1% 的数据和算力就能迁移全身跟踪能力，做机器人部署的团队可以直接参考。

原文

11:18

arXiv cs.AI@Jiarui Guo, Haojia Wei, Yiming Zhang, Yifei Liu, Yuning Gong, Hongjie Zhang, Xue Yang, Zhihang Zhong

精选

PhotoFlow 提出了一种基于智能体的虚拟摄影框架，能够在无预设相机位姿或参考图像的情况下，根据语言指令在3D场景中自动选择相机参数并渲染照片。该框架包含导演、评审和反思三个模块，通过闭环搜索优化拍摄效果。同时发布了 VPhotoBench 基准，包含47个场景和141个语言条件摄影任务。实验表明，PhotoFlow 在六轮渲染预算下，成功率和质量对齐指标均优于现有方法。这是首个将语言条件虚拟摄影作为可执行智能体任务的工作。

论文智能体 3D场景理解虚拟摄影视觉语言模型闭环搜索

推荐理由：做3D场景理解或自动摄影的团队，PhotoFlow 把语言指令到相机参数的全流程打通了，可以直接用它的闭环搜索思路提升自己的渲染管线。

原文

11:18

arXiv cs.AI@Alessandro Sosso, Akhil Arora, Bas Spitters

精选

该论文评估了 Claude Code 在 CLEVER 基准（Lean 4 可验证代码生成）上的表现。结果显示，Claude 为 98.8% 的问题生成了有效的规范（其中 81.3% 通过了同构评分），87.5% 的问题通过了正确规范的实现验证，端到端管线成功率达 98.1%。Claude 还能对自身尝试提供高质量反馈，识别失败原因和数据集中的错误。这表明现有程序验证基准已不足以衡量现代智能体证明器的能力，需要更严格、抗错误的评估方法。

论文程序验证 Lean 4 Claude Code 智能体证明形式化验证

推荐理由：程序验证是 AI 安全的关键环节，Claude Code 在 Lean 4 上接近完美的表现意味着做形式化验证的团队可以大幅提升效率，建议关注其编译器闭环范式。

原文

11:17

arXiv cs.AI@Haoyuan Wang, Xiaohao Liu, Jiajie Su, Jianmao Xiao, Chaochao Chen

精选

多模态大模型需要高效更新知识，但现有方法在语义等价变体上泛化不足。论文提出ASAM框架，包含Latent Adversarial Robustification（LAR）生成对抗变体，以及Rank-Constrained Subspace Learning（RCSL）通过低秩对齐增强编辑鲁棒性。实验表明该方法在保持可靠性和局部性的同时，显著提升了跨视觉和语言变体的泛化能力。这项工作为多模态知识编辑的鲁棒性提供了新思路。

论文多模态大模型知识编辑对抗训练子空间学习泛化性

推荐理由：做多模态大模型知识更新的研究者会关注——ASAM解决了编辑后泛化差的痛点，用对抗子空间对齐让模型对语义等价变体也生效，值得在MLLM编辑任务上试试。

原文

11:17

arXiv cs.AI@Jorge Chang Ortega, Bastien Le Lan, Thomas Serre, Victor Boutin

精选

一项新研究通过联合能量模型（JEM）在固定架构中连续插值判别式和生成式训练，发现人类视觉对齐在两者之间的中间点达到最优，而非任一极端。研究在六个基准测试（包括感知相似性、光泽感知、人类响应不确定性、鲁棒性、形状-纹理冲突和诊断特征归因）上验证了这一结论。混合JEM结合了判别式学习的类别结构和生成式学习对输入结构的敏感性，产生了更接近人类视觉的行为。这表明，理解人类视觉对齐的关键不是选择哪种学习目标，而是平衡两者。

论文视觉模型生成式学习判别式学习人类对齐联合能量模型

推荐理由：这项研究解决了计算机视觉中一个长期争论：人类视觉更接近生成式还是判别式模型？答案是两者平衡。对视觉AI研究者和模型设计者来说，这是一个值得关注的结论，建议在模型训练中尝试混合目标。

原文

11:16

arXiv cs.AI@Stuart Bladon, Brinnae Bent

精选76°

一项新研究挑战了普遍假设，发现大语言模型的地缘政治偏见主要来自后训练阶段（如指令微调），而非预训练数据。研究测试了七个开源模型对（基础版和聊天版）在28对国家上的偏好，结果显示六家实验室的模型在后训练后表现出与开发者所在国或地区一致的偏见。例如，阿里Qwen 2.5聊天版对中国偏好从基础版的-0.15跃升至+2.91（对数几率），变化达18倍。偏见强度还受提示语言影响：法国Mistral模型仅在法语提示下才显著亲法。该发现强调了对模型对齐过程进行透明审计和监督的必要性。

论文地缘政治偏见后训练对齐模型审计 Qwen Mistral

推荐理由：这项研究戳破了“数据决定一切”的迷思，做AI安全、模型对齐或地缘政治分析的团队值得细读——它直接影响了如何评估和调整模型的政治倾向。

原文

11:16

arXiv cs.AI@Aneesh Komanduri, Xintao Wu

精选

因果生成建模对于开发可靠、透明的AI系统至关重要，但现有方法通常需要在训练时集成因果约束，缺乏利用预训练基础模型零样本推理能力的统一框架。本文提出FM-CGM，一个模块化框架，通过概念提取器、概念操纵器和反事实生成器三个核心组件，实现端到端的视觉因果推理。该框架利用大型推理模型进行因果推断，结合文本到图像扩散模型进行生成，支持零样本因果发现、干预和反事实生成。同时，作者开发了因果语义引导（CSG）机制，确保语义干预传播到后代概念并保留不变区域。实验表明，该方法能识别合理的因果结构，并生成忠实的反事实图像。

论文因果生成建模基础模型零样本推理反事实生成扩散模型

推荐理由：因果推理是AI可靠性的关键，FM-CGM让零样本因果生成成为可能，做视觉生成或因果推理的研究者可以直接参考其框架设计。

原文

11:15

arXiv cs.AI@Laura R. Marusich, Mary Grace Kozuch Dhooghe, Jonathan Z. Bakdash, Murat Kantarcioglu

精选

一项大规模人类行为实验评估了LLM生成的叙事解释对分类任务决策表现的影响。研究发现，无论叙事解释的说服力高低，其提升决策准确性的效果并不优于仅提供AI预测。叙事解释增加了用户对AI的依赖，但无论AI预测正确与否，这种依赖都会增强。探索性分析还表明，更具说服力的叙事可能延长决策响应时间，并削弱用户区分正确与错误预测的能力。该研究指出，在AI预测中加入叙事解释可能带来决策表现的权衡，需要更多工作来理解其影响机制。

论文 LLM 叙事解释人机决策可解释AI 行为实验

推荐理由：做AI辅助决策系统或人机协作研究的团队，这篇论文揭示了叙事解释可能带来的隐藏成本——它不一定提升准确率，反而可能拖慢决策并增加盲目信任，值得仔细读读实验设计。

原文

11:15

arXiv cs.AI@Rim Assouel, Amir Bar, Michal Drozdzal, Adriana Romero-Soriano

精选

多模态大语言模型在细粒度视觉理解上仍有不足。研究者提出PGT框架，通过在图像上叠加几何基元生成密集监督信号，分离视觉定位与语义先验。实验显示，在LLaVA-v1.5-Instruct上加入PGT数据后，What'sUp基准提升20%，CV-Bench-2D提升13.3%，且不影响通用感知能力。在先进MLLM上微调也带来最高8.3%的提升。结果表明，许多空间推理缺陷源于监督信号不足，而非架构或分辨率限制。

论文多模态大语言模型视觉定位数据增强细粒度理解 PGT

推荐理由：PGT用低成本数据生成解决了MLLM细粒度视觉理解的瓶颈，做多模态模型训练或评估的团队可以直接用这个框架提升定位能力，值得一试。

原文

11:14

arXiv cs.AI@Joydeep Chandra

精选

CHRONOS 提出了一种三层架构，统一解决时序知识图谱数据市场中索引过时、定价失效和隐私预算过度消耗三个耦合问题。第一层使用神经ODE对边进行时序衰减，提供每查询预期召回损失上界；第二层基于检测到的变化点调整Shapley估值，并给出有限样本误差保证；第三层采用EXP3-IX算法实现次线性遗憾，同时通过矩会计满足差分隐私。实验表明，CHRONOS在四个基准上达到0.937召回率、2.74 QPS、161ms延迟，总隐私预算ε=4.25。该架构为动态数据市场提供了首个兼顾时效性、公平性和隐私性的协调方案。

论文多智能体协调时序知识图谱差分隐私 Shapley估值数据市场

推荐理由：做数据市场、时序知识图谱或多智能体系统的研究者值得关注——CHRONOS 把索引、定价和隐私三个痛点一起解决了，实验数据扎实，可以直接作为基线或参考架构。

原文

11:14

arXiv cs.AI@Shuhong Zheng, Michael Oechsle, Erik Sandström, Marie-Julie Rakotosaona, Federico Tombari, Igor Gilitschenski

精选

视觉几何Transformer在多视图3D重建中表现出色，但全局注意力层导致计算成本随输入序列长度二次增长，限制了可扩展性和效率。本文提出一种简单通用的策略：限制每个查询在全局注意力中交互的键/值令牌数量。通过两阶段框架实现有效令牌选择：帧间选择基于多样性策略确保场景覆盖，帧内选择利用注意力熵指导层感知稀疏化。实验表明，该方法在500张图像场景下加速超过85%，同时保持甚至提升基线性能，为视觉几何Transformer的未来应用提供了关键优化思路。

论文视觉几何Transformer 令牌选择 3D重建注意力机制加速优化

推荐理由：做3D重建或视觉Transformer的开发者，这篇论文用两阶段令牌选择解决了计算瓶颈，85%的加速效果值得直接参考实现。

原文

11:13

arXiv cs.AI@Beichen Zhang, Yuhong Liu, Jinsong Li, Yuhang Zang, Jiaqi Wang, Dahua Lin

精选

多模态大语言模型在视觉推理上虽有进步，但纯文本思维链在处理需要精细关注或视角变换的问题时仍是瓶颈。现有“用图像思考”的方法要么受限于固定工具集，要么产生噪声中间图像。ETCHR 提出第三种方案：使用专用图像编辑模型，并将其与理解模型解耦。它通过两阶段训练（推理模仿和推理增强）解决语言侧和生成侧的差距，使编辑器能根据问题主动进行视觉变换。实验表明，ETCHR 在五个任务族上平均提升 Pass@1 约 5 个百分点，且可即插即用于多种开源和闭源多模态模型。

论文多模态推理图像编辑视觉问答推理增强 ETCHR

推荐理由：做多模态推理或视觉问答的开发者，ETCHR 提供了一种无需微调即可提升模型准确率的思路，值得在现有工作流中试试。

原文

11:13

arXiv cs.AI@Jianshu Zhang, Yijiang Li, Huifeixin Chen, Haoran Lu, Letian Xue, Bingyang Wang, Han Liu

精选

该研究通过SpaceNum框架系统评估了视觉语言模型（VLMs）在空间数值理解上的表现，包括动态探索和静态布局两种场景。实验发现，当前VLMs在将视觉空间结构与语言数值表示进行映射时，表现接近随机猜测，严重依赖浅层空间线索。模型难以建立稳定的坐标感知表示，也无法从视觉观察中抽象出结构化空间布局。即使加入显式推理或微调，提升也有限。这项研究揭示了VLMs在具身环境中输出数值（如动作幅度、空间坐标）时，可能并未真正理解其空间含义。

论文视觉语言模型空间推理数值理解具身智能基准测试

推荐理由：做具身智能或空间推理的开发者会发现，当前VLMs的数值输出可能只是“看起来对”，实际缺乏空间感知——这项研究用严谨实验戳破了这个盲区，值得关注。

原文

11:12

arXiv cs.AI@Zisu Huang, Jingwen Xu, Yifan Yang, Ziyang Gong, Qihao Yang, Muzhao Tian, Xiaohua Wang, Changze Lv, Xuemei Gao, Qi Dai, Bei Liu, Kai Qiu, Xue Yang, Dongdong Chen, Xiaoqing Zheng, Chong Luo

精选

这篇论文系统研究了语言智能体通过复用模型生成的技能（结构化程序化知识）来提升性能的全过程，涵盖经验生成、技能提取和技能消费三个阶段。研究发现，模型生成的技能平均有益，但存在显著的负迁移现象，且技能提取器和消费器的表现并不一致——一个模型可能是强提取器但弱消费者，反之亦然。技能效用与模型规模或基线任务强度无关。通过深入分析每个阶段，论文揭示了经验组成如何影响技能质量、有用技能的特征以及同一技能在不同消费者间的迁移效果。最后，作者提出了一种元技能方法，指导技能提取聚焦于实际效用相关的特征，一致提升了技能质量并大幅减少了负迁移。

论文智能体技能复用负迁移元技能语言模型

推荐理由：这篇论文为智能体技能复用提供了首个系统性评估框架，做智能体开发或研究的人可以从中了解技能提取与消费的匹配规律，避免负迁移陷阱，值得关注。

原文

11:12

arXiv cs.AI@Xu Ouyang, Deyi Liu, Yuhang Cai, Jing Liu, Yuan Yang, Chen Zheng, Thomas Hartvigsen, Yiyuan Ma

精选

现有的大语言模型缩放定律（如单调幂律）无法解释灾难性过训练和量化退化等非单调现象。研究者提出香农缩放定律，将LLM训练建模为噪声信道上的信息传输，基于香农-哈特利定理，将模型参数映射为信道带宽，训练token映射为信号功率。该理论揭示了LLM的香农容量：若缩放模型或数据时未保持足够信噪比，噪声放大将导致性能从单调提升转为U形退化。在Pythia和OLMo2上的实验验证了该定律，其预测准确率优于经典缩放定律，并能外推到未见模型。

论文缩放定律香农容量噪声信道 LLM训练理论框架

推荐理由：香农缩放定律统一解释了LLM训练中的非单调退化现象，做模型缩放和训练优化的研究者可以直接用这个框架预测性能拐点，避免盲目增加计算量。

原文

11:11

arXiv cs.AI@Yifan Yang, Ziyang Gong, Weiquan Huang, Qihao Yang, Ziwei Zhou, Zisu Huang, Yan Li, Xuemei Gao, Qi Dai, Bei Liu, Kai Qiu, Yuqing Yang, Dongdong Chen, Xue Yang, Chong Luo

精选72°

SkillOpt 提出了一种新方法，将智能体技能视为冻结模型的外部状态，通过独立的优化器模型对技能文档进行有界增删改编辑，并仅在严格提升验证集分数时接受修改。该方法引入了文本学习率预算、拒绝编辑缓冲区和逐轮慢/元更新机制，使技能训练稳定且部署时零额外模型调用。在 6 个基准、7 个目标模型和 3 种执行框架（直接对话、Codex、Claude Code）的 52 个测试单元中，SkillOpt 全部取得最佳或并列最佳，相比无技能基线在 GPT-5.5 上平均提升 19.1-24.8 个百分点。迁移实验表明，优化后的技能在不同模型规模、执行环境和相近数学基准间仍保持价值。

论文智能体技能优化文本空间优化 GPT-5.5 Codex

推荐理由：SkillOpt 解决了智能体技能无法像深度学习权重那样可靠优化的问题，做智能体开发或技能自动生成的团队可以直接用这套方法替代手工调参，效果显著且部署零开销。

原文

10:04

arXiv: OpenAI@Shuai Zhen, Yifan Zhang, Yuling Wang, Yanhua Yu

强化学习长期面临样本效率低下的问题，利用群不变马尔可夫决策过程（G-invariant MDPs）是一种有前景的缓解方法。现有工作主要关注基于图像的强化学习和旋转对称性（如SO(2)），而基于状态的强化学习和反射对称性尚未充分探索。本文提出Reflex范式，专注于基于状态的连续控制任务，利用反射对称性（包括轴向反射和双侧反射），并与PPO和SAC等算法无缝集成。通过理论分析对称性保持的最优值函数和策略，Reflex引入对称性正则化机制，在OpenAI Gym和DeepMind Control基准测试中显著提升了样本效率和性能。代码已开源。

论文强化学习样本效率反射对称性连续控制开源/仓库

推荐理由：Reflex解决了强化学习样本效率低下的痛点，尤其适合做连续控制任务的RL研究者——直接集成PPO/SAC就能提升性能，值得一试。

原文

10:03

arXiv cs.LG@Rouaa Hoblos, Noura Dridi, Noureddine Zerhouni, Zeina Al Masry

传统神经网络缺乏不确定性估计能力，而贝叶斯神经网络计算复杂。蒙特卡洛 Dropout 通过多次随机前向传播近似贝叶斯推理，但不确定性表示不够精细。本文提出将 Dirichlet 分布框架集成到 MC Dropout 中，利用 Sensoy 等人的方法建模类别概率，从而获得更丰富的不确定性信息。该方法在保持 MC Dropout 计算效率的同时，显著提升了不确定性估计的校准质量。实验表明，该方法能生成良好校准的不确定性估计，为不确定性感知的深度学习提供了实用方案。

论文不确定性估计 MC Dropout Dirichlet分布贝叶斯神经网络校准

推荐理由：做模型可靠性或安全关键应用的团队，终于有了一个既高效又精准的不确定性量化工具——在 MC Dropout 基础上加 Dirichlet 分布，校准效果更好，值得在分类任务中试试。

原文

10:02

arXiv cs.LG@Matthias Cosler, Cas Cremers, Bernd Finkbeiner, Mohamed Ghanem, Niklas Medinger

本文提出一个基于强化学习的框架，借鉴AlphaZero和AlphaProof的思路，为安全协议分析工具Tamarin实现新的证明搜索方式。该框架通过无状态API将Tamarin转化为经典RL环境，并用蒙特卡洛树搜索结合神经网络启发式，从已完成子证明中学习。在16个案例研究中，该方法比Tamarin标准搜索找到更多自动证明，且生成的证明比标准及人工设计的启发式更短。该框架可直接用于辅助Tamarin用户，减少人工工作量，展示了RL方法在协议验证领域的潜力。

论文强化学习安全协议验证 Tamarin 蒙特卡洛树搜索自动证明

推荐理由：做安全协议验证的团队终于有了减少人工的利器——RL框架自动生成更短证明，Tamarin用户可以直接集成到现有工作流中，值得一试。

原文

10:02

arXiv cs.LG@Vincent C. Brockers, Roman D. Ventzke, Valentin Neuhaus, Belén Hidalgo-Ogalde, Viola Priesemann

本文研究了神经网络中的“潜意识学习”现象，即学生模型通过教师模型在任务无关的输入-输出对上进行蒸馏，从而获得任务相关知识或偏差。先前研究认为这需要师生初始化高度匹配，但本文证明只需兼容的输出头即可实现。在MNIST数据集上，通过将输出分为辅助头（处理噪声）和分类头，即使在隐藏层随机初始化、增减层或改变架构（如MLP到CNN）的情况下，潜意识学习仍会发生。兼容的辅助头能传递可恢复的教师信号，使学生表征更接近教师。当分类头也兼容时，仅用噪声训练的学生模型可接近甚至匹配教师的任务性能。本文还建立了理论解释机制并推导了失效的上界，将潜意识学习从意外现象转化为可预测的机制。

论文知识蒸馏神经网络潜意识学习表征对齐 MNIST

推荐理由：这篇论文揭示了神经网络蒸馏中一个反直觉但关键的机制——潜意识学习并不依赖初始化匹配，而是由输出头兼容性驱动。做模型压缩、知识蒸馏或研究表征对齐的研究者值得细读，它可能改变你对蒸馏数据选择的认知。

原文

10:01

arXiv cs.LG@Nikola Pavlovic, Sattar Vakili, Qing Zhao

本文研究了在 episodic 核马尔可夫决策过程（MDP）中仅通过偏好反馈进行强化学习的问题。与传统的数值奖励不同，人类反馈通常以偏好形式出现（如比较两个轨迹的优劣），这更符合 RLHF 的实际场景。作者假设奖励和转移函数属于核函数空间（一种通用的理论分析模型），并设计了基于偏好的值估计和置信集方法，专门处理每轮结束时给出的二元偏好比较。理论结果表明，学习策略的遗憾值随回合数亚线性增长，即最终能收敛到最优策略。该工作为偏好反馈下的强化学习提供了严格的理论基础，尤其适用于奖励难以量化但人类容易比较的场景。

论文强化学习偏好反馈 RLHF 核MDP 理论分析

推荐理由：偏好反馈是 RLHF 的核心，但理论分析一直稀缺。这篇论文把核 MDP 和偏好学习结合，给出了亚线性遗憾界，做理论强化学习或 RLHF 算法设计的研究者值得细读。

原文

10:01

arXiv cs.LG@Liupeng Li, Haoqian Kang, Zhenyu Lu, Jinpeng Wang, Bin Chen, Ke Chen, Yaowei Wang

精选

高分辨率图像感知是当前多模态大模型（MLLMs）的关键瓶颈。现有视觉搜索方法在覆盖率和效率之间难以平衡：专家辅助搜索高效但易遗漏，扫描式搜索全覆盖但计算冗余。CVSearch 提出了一种无需训练的“评估-搜索”自适应框架，先尝试专家辅助搜索，失败时再触发语义感知扫描，通过语义引导的自适应分块避免物体碎片化，并利用视觉复杂度驱动的动态自底向上搜索实现局部细节的高效迭代探索。实验表明，CVSearch 在高分辨率基准上达到最先进精度，同时显著提升搜索效率。代码已开源。

论文多模态大模型高分辨率图像视觉搜索自适应框架开源/仓库

推荐理由：高分辨率图像感知是 MLLMs 落地的硬骨头，CVSearch 用零训练成本解决了覆盖率和效率的矛盾，做多模态感知或视觉问答的团队可以直接拿来用。

原文

10:00

arXiv cs.LG@Robin Deuber, Lanlan Yang, Michal Bechny, Christoph Heck, Matthias Pfäffli, Matthias Bantle, Florian von Wangenheim, Elgar Fleisch, Wolfgang Weinmann, Manuel Günther, Felix Wortmann, Varun Mishra

一项新研究利用市售智能手表的加速度计和心率变异性数据，检测酒精导致的驾驶损伤。研究在封闭测试轨道上进行了随机对照实验（n=54），训练了逻辑回归和1D卷积神经网络模型。CNN模型检测任何酒精摄入的AUROC为0.88，检测超过WHO推荐限值（0.05 g/dL）的AUROC为0.86。这是首个在真实车辆中验证、并严格评估对未见参与者泛化能力的智能手表酒驾检测系统。该成果展示了可穿戴设备在规模化预防酒精相关交通事故中的潜力。

论文智能手表酒驾检测可穿戴设备交通安全 CNN

推荐理由：这项研究把智能手表从健康监测延伸到公共安全领域，做可穿戴设备或交通安全研究的团队值得关注——它证明了消费级硬件也能做高精度酒驾检测，无需额外车载设备。

原文

10:00