全部 AI 动态 · AI 热点

6月2日

12:00

arXiv cs.LG@Yeganeh Marghi, Kelly Jin, Uygar Sümbül

最优传输（OT）在分布映射中提供了理论框架，但计算成本高且结果难以解释。新提出的最优混合传输（OMT）将传输对象从单个样本转向子总体混合，并将问题转化为严格双凸优化，保证唯一全局最小值。OMT 在理论上证明传输映射的稳定性，即底层分布的有限扰动导致传输计划的有限变化。通过将子总体建模为指数族分布，OMT 的计算复杂度仅与混合成分数量相关，而非样本量。在图像数据和单细胞 RNA 测序等大规模真实数据集上，OMT 展示了有效性和实用性。

论文最优传输混合模型双凸优化稳定性单细胞RNA测序

推荐理由：OMT 解决了大规模数据上最优传输计算昂贵且结果难解释的痛点，做分布对齐、数据融合或生物信息学的团队可以直接用这个框架来获得稳定且可解释的传输计划。

原文

12:00

arXiv cs.AI@Jonah Leshin, Manish Shah, Ian Timmis

精选

该研究提出了一种通过分析技能文件、记忆文件等文本编辑来测量智能体特质的方法。研究者将特质定义为文本嵌入空间中的方向，通过训练线性模型学习特质向量，并利用嵌入差异投影来评分任意技能编辑。在68个标注数据上，该方法对敏感数据获取倾向特质的符号分类准确率达91.2%，斯皮尔曼秩相关系数为0.82。该框架还支持智能体间通过可信中介评估技能文件更新，为自适应智能体的行为监控提供了新工具。

论文智能体行为追踪特质测量技能文件文本嵌入

推荐理由：这项研究解决了自适应智能体行为难以量化追踪的痛点，做AI安全、智能体行为分析的团队可以直接用这套方法评估模型特质变化，值得关注。

原文

12:00

arXiv cs.LG@Zhou Jiang, Yandong Wen, Zhen Liu

精选

一步式文本到图像生成器（如SD-Turbo）因单次前向传播即可生成图像而备受关注，但其偏好微调面临挑战。现有方法依赖策略似然、去噪轨迹或可微奖励梯度，难以直接应用。研究者提出Drifting Preference Optimization (DrPO)，一种在线偏好微调方法，通过从当前生成器采样候选图像，用目标奖励排序，并合成特征空间更新方向（非参数偶极偏好场加参考漂移），实现无需奖励梯度的训练。DrPO在SD-Turbo和SDXL-Turbo上评估，使用HPSv3和GenEval等基准，相比无奖励梯度的一步偏好基线提升了对齐效果，并在匹配有效批次设置下将HPSv3训练计算量降低3.51倍。该方法支持大型、黑箱或不可微奖励，且推理时仍保持单次生成调用。

论文一步生成模型偏好优化文本到图像 SD-Turbo 奖励函数

推荐理由：DrPO 解决了单步生成模型偏好微调的核心痛点——无需可微奖励或复杂去噪轨迹，做文本到图像生成的团队可以直接用黑箱奖励提升模型对齐度，训练效率还提升了3倍多，值得关注。

原文

12:00

arXiv cs.AI@Junxia Cui, Haotian Ye, Runchu Tian, Hongcan Guo, Jinya Jiang, Haoru Li, Chaojie Ren, Yiming Huang, Kaijie Zhu, Zhongkai Yu, Kun Zhou, Jingbo Shang

精选

扩散大语言模型（dLLMs）作为自回归（AR）模型的替代方案，通过并行或块解码实现更快推理，但其掩码语言建模公式与标准token级推测解码不兼容。AR模型利用因果掩码实现单次前向验证多个草稿token，而dLLMs依赖掩码token和双向注意力，导致有效上下文随去噪步骤变化，无法直接进行token级推测验证。为此，研究者提出SimSD，一种简单有效的推测解码算法，采用即插即用的掩码策略，为dLLMs提供时间上有效的token级上下文。该方法显式引入草稿模型的参考token，并设计注意力掩码调节其与当前步骤token的交互，使dLLMs能在单次前向前向计算草稿token的有效logits，恢复AR模型的验证能力同时保持dLLMs的并行解码优势。SimSD无需训练，可灵活集成KV缓存和块解码等加速技术，在四个基准测试中实现高达7.46倍的解码吞吐量提升，同时保持甚至改善平均生成质量。

论文推测解码扩散语言模型推理加速掩码策略训练无关

推荐理由：扩散语言模型终于有了实用的推测解码方案，做模型推理加速的团队可以直接集成SimSD，无需额外训练就能获得数倍吞吐提升，值得关注。

原文

12:00

arXiv cs.LG@Wenbin Wu

精选

该研究开发了一个三级审计协议，用于检测大型语言模型（LLMs）是否对特定金融资产存在系统性偏好。以比特币为测试对象，对8个前沿LLM的行为审计发现，比特币在“可靠货币”框架下排名中等，但在危机和自主代理框架下排名靠前。通过分析Gemma 3模型的内部表征，研究人员识别出一个主导比特币选择的稀疏自编码器特征，增强或抑制该特征会显著改变模型对比特币的偏好，即使提示中未出现“比特币”一词。该特征还能影响下游投资组合分配：增强特征使比特币配置比例提高5.2个百分点，抑制则降低4.6个百分点。研究将这种影响定义为“有界行为杠杆”，为未来“了解你的代理”（KYA）标准奠定了基础。

论文金融大模型资产偏好审计协议比特币行为杠杆

推荐理由：金融AI开发者终于有了检测模型资产偏好的系统方法——这项研究揭示了LLM在投资建议中可能隐藏的偏见，做量化交易或智能投顾的团队值得关注，可以直接用其审计框架测试自己的模型。

原文

12:00

arXiv cs.AI@Siyuan Bian, Congrong Xu, Jun Gao

深度估计中的“飞点”问题一直难以解决：在物体边界处，模型常会在前景与背景之间的空白区域预测出虚假的3D点。研究团队发现，根本原因在于传统模型为每个像素只分配一个深度假设，而边界像素实际对应两个表面，单一假设被迫取中间值，导致飞点。他们提出MDA（混合密度表示法），让模型为每个像素预测多个深度假设及其概率，边界处不同假设可对齐不同表面，解码时从中选择而非取中间值。该方法在不同骨干网络上均显著改善边界重建，几乎消除飞点伪影，且计算开销极小。此外，MDA还能自然扩展到透明物体（预测多个深度层）和天空区域（分离无限远天空与有限深度区域），生成无飞点的天际线。

论文深度估计飞点伪影混合密度表示边界重建透明物体

推荐理由：做深度估计或3D视觉的团队，边界飞点问题终于有了一个轻量且有效的解决方案——MDA几乎不增加计算成本就能大幅提升边界质量，值得在现有模型上试试。

原文

11:59

arXiv cs.AI@Elia Cunegatti, Marcus Vukojevic, Erik Nielsen, Giovanni Iacca

精选

现有 LLM 后训练压缩方法将整个层替换为轻量模块，但受限于全层粒度和连续选择。SubFit 提出子模块级替换，允许非连续地选择 Attention 和 FeedForward 子模块，并为每个子模块独立学习残差旁路。实验覆盖 10 个 LLM（5 个基础、5 个指令微调）和 5 个稀疏度（12.5%-37.5%），在 25% 稀疏度下，SubFit 保留 84.6% 下游精度（最强基线 81.6%），困惑度仅退化 2.42 倍（基线 4.34 倍）。该方法仅需校准数据，可带来推理加速和 KV 缓存节省。代码已开源。

论文模型压缩 LLM 部署子模块替换后训练压缩 SubFit

推荐理由：做 LLM 部署优化的团队终于有了更精细的压缩工具——SubFit 在 25% 稀疏度下精度损失比最强基线少一半，且非连续子模块选择更贴合真实冗余分布，建议做模型量化和剪枝的开发者直接试。

原文

11:59

arXiv cs.LG@Farhin Farhad Riya, Olivera Kotevska, Jinyuan Stella Sun

联邦学习中，不同客户端可设置不同隐私预算（ε），但服务器利用梯度结构可发起隐私推理攻击，推断客户端分布属性并跨轮次关联更新。现有Shuffle-Model与ε感知聚合不兼容。IntraShuffler提出隐私感知混洗机制，将客户端按隐私预算分组，在组内进行参数级混洗，破坏梯度结构同时保留ε感知聚合。实验显示，该方法将梯度可恢复性降低60%以上，推理准确率从0.78降至0.33，且模型效用基本不变。

论文联邦学习差分隐私隐私推理攻击混洗模型 IntraShuffler

推荐理由：联邦学习团队面临隐私与效用的两难——IntraShuffler在不牺牲模型性能的前提下大幅削弱梯度泄露风险，做隐私保护FL的开发者可以直接参考其混洗分组设计。

原文

11:59

arXiv cs.AI@Haimin Hu

该论文提出了一种基于共形预测的算法，用于验证交互式机器人中信念空间安全过滤器（BeliefSF）的高概率安全性。传统安全过滤器仅考虑物理空间，而BeliefSF在运行时结合推理主动降低机器人对人行为的不确定性，从而减少过滤的保守性。然而，由于运行时推理误差和神经网络近似的高维性，提供形式化安全保证极具挑战。作者通过聚焦于推理可靠区域进行验证，保留了共形预测的简单性和样本复杂度，同时显著降低了安全过滤器的保守性。在模拟人车交互基准测试中，该方法比标准共形预测基线验证了更宽松的安全过滤器。

论文安全过滤器共形预测人机交互信念空间机器人安全

推荐理由：做交互式机器人安全验证的团队终于有了兼顾宽松性和形式化保证的方法——BeliefSF结合共形预测，在减少保守性的同时保持样本效率，做自动驾驶或人机协作的开发者值得关注。

原文

11:59

arXiv cs.LG@Yu-Cheng Shi, Zhen-Hao Xie, Jun-Tao Tang, Da-Wei Zhou

多模态大语言模型（MLLMs）通过指令微调表现出色，但实际部署需要持续获取新的视觉语言能力，因此多模态持续指令微调（MCIT）至关重要。现有方法常采用稀疏架构（如混合LoRA专家）通过图像-文本相似度路由，但任务响应结构不同时可能共享高度相似的语义，导致路由错误和梯度干扰。ProtoAda提出格式感知的任务原型，将任务分配与路由对齐到语义和输出结构，并通过几何感知方式整合格式兼容的更新，有效重用和优化现有参数。实验表明，ProtoAda在多个基准上表现优异，尤其对答案结构易被顺序微调破坏的任务效果显著。

论文多模态大语言模型持续学习指令微调 LoRA专家任务路由

推荐理由：做多模态持续学习的团队终于有了解决任务路由混乱的方案——ProtoAda通过原型感知输出结构，避免VQA和接地任务互相污染，建议关注论文中的几何整合细节。

原文

11:59

arXiv cs.AI@Yuxing Lu, Yushuhong Lin, Wenqi Shi, J. Ben Tamo, Xukai Zhao, Jinzhuo Wang, May Dongmei Wang

精选

ClinEnv 是一个交互式基准测试，用于评估大语言模型在真实住院病例中的临床决策能力。它模拟了医生在不确定性下逐步收集信息并做出不可逆决策的过程，每个病例被自动构建为有序的决策阶段，模型必须主动查询四个专业智能体后才能做出诊断和治疗决策。评估结果显示，最强模型仅达到0.31的决策F1分数，且结果质量与过程质量严重脱钩——模型在恢复出院诊断上表现较好（0.51 F1），但在管理行动上很差（0.17 F1），且会持续发出冗余查询。ClinEnv 揭示了传统结果导向评估无法捕捉的信息获取差距。

论文临床决策 LLM评估住院模拟信息获取基准测试

推荐理由：医疗AI开发者终于有了一个能评估LLM临床推理过程的基准——ClinEnv不仅看结果，还看信息收集策略，做临床决策系统的团队值得关注。

原文

11:58

arXiv cs.AI@Haowen Hou, Zhen Huang, Zheming Liang, Qingyi Si, Chenglin Li, Shuai Dong, Kele Shao, Ruilin Li, Dianyi Wang, Nan Duan, Jiaqi Wang

精选

视频相邻帧通常高度冗余，但现有视频多模态大模型仍将每帧独立编码为RGB图像，导致大量重复视觉token。AdaCodec提出一种预测式视觉编码接口：仅当场景无法从先前上下文预测时才发送完整参考帧，否则仅传输帧间变化（包括运动和预测残差）作为紧凑的P-token。在11个基准测试中，AdaCodec在相同token预算下优于Qwen3-VL-8B逐帧RGB基线；在长视频基准上，仅用1/7预算（32k token）即超越224k基线，并在通用视频基准上提升平均分数，同时将首token延迟从9.26秒降至1.62秒。

论文视频理解多模态大模型预测式编码 token压缩 AdaCodec

推荐理由：做视频理解或多模态模型优化的团队，终于有了一个能大幅降低计算开销而不牺牲性能的方案——AdaCodec用预测式编码直击视频冗余痛点，建议做视频MLLM的开发者直接看论文复现。

原文

11:58

arXiv cs.AI@Seojeong Park, Jiho Choi, Junyong Kang, Seonho Lee, Jaeyo Shin, Hyunjung Shim

精选

研究发现多模态大语言模型作为自动评估者时存在“感知判断偏见”：当视觉证据与文本线索冲突时，模型倾向于奖励看似合理但感知错误的回答。研究者通过受控视觉扰动构建了 Perceptually Perturbed Judgment 数据集，并开发了结合 GRPO 奖励与批量排序目标的统一训练框架。该方法无需显式成对标签，即可实现全局一致性排序。实验表明，该方法显著提升了多模态评估者的感知保真度、排序一致性与人类评价对齐度。这项工作为训练感知可靠、可解释且鲁棒的多模态评估者提供了可扩展路径。

论文多模态大模型评测偏见感知扰动奖励建模 GRPO

推荐理由：做多模态模型评测的团队终于有了对抗感知偏见的方法——Perceptual Perturbation 框架能直接提升评估者的视觉可靠性，建议做 MLLM 评测基准的开发者点开看看实验细节。

原文

11:18

arXiv cs.LG@Vladimir Beskorovainyi

精选

本文研究如何将短、噪声、无标准编码的零售产品描述自动映射到消费分类（如UN COICOP），以支持消费者价格测量。作者提出一个管道：文本标准化、基于前缀树的规则预分类器、以及每个类别的二元确认模型。在人工标注环节，采用可靠性加权投票协议，并对比了Dawid-Skene方法。实验发现，在无泄漏控制下，词袋模型即可达到约0.99的F1分数，线性分类器与多层感知机表现相当，约67个标注样本就足够。研究还讨论了价格水平质量控制，为统计机构使用交易数据提供设计经验。

论文机器学习产品分类消费价格人工标注词袋模型

推荐理由：做价格统计或零售数据处理的团队，会发现这个简单但有效的管道能快速解决产品分类痛点，建议直接参考其规则+词袋的轻量方案。

原文

11:18

arXiv cs.LG@Kazuto Fukuchi, Ryuichiro Hataya, Kota Matsui

精选

该论文提出了复杂度最小化框架，用于理论解释预训练数据规模增大如何降低下游样本复杂度。通过端到端分析，证明该框架能捕捉元学习中的缩放行为，即少样本适应误差率随元训练数据量增加而改善。实验表明，将复杂度正则化融入现有元学习方法能持续提升下游样本效率。

论文元学习预训练复杂度最小化数据规模定律理论分析

推荐理由：这篇论文为预训练数据规模定律提供了首个理论证明，做元学习或预训练研究的学者值得关注，可以直接参考其复杂度正则化方法改进现有模型。

原文

11:17

arXiv cs.LG@Gjorgjina Cenikj, Jakub Kudela, Eva Tuba, Tome Eftimov

精选

该研究系统评估了算法选择（AS）模型在合成与真实优化场景间的泛化能力。研究使用了BBOB和CEC两个学术基准套件，以及机器人轨迹优化和无人机路径规划两个真实问题集。通过跨基准测试发现，AS模型在学术基准间表现良好，但迁移到真实领域时泛化能力显著下降。研究揭示了当前AS方法在领域特定应用中的鲁棒性挑战，为开发更可靠的实用AS系统提供了方向。

论文算法选择泛化能力优化算法机器人轨迹优化无人机路径规划

推荐理由：做优化算法选型或自动化机器学习的研究者值得关注——这项研究直接点出了学术基准与真实场景的鸿沟，看完能帮你避开模型部署的坑。

原文

11:17

arXiv cs.LG@Ting Xu, Xu He, Yupu Lu, Jiankai Sun, Dong Li, Wai Lam, Jianye Hao

精选72°

这篇论文研究了链式推理（CoT）过程中的熵变化，发现了一个一致的两阶段结构：先是不确定性探索阶段，然后突然过渡到置信收敛阶段。置信阶段具有高可靠性和高冗余性两个关键特性，模型在得出正确答案后仍会生成大量无用token。基于此，作者提出了两种更高效的推理策略：早退机制（Early Exit）和测试时缩放（Test-Time Scaling）。他们使用累积和（CUSUM）算法进行实时推理控制，无需额外训练。实验表明，CUSUM早退在准确率63.06%时实现了11.1%的token缩减，优于DEER和Dynasor。

论文推理模型 CoT/链式推理早退机制熵动力学 CUSUM

推荐理由：这篇论文揭示了CoT推理中隐藏的熵动力学规律，做推理加速和模型效率优化的研究者可以直接用CUSUM方法实现无训练早退，比现有方法更优。

原文

11:16

arXiv cs.LG@Eduardo Sebastián, Adrian Pfisterer, Vito Mengers, Oliver Brock, Amanda Prorok

这篇论文提出了一种新的机器人学习框架，通过将策略分解为“世界因子”和“任务因子”来实现结构泛化。世界因子描述机器人和环境的固有属性，独立于任务意图；任务因子则定义任务逻辑。作者利用贝叶斯模型证据形式化了这种不对称性，并实例化为AICON图与学习策略的组合，梯度作为两个因子的接口。实验表明，该方法在异构机器人、环境和任务中优于端到端基线，能零样本泛化到分布外配置，并直接迁移到真实硬件。

论文机器人学习泛化世界模型任务分解零样本迁移

推荐理由：机器人学习领域长期面临泛化难题，这篇论文从结构分解入手给出了新解法。做机器人策略研究或部署的团队值得关注，零样本迁移到真实硬件意味着可以直接减少重复训练成本。

原文

11:15

arXiv cs.LG@Reda Snaiki, Abdelatif Merabtine

该研究提出一种不确定性感知的图神经网络框架，用于从稀疏传感器重建城市每日最高温度场，并支持距离约束的传感器布局和概率超限映射。模型采用图注意力机制和均值-残差架构，通过高斯负对数似然训练，同时预测温度场和空间变化的不确定性场。在蒙特利尔地区的实验中，使用Daymet v4.1数据（1公里分辨率）和严格的时间留出验证，该GNN在10-40个传感器预算下均优于反距离加权和普通克里金法。传感器布局影响在低预算时显著，约30个传感器时达到饱和。该框架为不确定性感知的温度场重建和面向决策的热风险制图提供了有效工具。

论文图神经网络温度场重建稀疏传感器不确定性量化城市气候

推荐理由：城市气候监测和热风险分析团队终于有了一个兼顾传感器预算和布局约束的实用方案——GNN在稀疏数据下比传统插值法更准，做城市热岛效应或极端高温预警的可以直接参考。

原文

11:15

arXiv cs.LG@Bradley G. Karat, Maëliss Jallais, Ali R. Khan, Santiago Aja-Fernández, Jelle Veraart, Marco Palombo

扩散MRI能无创探测组织微观结构，但噪声效应影响参数估计精度。在基于模拟数据的监督机器学习框架中，模拟与采集信号的噪声特性差异导致协变量偏移，影响推理准确性。本文提出真实噪声合成（RNS）框架，通过引入Rician期望和有效后处理噪声方差来缓解这一问题。实验表明，忽略噪声效应会导致系统性的信噪比依赖偏差，而RNS能显著降低偏差并提升精度，尤其在低信噪比场景下效果明显。该方法对噪声估计准确性敏感，但回归架构影响较小。

论文扩散MRI 噪声合成微观结构估计监督学习协变量偏移

推荐理由：做医学影像分析或扩散MRI研究的团队，这篇论文解决了模拟数据与真实数据噪声不匹配导致的估计偏差问题，RNS框架可以直接用于提升微观结构参数估计的准确性，值得点开看看具体实现。

原文

11:15

arXiv cs.LG@Junhyoung Chung, Euijong Song, Won Hwa Kim, Gunwoong Park

研究人员提出 Convex Distance Operator Transport (CDOT)，这是首个凸最优传输框架，能在异构域之间对齐分布，同时保留特征对应和内在几何结构。CDOT 通过基于算子的正则化，引入距离和条件期望算子来对齐聚合距离结构，从而提升对局部几何变化的鲁棒性。理论证明 CDOT 差异是属性紧致度量-测度空间上的有效伪度量，并揭示了其与 Gromov-Wasserstein 的非凸性差异。实验在合成点云、脑连接组和图分类基准上表现优于现有方法，且行为稳定可靠。

论文最优传输凸优化几何结构分布对齐 CDOT

推荐理由：做分布对齐或几何数据处理的团队，CDOT 解决了传统 GW 非凸优化不稳定的痛点，可以直接用这个凸框架提升效果，建议点开看理论证明和实验对比。

原文

11:14

arXiv cs.LG@Sabyasachi Basu, Manuj Mukherjee, Lutz Oettershagen, Suhas Thejaswi

本文研究在随机块模型（SBM）中，当学习者只能通过有限次数的噪声查询访问网络数据时，如何实现精确的社区恢复。查询会以固定概率揭示节点的真实邻居，但不会返回非邻居，且总查询次数有限。作者分析了仅依赖查询的模型，以及结合单个子采样图的混合模型。在仅查询模型中，均匀非自适应查询的基准性能由Abbe-Bandeira-Hall精确恢复阈值决定，但自适应策略可以用更少的查询（n+o(n)）超越该基准。在混合模型中，自适应查询可以针对少量不确定节点，实现亚线性查询的精确恢复，而均匀查询则无法改进子采样图的结果。这表明自适应数据获取能严格改善精确恢复的信息论极限。

论文随机块模型社区恢复自适应查询图算法信息论

推荐理由：这篇论文揭示了自适应查询在社区恢复中的理论优势，做图算法或网络分析的学者值得关注，看完会对数据获取策略的设计有新的启发。

原文

11:14

arXiv cs.LG@Michał Brzozowski, Neo Christopher Chung

72°

该论文质疑了Archetypal SAEs声称的稳定性优势。研究发现，其稳定性主要源于所有训练运行使用相同的确定性k-means解码器初始化，而非算法本身的约束。作者区分了“稳定性”（独立训练模型间的一致性）和“稳定化”（不同初始化向共同解收敛）两个概念，后者才是可解释性研究真正需要的。当移除共享初始化后，Archetypal约束并未带来额外的稳定化优势。此外，论文还指出预处理依赖的余弦几何问题会干扰终点稳定性指标的解读。研究建议，评估SAE稳定性时应包含轨迹诊断和初始化消融实验。

论文稀疏自编码器可解释性稳定性初始化消融 Archetypal SAEs

推荐理由：这篇论文戳破了Archetypal SAEs稳定性神话，做可解释性研究的团队需要重新审视自己的评估方法——别被初始化技巧骗了，建议点开看轨迹诊断和消融实验怎么做。

原文

11:14

arXiv cs.LG@Ning Lin, Luxi Chen, Huaguan Chen, Jiacheng Cen, Chongxuan Li, Wenbing Huang, Hao Sun

该论文提出了一种通用的对称化框架，能将任意2D连续表示转换为具有平面群对称性的表示，同时保持连续性。作者给出了数学形式化描述，证明了其对对称函数的逼近能力，并详细说明了构建方法。通过图案设计、剪纸设计、风格化拓扑设计和材料设计四项任务验证了方法的有效性。实验表明该框架能实现有效的对称性控制，具有广泛的应用前景。

论文对称生成平面群连续表示图案设计材料设计

推荐理由：做图案生成、剪纸设计或材料拓扑优化的团队，终于有了一个能精确控制任意平面群对称性的数学框架，可以直接用于现有2D生成流程，值得一试。

原文

11:13

arXiv cs.LG@Jianhao Xu, Zhuang Yang

现有深度神经网络优化器多基于ℓ₂范数或ℓ∞范数，但两者各有缺陷：ℓ₂范数在高曲率方向占主导，导致低曲率方向更新缓慢；ℓ∞范数在平坦区域易振荡。本文提出动态p值的ℓ_p范数方案，融入SGD和带动量SGD，形成LPSGD和LPSGDM优化器。训练早期用大p（>2）抑制高曲率方向，后期p逐渐降至2实现稳定更新，灵感来自余弦退火策略。理论证明非凸场景下收敛率达O(T^{-1/2})，在CIFAR-10/100和ImageNet-1K上使用VGG-11、ResNet-18/50验证了更好泛化性能。

论文优化器 ℓ_p范数泛化性能 SGD 余弦退火

推荐理由：做深度学习训练调参的开发者，这个动态p范数方案解决了ℓ₂和ℓ∞范数的极端问题，直接替换SGD就能提升泛化，值得在CIFAR/ImageNet任务上试试。

原文

11:13

arXiv cs.AI@Sherzod Turaev, Mary John, Mamoun Awad, Nazar Zaki, Khaled Shuaib

本文提出一个四阶段NLP框架，用于解决课程与劳动力市场对齐中的隐性能力提取、缺乏共享分类法和可靠性度量问题。该框架结合了模式约束的LLM集成提取、Sentence-BERT与ESCO v1.2.1词汇的语义匹配、双模型裁决协议以及一致性验证机制。在阿联酋大学计算机科学专业的85门课程和30个岗位的实验中，提取器在技能槽上达到0.79的Cohen's kappa，100%模式合规和文档完整性。分析揭示了通用技能（25.0%）、算法理论（13.8%）和软件工程（12.2%）的供需缺口，而AI与数据科学缺口仅1.8%。该工作为高等教育质量保障提供了可量化的课程-市场对齐方法。

论文 NLP框架课程对齐劳动力市场 ESCO LLM提取

推荐理由：做课程设计或教育数据分析的团队终于有了一个可复用的NLP对齐工具——从LLM提取到语义匹配再到缺口量化，全流程开源可验证，建议直接参考框架改造自己的课程体系。

原文

11:12

arXiv cs.AI@Lichao Wang, Zhaoxing Ren, Tianzhuo Yang, Jiaming Ji, Chi Harold Liu, Yaodong Yang, Juntao Dai

SafeMCP 是一个服务器端防御插件，针对 LLM Agent 使用 MCP 协议时因动作空间扩大带来的安全风险。它通过内部世界模型进行前瞻推理，实现两层防御：主动工具过滤限制危险权限扩展，以及即时干预作为故障安全机制。训练采用三阶段流程：环境动态基础、安全策略初始化和带双重可验证奖励的强化学习。在 PowerSeeking Bench、ToolEmu 和 AgentHarm 上的实验表明，SafeMCP 能在降低风险的同时保持 Agent 的实用性。

论文 MCP/工具 LLM Agent 安全防御前瞻推理强化学习

推荐理由：做 LLM Agent 安全防护的团队终于有了一个可落地的方案——SafeMCP 在服务器端用前瞻推理主动过滤危险工具调用，比事后审计更有效，建议关注其开源实现。

原文

11:12

arXiv cs.AI@Stefano Samele, Eugenio Lomurno, Teodora Jovanovic, Sanjay Shivakumar Manohar, Alberto Crivellaro, Matteo Matteucci

工业异常检测领域近年引入多模态视觉语言模型，声称可通过文本指令实现零样本或少样本检测。但现有评估方法沿用单模态基准，无法验证模型是否真正依赖文本条件。本文提出TGAD结构化基准，通过三个递进场景测试：MVTec AD上的提示敏感性测试、组件级标注扩展、以及新构建的组装面板数据集APD。测试发现，三种代表性模型（生成式大视觉语言模型、无训练判别式、嵌入自适应判别式）均仅表面响应文本指令：移除物体名词后生成模型I-AUROC从97.4降至82.6；组件指令无法约束决策；在APD上图像级判别甚至低于随机水平（最低31.5）。结果表明当前多模态异常检测系统的文本引导能力被高估，需要此类基准才能实现工业部署所需的可靠语言控制。

论文异常检测多模态基准测试视觉语言模型工业检测

推荐理由：做工业视觉检测的团队会发现，当前号称支持文本引导的模型其实并不听指令——TGAD基准直接戳破了这个泡沫，建议点开看看你的模型是否真的被语言控制。

原文

11:12

arXiv cs.AI@Xinyu Che, Junqi Xiong, Yunfei Ge, Xinping Lei, Shihao Li, Hang Yan, Han Li, Yuanxing Zhang, Zhiqi Bai, Jinhua Hao, Ming Sun, Han Li, Jiaheng Liu

网络上有大量多模态、异构、嘈杂的程序性知识，但直接用于智能体执行长周期任务效果不佳。研究者提出 guide-to-skill 学习问题，并发布首个基准 MMG2Skill-Bench。他们设计的闭环框架 MMG2Skill 能将人类指南编译为可编辑技能，在执行时条件化固定视觉语言模型，并通过轨迹级根因反馈持续修正技能。在 GUI 控制、开放游戏和策略卡牌等六个 VLM 骨干上，该方法比基线提升 12.8 到 25.3 个百分点。消融实验表明，直接提示原始指南反而会降低性能，而结构化技能构建和轨迹驱动修正是关键。

论文智能体技能蒸馏多模态长周期任务闭环学习

推荐理由：做智能体长任务规划的团队终于有了把网络教程变成可执行技能的方案——MMG2Skill 直接解决了指南与技能之间的鸿沟，做 GUI 自动化或游戏 AI 的开发者可以试试这个闭环框架。

原文

11:11

arXiv cs.AI@Luca Butera, Giovanni De Felice, Andrea Cini, Cesare Alippi

这篇论文揭示了长上下文窗口对时间序列预测模型的好处不仅在于捕捉长距离依赖，更在于降低生成过程识别的不确定性。作者将预测任务分解为生成过程识别和条件预测两个目标，证明即使对于记忆长度为P的过程，输入窗口也必须大于P才能达到最小误差。通过解耦这两个目标，可以在不牺牲准确性的前提下提升计算可扩展性。实验在合成和真实数据上验证了这些见解对设计预测架构的指导意义。

论文时间序列预测长上下文窗口生成过程识别条件预测计算可扩展性

推荐理由：做时间序列预测的团队终于有了理论依据——长窗口不只是为了捕捉长依赖，更是为了降低过程识别的不确定性，建议做预测架构设计的开发者仔细看看。

原文

11:11

arXiv cs.AI@Jingyun Liang, Min Wei, Shikai Li, Yizeng Han, Hangjie Yuan, Lei Sun, Weihua Chen, Fan Wang

该研究提出一种无需渲染的框架，通过将3D人体网格压缩为token，直接输入DiT架构的视频扩散模型，实现精确的人体运动控制。相比依赖2D渲染引导的现有方法，该方法避免了视角依赖伪影和轨迹-姿态不匹配问题。实验表明，该框架在人体运动控制基准上表现优异，证明视频扩散模型通过网格token化能更好地理解3D结构。这项工作为3D感知视频生成提供了新思路。

论文视频生成 3D人体运动控制网格token化扩散模型 DiT架构

推荐理由：做视频生成或3D人体动画的团队终于有了不依赖渲染的精准控制方案——直接压缩3D网格token，避免2D引导的伪影问题，建议做运动控制或虚拟人应用的开发者点开看看。

原文

11:11

arXiv cs.AI@Oleksandr Nikitin

PlanarBench 是一个新基准，通过让大语言模型根据边列表绘制平面图的 ASCII 艺术来评估其空间推理能力。该任务通过随机排列边顺序、方向和节点标签来防止记忆。研究测试了 91 个模型在 199 个最简单的非异构连通平面图（2-7 个节点）上的表现。关键发现是边数比节点数更能预测任务难度（相关系数 r=-0.85），这一结论在之前的 LLM 图基准中未被报告。

论文空间推理基准测试大语言模型平面图评估

推荐理由：这个基准揭示了 LLM 在空间推理上的真实短板，做模型评估或研究空间智能的团队值得关注——边数作为难度指标的新发现可能改变未来基准设计。

原文

11:10

arXiv cs.AI@Ekaterina Alimaskina, Darya Rudas, Denis Shveykin, Gleb Molodtsov, Pavel Vasiliev, Aleksandr Beznosikov

精选72°

该研究揭示了大型推理模型在极端低比特（2-bit）量化推理时，并非单纯降低答案准确率，而是产生更长的推理轨迹，包括重复循环、预算耗尽、延迟决策和未闭合推理段，导致端到端速度不升反降。作者针对 Qwen3-8B 和 Qwen3-32B 模型，提出了两种轻量级控制方法：FP16 规划（为 2-bit 模型提供短的高精度大纲）和循环救援（检测重复轨迹并回退或提前提交答案）。在 MATH-500 上，循环救援将 Qwen3-8B 准确率从 17.2% 提升至 74.2%，规划加循环救援将 Qwen3-32B 从 65.0% 提升至 87.2%。研究表明，将低比特推理失败视为可控生成病理，通过轻量检测和选择性 FP16 支持，2-bit 推理可以恢复准确率并保持真实端到端加速。代码已开源。

论文推理模型量化/低比特 Qwen3 失败模式开源/仓库

推荐理由：做推理模型量化和部署的团队终于有了针对 2-bit 失败模式的系统解法——不是简单降精度，而是用 FP16 规划和循环救援来修复生成过程，Qwen3 用户可以直接复现并提升准确率。

原文

11:10

arXiv cs.AI@Matvei Shelukhan, Timur Mamedov, Aleksandr Chukhrov, Karina Kvanchiani

多视角目标关联是计算机视觉中的关键问题，常用于多摄像头感知任务。该任务本质上是约束的一对一匹配问题，但近期研究却依赖成对排名指标（如AP和FPR-95）来评估模型。论文指出这些指标与实际分配目标之间存在根本性错配：理论上，即使分配正确，AP和FPR-95也可能不完美；而最优的成对排名仍可能导致错误分配。通过Sinkhorn归一化作为后处理测试，作者发现优化少量参数能显著提升AP和FPR-95，但分配级指标（如ACC和IPAA）并未相应改善。这提醒研究者需谨慎选择评估指标，避免被表面性能提升误导。

论文多视角目标关联评估指标 Sinkhorn归一化计算机视觉论文

推荐理由：这篇论文点破了多视角目标关联领域的一个常见误区——用排名指标评估分配任务可能得出虚假结论。做多摄像头感知或目标关联的开发者，看完会重新审视自己的模型评估方式，建议点开了解如何用Sinkhorn归一化做压力测试。

原文

11:10

arXiv cs.AI@Rui Yang, Qianhui Wu, Yuxi Chen, Hao Bai, Wenlin Yao, Hao Cheng, Baolin Peng, Huan Zhang, Tong Zhang, Jianfeng Gao

精选76°

OpenWebRL 是一个开源框架，用于在真实网站上通过在线多轮强化学习训练视觉网页智能体。该框架覆盖完整训练流程，包括可扩展的实时浏览器基础设施、监督初始化、多模态上下文管理、轨迹级成功判断和高效的多轮策略优化。基于此框架训练的 OpenWebRL-4B 模型仅用 0.4K 初始化轨迹和 2.2K 开放 RL 训练任务，就在 Online-Mind2Web 和 DeepShop 基准上分别达到 67.0% 和 64.0% 的成功率，超越了同规模或更大规模的开源智能体，并接近 OpenAI CUA 和 Gemini CUA 等专有系统。这项工作解决了高质量演示数据收集昂贵和静态数据集覆盖有限的问题，为构建更强大、可复现且成本高效的开源网页智能体提供了实用路径。

论文视觉网页智能体多轮强化学习开源框架 OpenWebRL 在线训练

推荐理由：做网页自动化或视觉智能体的开发者终于有了一个开源的在线RL训练方案——OpenWebRL 用极少的训练数据就达到了接近专有系统的效果，值得直接拿来试试。

原文

11:09

arXiv cs.AI@Yogesh Kumar Meena, Saurabh Agarwal, K. V. Arya

研究人员提出RL-ACRGNet，一种结合预训练DenseNet编码器和多级LSTM解码器的改进编码器-解码器模型，用于自动生成胸部X光报告。该模型在离策略强化学习框架下，通过双网络结构和基于度量的奖励机制优化视觉-语义嵌入，在IU-Xray数据集上BLEU-4、METEOR和ROUGE-L指标分别提升0.47%、0.17%和0.518%，并在MIMIC-CXR数据集上验证了其泛化能力。这项研究旨在解决手动生成放射报告耗时且不一致的问题，推动医学影像AI的自动化诊断流程。

论文医学影像强化学习报告生成 DenseNet LSTM

推荐理由：医学影像团队终于有了更精准的自动报告生成方案——RL-ACRGNet通过强化学习优化视觉语义对齐，做医疗AI的开发者可以直接参考其双网络奖励机制来提升模型临床相关性。

原文

11:09

arXiv cs.AI@Adrián Cánovas-Rodriguez, Miguel A. González-Illán, Maria Fernanda García-Cruz, Pedro Nortes Tortosa, José Salvador Rubio-Asensio, Miguel A. Zamora Izquierdo, Juan Antonio Martínez Navarro, Antonio F. Skarmeta

研究者提出基于注意力机制和迁移学习的桃叶损伤分类方法，解决不同田间环境下的域迁移问题。他们构建了包含 1,366 张桃叶、6 类损伤的公开基准数据集，并评估多种深度学习架构。EfficientNetB5 结合 CBAM 注意力模块取得最佳准确率 93.3%，在少数类上表现更强。针对本地 180 张图像的域迁移测试，EfficientNetB3+CBAM 通过微调策略达到 93% 的宏 F1 分数，证明注意力机制能提升模型跨域泛化能力。

论文注意力机制迁移学习农业AI EfficientNet CBAM

推荐理由：农业 AI 落地常卡在域迁移上——不同果园的光照、品种会让模型失效。这篇用 CBAM 注意力+迁移学习把桃叶病害分类的跨域准确率拉到 93%，做作物病害检测的团队可以直接参考其微调策略。

原文

11:08

arXiv cs.AI@Hallah Shahid Butt, Qiong Huang, Gökhan Demirel, Kevin Förderer, Erfan Tajalli-Ardekani, Simnon Waczowicz, Luigi Spatafora, Veit Hagenmeyer, Benjamin Schäfer

该论文提出了一种可解释的深度强化学习（XRL）框架，用于优化住宅建筑的能源管理，特别是配备光伏和储能系统的建筑。研究对比了在线策略（如A2C和PPO）与离线策略算法，发现前者在累积奖励和策略稳定性上更优。框架利用事后解释技术揭示黑箱模型的决策过程，不仅降低了电费，还提供了透明、可操作的见解。实验基于合成数据和德国KIT的Living Lab真实数据，验证了方法的有效性。

论文深度强化学习可解释AI 建筑能源管理储能优化 PPO/A2C

推荐理由：建筑能源管理团队终于有了可解释的AI方案——XRL框架在降低电费的同时让你看清决策逻辑，做楼宇自动化或智慧能源的开发者可以直接参考。

原文

11:08