全部 AI 动态 · AI 热点

5月20日

10:24

arXiv cs.AI@Yuze Zhao, Junpeng Fang, Lu Yu, Zhenya Huang, Kai Zhang, Qing Cui, Qi Liu, Jun Zhou, Enhong Chen

精选72°

这篇论文通过控制预训练实验，重新审视了代码训练对语言模型推理能力的影响。研究发现，纯代码主要提升编程能力，而非通用推理能力，甚至与数学等知识密集型任务存在竞争关系。真正提升数学推理的是跨领域的结构化推理信号，如代码-文本和数学-文本混合数据。在固定数学预算下，增加结构化数学样本密度能显著提升复杂数学推理，同时保持编程性能。分析还显示，数据组成效应反映在专家激活模式中，为跨领域的竞争与协同提供了机制层面的证据。

论文推理模型预训练数学推理代码训练数据策略

推荐理由：这篇论文戳破了“代码训练提升通用推理”的迷思，做预训练数据策略的团队值得细看——它指明了如何通过结构化推理信号精准优化数学能力，而非盲目堆代码。

原文

10:22

arXiv cs.AI@Meisam Jamshidi Seikavandi, Alice Modica, Anna Obara, Shan Ahmed Shaffi, Fabricio Batista Narcizo, Tanya Ignatenko, Ted Vucurevich, Karim Haddad, Daniel Barratt, Daniel Overholt, Jesper Bunsow Boldt, Paolo Burelli, Andrew Burke Dittberner

精选

现有情感计算与社交信号处理数据集难以支持对同地小组中个体、人际和群体层面的情感耦合分析。研究者推出了GroupAffect-4，包含10组共40名参与者在四种协作任务（信息汇集、谈判、创意生成、公共物品博弈）中的多模态数据。每位参与者佩戴腕式生理传感器、眼动追踪眼镜和近讲麦克风，并收集连续情感自评、任务后问卷、任务结果和大五人格评分，所有数据通过共享时钟对齐。数据集覆盖91%以上的预期生理窗口和98%的眼动窗口，谈判任务的情感操纵检验验证了任务有效性。它定义了15个基准目标，涵盖个体内状态、个体间特质和群体动态三个分析层次，并提供了留一组交叉验证的可行性基线。数据集以BIDS风格结构、Croissant元数据、数据表、每会话质量报告和开源处理脚本发布。

论文多模态数据集情感计算协作交互生理信号眼动追踪

推荐理由：做情感计算、社交信号处理或小组协作研究的团队终于有了一个覆盖个体、人际和群体三层次的高质量多模态数据集，数据完整性和任务效度都经过验证，可以直接用于训练和评估模型。

原文

10:20

arXiv cs.AI@Hebin Hu, Renke Dai, Ah-Hwee Tan, Yilin Kang

精选

研究团队提出一个框架，用于合成高质量、长期医疗对话数据集MediLongChat，以评估医疗AI代理的记忆和推理能力。该框架通过知识引导分解为三个阶段：构建具有多样疾病和并发症轨迹的患者档案、生成每次就诊的多轮对话、整合为连贯的纵向历史数据集。他们设立了三个基准任务（对话内推理、跨对话推理、合成推理）来测试医疗代理的记忆能力。实验表明，即使最先进的LLM在MediLongChat上也表现不佳，凸显了该基准的挑战性和开发定制方法的必要性。

论文医疗AI 长期记忆对话系统数据集 LLM评估

推荐理由：医疗AI开发者终于有了一个能真正测试长期记忆能力的基准——MediLongChat让跨会话推理变得可评估，做医疗对话系统的团队建议直接拿来跑跑看。

原文

10:18

arXiv cs.AI@Ziye Chen, Hongbin Lin, Chenyu Zhang, Xiangda Yan, Yongjie Yang, Yao Shu

精选

零阶优化（ZO）无需存储反向传播激活即可微调大模型，而LoRA提供紧凑的可训练适配器。但两者结合存在秩悖论：增加LoRA秩会提升适配器容量，但标准两点ZO要么扰动依赖秩的坐标数，要么在原子更新下使有限差分信号不可观测。本文证明瓶颈是测量拓扑问题，而非需要外部子空间。LoRA已分解为匹配的秩1原子，每个原子是一个完整因子坐标块。AR1-ZO通过交替秩1原子查询和拓扑感知缩放，恢复秩不变的有效信号，无需辅助基、激活钩子、曲率估计或额外前向查询。实验表明，在标准两前向查询预算下，AR1-ZO使高秩LoRA在匹配预算的ZO方法中有效。

论文零阶优化 LoRA 大模型微调拓扑感知秩1查询

推荐理由：解决了零阶优化与高秩LoRA结合时的信号坍缩问题，做大模型微调且受限于显存的开发者可以直接用AR1-ZO方法提升效果。

原文

10:16

arXiv cs.AI@Pierre Boudart, Pierre Gaillard, Alessandro Rudi

精选

该论文研究了基于多项逻辑（MNL）模型的马尔可夫决策过程（MDPs）的强化学习问题。现有算法对MNL混合MDPs的遗憾界为Õ(dH²√T)，其中d是特征维度，H是回合长度，T是回合数。作者引入了一个问题依赖常数σ̄_T（≤1/2），衡量最优下游值函数沿学习轨迹的归一化平均方差，并提出了一个遗憾界为Õ(dH²σ̄_T√T)的算法。该算法在最坏情况下恢复现有界，在结构化MDPs（如KL约束鲁棒MDPs）中可将H依赖因子降低H倍。此外，论文证明了匹配的下界Ω(dH²σ̄_T√T)，首次完全刻画了MNL混合MDPs的遗憾复杂度（达到对数因子内的极小化最优）。

论文强化学习 MDP 多项逻辑模型遗憾界极小化最优

推荐理由：这篇论文首次给出了MNL混合MDPs的极小化最优遗憾界，对研究强化学习理论或设计高效算法的研究者来说，是理解问题复杂度的重要参考。

原文

10:14

arXiv cs.AI@Jinbiao Wei, Qianran Ma, Yilun Zhao, Xiao Zhou, Kangqi Ni, Guo Gan, Arman Cohan

精选

OpenComputer 是一个基于验证器的框架，用于构建可验证的软件世界，以评估和训练计算机使用智能体。它集成了四个组件：应用状态验证器、自进化验证层、任务生成管道和评估工具。目前覆盖 33 个桌面应用和 1000 个任务，包括浏览器、办公工具、创意软件等。实验表明，硬编码验证器比 LLM 作为裁判更准确，尤其在细粒度状态依赖的任务中。前沿模型在端到端完成上仍显吃力，开源模型表现下降，暴露了计算机自动化中的持续差距。

论文计算机使用智能体验证框架桌面自动化评估基准开源/仓库

推荐理由：OpenComputer 解决了计算机使用智能体评估缺乏可靠验证的问题，做智能体开发和自动化研究的团队可以直接用它来测试和训练模型，比 LLM 裁判更靠谱。

原文

10:13

arXiv cs.AI@Yuxuan Gao, Megan Wang, Yi Ling Yu

精选

该研究将分裂共形预测和自适应共形推断（ACI）应用于连续AI智能体评估，提供无分布假设的覆盖保证。在24小时预测窗口内，共形区间在所有名义水平上的校准误差低于0.02，ACI在智能体发布后正确将区间扩大35%后重新收敛。研究还开发了多智能体管道的组合不确定性界限、成对排名的共形弃权规则（控制假排名率）以及排行榜级多重检验的FDR校正弃权。通过每小时收集18个实时信号评估50个智能体，发现每个智能体的条件覆盖集中在名义水平附近（均值80.4%，90%的智能体在[72%,90%]内），跨来源情感分歧可预测排名不稳定性（r=0.64, p<0.01）。代码和数据已以CC BY 4.0协议发布。

论文 AI智能体评估不确定性量化共形预测排行榜统计方法

推荐理由：做AI智能体评估或排行榜的团队终于有了统计严谨的不确定性量化工具——无需分布假设即可保证覆盖，还能处理多智能体管道和排名稳定性问题，建议做评估基准的开发者直接看论文和代码。

原文

10:11

arXiv cs.AI@Thomas Massena, Corentin Friedrich, Mathieu Serrurier

精选

这篇论文提出了一种数据驱动的优化器设计方法，能够根据梯度与激活统计信息动态选择每层神经网络的最优更新几何结构，在SGD和Muon之间自适应插值。该方法基于单步随机特征回归代理模型推导出闭式准则，并整合参数级预处理，可恢复SGD、Muon、Adam和MuAdam作为特例。通过高效计算策略，仅增加约3%的运行开销，在三种训练场景中与Muon和AdamW的最佳性能持平或更优。这项工作为超越静态几何的优化器设计开辟了新路径。

论文优化器自适应几何 Muon SGD Adam

推荐理由：这篇论文解决了优化器几何结构固定、无法适应问题几何的问题，做深度学习训练和优化器研究的开发者可以直接参考其自适应方法，有望提升模型训练效率。

原文

10:09

arXiv cs.AI@Dmitry Redko, Albert Fazlyev, Konstantin Sozykin, Maria Ivanova, Evgeny Burnaev, Egor Shvetsov

精选

该研究通过三个受控实验，系统评估了 LLM Agent 在硬件感知代码优化中的表现。研究发现，LLM 在纯黑盒优化中表现为贪婪优化器；在零样本内核生成中，提供显式输入大小信息没有可测量的效果，模型会收敛到相同的内核参数；在反馈循环优化中，CUDA 在迭代反馈下单调改进，而 TVM IR 则主动退化。结论表明，LLM 在代码优化任务中高度依赖预训练先验知识，而非提供的反馈或智能体结构。

论文 LLM Agent 代码优化硬件感知先验知识反馈循环

推荐理由：做 AI 编译器或硬件优化的开发者会关心——LLM Agent 的搜索能力被高估了，实际表现受限于预训练数据分布，直接套用反馈循环可能适得其反，建议先看实验设计再决定是否采用。

原文

10:07

arXiv cs.AI@Meisam Jamshidi Seikavandi, Alice Modica, Anna Obara, Fabricio Batista Narcizo, Tanya Ignatenko, Ted Vucurevich, Jesper Bünsow Boldt, Paolo Burelli, Andrew Burke Dittberner

精选

AffectAI-Capture 是一项用于收集四人会议式互动中同步多模态数据的协议，整合了眼动追踪、可穿戴生理传感器、近讲与房间音频、多视角视频、事件日志及结构化自我报告。该协议基于固定任务模块，这些模块源自成熟的群体互动研究范式，数据采集与后处理围绕单一权威事件时间线和标准化输出进行组织。研究描述了实验原理、同步理念、数据组织及实际权衡，并通过受控台架测试验证了音频质量和视频同步性，但完整协议会话仍在进行中。其贡献在于提供了一个可复现的协议架构，将任务设计、仪器配置、时间溯源与数据打包相结合，服务于情感、行为及会议分析研究。

论文多模态数据会议分析情感计算可复现协议眼动追踪

推荐理由：做群体互动、情感计算或会议分析的研究者终于有了一个可复现的多模态数据采集标准，直接照着搭建实验环境能省去大量试错成本。

原文

10:05

arXiv cs.AI@Tonghao Zhuang, Shanglong Hu, Yongsheng Luo, Zhiqi Zhang, Yu Li

精选

该研究提出了一种半监督框架，用于胎儿心脏超声图像的联合分割与分类。方法基于EchoCare多任务骨干网络，集成SAM-Med2D进行边界细化，并利用DINOv3提升伪标签质量。引入视图特定硬掩码和两阶段优化策略：EMA阶段巩固分割能力，分类微调阶段冻结分割参数并重置分类头，以恢复分类性能而不损害分割效果。在FETUS 2026排行榜上，该方法达到79.99%的Dice系数、61.62%的归一化表面距离和41.20%的F1分数，验证了其在产前先天性心脏病筛查中的有效性。代码已开源。

论文半监督学习医学影像胎儿心脏超声 SAM-Med2D DINOv3

推荐理由：这项研究解决了胎儿心脏超声分析中标注数据稀缺的痛点，做医学影像AI的团队可以直接参考其半监督框架和开源代码，值得关注。

原文

09:43

09:43IT之家（博客/媒体）

精选

微信AI团队模式识别中心在ICASSP 2026上凭借论文《Less Redundancy: Boosting Practicality of Vision Language Model in Walking Assistants》获得最佳工业论文奖，这是该奖项自2016年设立以来首次颁给中国企业团队。论文提出WalkVLM-LR模型，专为视障人士行走辅助设计，核心创新在于减少输出冗余和时间冗余，解决“何时该提醒”的问题。目前延迟控制在百毫秒量级，实时性已较可用，但仍有优化空间。该成果标志着中国企业在信号处理领域的技术突破。

论文视觉语言模型信号处理微信AI ICASSP 视障辅助

推荐理由：微信AI团队解决了视障辅助场景中VLM“说太多”和“说太频繁”的痛点，做AI助残或边缘端VLM的开发者可以关注其减少冗余的思路，实时性已接近可用，值得点开了解技术细节。

原文

07:10

07:10IT之家（博客/媒体）

精选

新加坡南洋理工大学（NTU）团队研发超薄半透明钙钛矿太阳能电池，最薄吸收层仅10纳米，约为传统钙钛矿电池厚度的1/50。60纳米半透明器件实现7.6%光电转换效率，同时允许约41%可见光透过。该研究采用工业兼容的热蒸发法制造，相关成果发表于《ACS Energy Letters》。

论文 NTU 钙钛矿太阳能电池超薄半透明热蒸发法

推荐理由：NTU超薄电池让玻璃发电

原文

05:31

Ethan Mollick@emollick

一篇发表在PNAS上的论文发现，经典的人类说服技巧对AI模型同样有效，能以“类人”方式让AI同意不合理请求，合规率从35%提升至51%。研究测试了多个主流大语言模型，发现较新模型对此类技巧的抵抗力更强。该研究揭示了AI在交互中可能被操纵的风险，对AI安全和人机交互设计具有重要启示。

论文 AI安全人机交互说服技巧 PNAS 大语言模型

推荐理由：做AI安全和人机交互的团队值得关注——这项研究揭示了人类说服技巧对AI的意外影响，提醒我们在设计对话系统时需防范操纵风险。

原文

02:40

François Chollet@fchollet

François Chollet 指出，大多数人类任务并非马尔可夫过程，即最优下一步不能仅由当前状态决定，而严重依赖于过去的轨迹、原始意图和上下文约束。他认为，一个无法以绝对保真度压缩和追踪其过去轨迹的智能体，其有用性可能只有能做到这一点的智能体的 20%。这一观点强调了记忆和历史追踪在构建真正有用的人工智能系统中的核心重要性。

论文智能体马尔可夫过程历史追踪 François Chollet 强化学习

推荐理由：做智能体或强化学习的开发者会意识到，当前很多模型忽略了历史轨迹的精确追踪，Chollet 的观点直指智能体实用性的关键瓶颈，值得深入思考。

原文

5月19日

20:02

AlphaSignal@AlphaSignalAI

88°

NVIDIA 与牛津大学联合发表论文，提出 EGGROLL 方法，将进化策略（Evolution Strategies）扩展到十亿参数模型，无需反向传播即可训练。该方法用两个低秩矩阵替代密集随机扰动矩阵，大幅降低内存消耗，达到纯推理吞吐量的 91%。EGGROLL 支持数十万并行变异，可与不可微分组件配合，在推理任务上与 GRPO 竞争。团队还训练了纯 8 位整数循环语言模型 EGG，非线性来自整数溢出裁剪，而非激活函数，预训练时种群规模超过百万。

论文进化策略反向传播 NVIDIA 低秩矩阵整数训练

推荐理由：这项研究打破了深度学习十年来的反向传播依赖，做大规模模型训练或非可微分任务（如强化学习、神经架构搜索）的团队可以直接关注 EGGROLL，它可能改变你构建模型的方式。

原文

16:57

Hunyuan@TXhunyuan

腾讯混元团队开源了 Chronicles-OCR，这是一个专门评估视觉大语言模型（VLLM）对古代汉字视觉感知能力的基准。该数据集跨越 3000 年文字演变，涵盖从甲骨文到草书的 7 种历史字体，包含 2800 张均衡分布的图像。基准评估模型在字符定位、细粒度识别、古代文本解析和字体分类四个核心任务上的表现。该工作揭示了视觉分布偏移如何影响模型对古代文字的感知能力，为相关研究提供了重要参考。

论文视觉大语言模型 OCR 古代汉字基准测试开源

推荐理由：做 OCR 或古籍数字化的团队终于有了一个针对古代汉字的专业评估基准，可以直接用来测试自家 VLLM 的视觉感知能力，值得关注。

原文

16:00

berryxia@berryxia

腾讯团队开源了Chronicles-OCR，一个专门用于评估VLLM对古汉字感知能力的基准数据集。该数据集覆盖从甲骨文到草书的3000年演变，包含7种历史字体、2800张来自真实载体的平衡图像。测试任务包括字符定位、细粒度识别、古文字解析和字体分类。结果显示，随着视觉分布的时间漂移，大多数模型的感知能力显著下降。这一工作将AI视觉能力与文化传承紧密结合，为古代历史研究提供了新的工具。

论文古文字识别 OCR 视觉语言模型文化遗产腾讯

推荐理由：古文字识别是AI视觉的硬核边界，做OCR或文化遗产数字化的团队可以直接用这个基准测试自家模型，看看它们穿越回3000年前还能不能认出字。

原文

14:54

arXiv cs.LG@Rohit Patel, Alexandre Rezende, Steven McClain

精选72°

GIM（Grounded Integration Measure）是一个包含 820 道原创问题的新基准，旨在通过要求模型协调多种认知操作（如约束满足、状态跟踪、认知警觉、受众校准）来评估 LLM，而非单纯增加知识难度或抽象推理。该基准使用公共-私有问题拆分以检测数据污染，并基于超过 20 万次模型响应校准了 IRT 模型，提供更稳健的能力估计。研究对 22 个模型和 47 种测试配置进行了全面评估，发现思考预算和量化等家族内配置选择与模型选择同等重要。GIM 解决了现有基准在记忆与能力、推理与实践脱节上的问题，为 LLM 评估提供了新视角。

论文 LLM 评估基准测试认知整合 IRT 模型推理能力

推荐理由：GIM 用多认知域整合任务戳穿了现有基准的饱和困境，做 LLM 评估的团队可以直接用它来检测模型真实推理能力，比 GPQA 和 ARC-AGI 更贴近实际应用场景。

原文

14:53

arXiv cs.LG@Mohamed elShehaby, Ashraf Matrawy

精选

本文研究了在基于梯度的对抗攻击下，仅通过精心选择网络架构（如更浅的网络、更少的特征和ReLU激活函数）能否使基于深度神经网络的入侵检测系统（NIDS）具备内在鲁棒性。通过约2200次实验，对比FGSM、PGD和BIM攻击，发现浅层网络、简化特征集和ReLU激活函数能显著降低对抗脆弱性。这种简单模型甚至优于经过对抗训练的深层全特征模型，同时保持近乎完美的正常流量检测率和更短的训练时间。研究强调，关键在于选择“正确的少”而非盲目简化。

论文对抗攻击入侵检测系统网络架构鲁棒性 ReLU

推荐理由：做网络安全和ML-NIDS的团队，不用加额外防御就能提升模型抗攻击能力——调整架构本身就能见效，值得在现有系统上试试这个“少即是多”的思路。

原文

14:53

arXiv cs.LG@Thijs L van der Plas, Jacob JW Bakermans, Vishal Nedungadi, Gabrielė Tijūnaitytė, Marc Rußwurm, Ioannis N Athanasiadis

精选

Earth embedding模型将地球观测数据转化为与地理位置相关的嵌入向量，但现有评估通常孤立比较单个模型。本文提出嵌入互补性指数，衡量融合多个模型嵌入后的性能提升。在六个下游任务中，融合四个模型（AlphaEarth、Tessera、GeoCLIP、SatCLIP）在四个任务上优于最佳单一模型。互补性因任务和地点而异，且部分由土地覆盖类别的空间尺度决定。研究重新定义了Earth embedding的评估方式：未来最大收益可能来自模型组合而非单一模型。

论文 Earth embedding 模型融合地理空间AI 遥感评估方法

推荐理由：做地理空间AI或遥感应用的团队，别再只盯着单个模型刷榜——这篇告诉你融合多个Earth embedding模型能带来实际性能提升，建议直接参考其互补性评估方法。

原文

14:50

arXiv cs.LG@I. B. Spielman amd J. P. Zwolak

该论文探讨了机器学习在冷原子量子模拟器中的应用，特别是图像去噪和识别玻色-爱因斯坦凝聚体中的孤子波。作者指出，尽管ML方法在性能上表现出色，但模型复杂性与可解释性之间存在权衡。研究强调了在量子物理实验中，可解释的ML模型对于理解物理机制和验证结果至关重要。论文通过具体案例展示了如何平衡性能与可解释性，为未来在量子气体实验中使用ML提供了指导。

论文机器学习量子气体可解释性图像去噪孤子识别

推荐理由：量子物理实验正面临数据爆炸和计算瓶颈，ML是破局关键，但黑箱模型让物理学家不放心。这篇论文用图像去噪和孤子识别两个实例，展示了如何在性能与可解释性之间找到平衡，做量子模拟或冷原子实验的研究者值得一读。

原文

14:49

arXiv cs.LG@Zijian Liu

精选

现代机器学习优化中常出现重尾梯度噪声，传统方法需梯度裁剪或归一化来保证收敛。本文首次证明 AdaGrad（自适应梯度方法的起源）在非凸优化中，当尾指数 p 满足 4/3 < p ≤ 2 时无需任何算法修改即可收敛，且无需预先知道 p 值。研究还给出了算法相关的下界，表明 AdaGrad 无法达到重尾优化的最优 minimax 速率。对于 AdaGrad-Norm 变体，在额外温和假设下，收敛率可推广到任意 1 < p ≤ 2。

论文 AdaGrad 重尾噪声收敛性分析非凸优化自适应梯度方法

推荐理由：理论研究者终于有了 AdaGrad 在重尾噪声下的收敛保证，做优化算法分析的人值得关注——它解释了为何 Adam 等自适应方法在真实场景中表现稳健，且无需额外操作。

原文

14:48

arXiv cs.LG@Aashna P. Shah, Michelle M. Li, Yash Lal, Seffi Cohen, Liat F. Antwarg, Morgan Sanchez, James A. Diao, Chirag J. Patel, Ben Y. Reis, Ran D. Balicer, Noa Dagan, Arjun K. Manrai

精选

血液生物标志物是临床诊断的关键，但传统参考区间基于固定人群，忽略了个体间稳定变异，可能掩盖偏离基线的异常。研究者利用北美、中东和东亚超过160万人的近20亿条纵向实验室数据发现，纯个性化参考区间会将高达68%的测量值标记为异常，且与不良临床结局无关。为此，他们提出NORMA，一个基于条件Transformer的框架，通过结合患者历史数据和人群正常变异生成参考区间。NORMA在预测死亡率、急性肾损伤和慢性疾病等结局上精度更高，优于纯个性化或纯人群方法。模型、代码和交互界面已公开，旨在推动实验室检测的个性化解释。

论文血液生物标志物个性化参考区间条件Transformer 临床诊断开源/仓库

推荐理由：NORMA解决了实验室检测中过度个性化导致的假阳性问题，做临床诊断或健康监测的医生、研究者可以直接用这个开源模型来提升异常检测的准确性。

原文

14:46

arXiv cs.LG@Minrui Xu, Zilin Wang, Mengyi DENG, Zhiwei Li, Zhicheng Yang, Xiao Zhu, Yinhong Liu, Boyu Zhu, Baiyu Huang, Chao Chen, Heyuan Deng, Fei Mi, Lifeng Shang, Xingshan Zeng, Zhijiang Guo

精选72°

EnvFactory是一个全自动框架，解决了Agentic RL中可扩展执行环境缺失和真实训练数据稀缺两大瓶颈。它从真实资源中自主探索并验证有状态、可执行的工具环境，通过拓扑感知采样和校准精炼合成自然的多轮轨迹，生成带有隐式意图的查询。仅用85个已验证环境（远少于此前工作的5倍以上），EnvFactory就生成了2575条SFT和RL轨迹，并在BFCLv3、MCP-Atlas等基准上提升Qwen3系列模型最高15%。该框架完全自动化环境构建和轨迹合成，为Agentic RL提供了可扩展、可扩展且鲁棒的基础。

论文 Agentic RL 工具使用环境合成 Qwen3 自动化框架

推荐理由：做Agentic RL的团队终于有了自动化环境构建方案——EnvFactory只用85个环境就碾压了此前5倍数据量的方法，想省掉手动造环境成本的开发者可以直接用。

原文

14:45

arXiv cs.LG@Kenan Majewski, Marcin Żugaj

精选

针对无人机在动态环境中面临的遥测中断、结构振动等噪声非平稳问题，传统卡尔曼滤波假设失效。Sage-Husa卡尔曼滤波虽能在线估计噪声统计量，但其静态标量遗忘因子在稳态稳定性和瞬态响应间存在权衡。本文提出NDR-SHKF，用分层循环网络学习向量化的记忆衰减策略，替代标量参数。该网络处理白化新息序列，浅层状态捕捉瞬时异常，深层状态编码持续动态趋势，并通过辅助重构目标防止特征崩溃。在混沌吸引子和真实无人机飞行数据集上的评估表明，该方法在跨域泛化和传感器中断时优于纯数据驱动方法和经典自适应估计器。

论文卡尔曼滤波无人机状态估计自适应滤波循环神经网络

推荐理由：做无人机状态估计或机器人定位的团队，终于有了一个能自适应噪声变化、在传感器中断时依然可靠的滤波方案，值得在实机测试中尝试。

原文

14:44

arXiv cs.LG@Muhammad Umer, Muhammad Ahmed Mohsin, Ahsan Bilal, Arslan Chaudhry, Andreas Haupt, Sanmi Koyejo, Emily Fox, John M. Cioffi

精选

论文提出通用偏好强化学习（GPRL），旨在弥合在线强化学习与偏好优化之间的鸿沟。传统在线RL依赖可验证奖励，在数学和代码任务上表现优异，但无法处理开放式任务；偏好优化虽能处理开放式生成，却缺乏在线RL的持续探索能力。GPRL基于通用偏好模型（GPM），将响应嵌入k个斜对称子空间，以结构化、非传递性感知的比较表示偏好，并在策略更新中保留k维结构。它计算每维度的组相对优势，独立归一化防止单一维度主导，并通过上下文相关特征值聚合。GPRL还包含闭环漂移监控器，可检测并纠正单轴利用。基于Llama-3-8B-Instruct，GPRL在AlpacaEval 2.0上达到56.51%的长度控制胜率，并在Arena-Hard、MT-Bench和WildBench上优于SimPO和SPPO，有效抵抗奖励黑客攻击。

论文强化学习偏好优化对齐奖励黑客 GPRL

推荐理由：做LLM对齐和强化学习的团队终于有了一个能同时处理开放式任务和持续探索的框架——GPRL用多维偏好结构解决了奖励黑客问题，值得关注其实际效果。

原文

14:43

arXiv cs.LG@Miguel Farinha, Ronald Clark

精选

PIXLRelight 提出了一种前馈式单图像重光照方法，通过共享的内在条件（反照率、漫反射阴影和非漫反射残差）桥接物理渲染与学习图像合成。训练时从多光照照片分解出条件，推理时从用户指定 PBR 光源下的粗 3D 重建渲染中计算相同条件，再由基于 Transformer 的神经渲染器应用目标光照。该方法支持任意 PBR 风格的光照控制，重光照质量达到最先进水平，且每张图像处理时间不到 0.1 秒。代码和模型已开源。

论文重光照物理渲染内在条件 Transformer 开源/仓库

推荐理由：做图像编辑、3D 重建或影视后期的人终于有了一个又快又可控的重光照工具——PIXLRelight 在 0.1 秒内实现物理级光照控制，比传统方法省去大量优化时间，建议直接试玩开源代码。

原文

14:41

arXiv cs.LG@Lifu Wei, Yinuo Ren, Naichen Shi, Yiping Lu

精选

URGE（Unbiased Resampling via Girsanov Estimation）是一种无偏、无梯度的推理时缩放算法，用于扩散生成模型。它通过Girsanov测度变换对模拟轨迹进行路径重要性重加权，并定期重采样，无需计算分数、Hessian或PDE。该方法避免了现有技术中的偏差和高计算开销，在合成测试和扩散模型基准上优于现有推理时引导方法，且实现更简单。URGE建立了路径与粒子级序贯蒙特卡洛之间的等价性，确保两种方案产生相同的无偏终端分布。

论文扩散模型推理时引导无梯度方法序贯蒙特卡洛 Girsanov测度变换

推荐理由：URGE解决了扩散模型推理时引导的计算瓶颈，做生成模型优化或采样加速的研究者可以直接用这个梯度无关的轻量方案，值得关注。

原文

14:39

arXiv cs.LG@Ruitao Liu, Xinyang Tian, Shuo Chen, Tingrui Zhang, Guang Yang, Alan Zhao, Wei Xu

精选

论文提出 RRFP（Runtime-Readiness-First Pipeline），一种基于任务就绪状态的流水线并行运行时系统。传统流水线并行依赖静态或自适应生成的调度顺序，当实际任务就绪状态与预设顺序不一致时，会导致阶段错位和空闲气泡。RRFP 将调度视为非绑定的提示顺序，优先执行已就绪的任务，结合消息驱动的异步通信和轻量级张量并行协调。在 128 GPU 上测试，RRFP 在纯语言和多模态任务上分别实现最高 1.77 倍和 2.77 倍加速，并优于现有外部系统。

论文流水线并行分布式训练大模型运行时优化 RRFP

推荐理由：大模型训练中流水线并行的空闲气泡问题一直困扰着分布式训练团队，RRFP 用就绪优先的思路直接提升 GPU 利用率，做大规模训练的工程师值得关注这个新方案。

原文

14:38

arXiv cs.AI@S. Bensalem, Y. Dong, M. Franzle, X. Huang, J. Kroger, D. Nickovic, A. Nouri, R. Roy, C. Wu

精选

这篇立场论文指出，在单一抽象层内保障LLM智能体安全不仅次优，而且根本不足——这是智能体执行方式的结构性结果，而非当前系统的偶然局限。安全运行需要三个维度：语义意图与策略合规、环境有效性、动态可行性，每个维度依赖不同阶段才可获得的不同信息集。单一护栏无法同时验证三者。论文提出基于合约的架构，每个安全维度由独立认证层强制执行，其概率保证满足下一层的假设，并通过概率链规则推导出组合系统级安全边界。三个开放问题阻碍了该架构成为可部署标准：非独立同分布轨迹的边界估计、部署漂移下的优雅降级、以及多智能体场景的扩展——这是LLM智能体运行时保障中最未完成的重要工作。

论文 LLM智能体安全架构概率保证合约设计部署安全

推荐理由：这篇论文从结构层面揭示了当前LLM智能体安全方案的致命缺陷——单一护栏永远不够，做智能体部署的团队必须理解三层架构的必要性，建议所有关注AI安全的开发者仔细阅读。

原文

14:37

arXiv cs.AI@Michael Aichmüller, Simon Ståhlberg, Martin Funkquist, Hector Geffner

精选

该研究针对经典规划中的通用策略学习问题，改进了迭代宽度（IW）策略。现有IW方法在评估每个转移时计算成本高且表达能力有限，尤其在对象数量大时效率低下。作者提出两种改进：一是对整个搜索树进行高效整体编码，仅通过状态间的关系差异表示IW(1)可达状态，使关系图神经网络（R-GNN）能单次前向传播评分所有转移；二是定义抽象IW(1)，通过类型抽象原子进行新颖性检查，将缩放从原子数转向对象数。在IPC 2023基准测试和多个领域上，新方法达到了最先进性能，显著超越包括经典规划器LAMA在内的先前工作。

论文经典规划图神经网络迭代宽度抽象化通用策略学习

推荐理由：经典规划研究者终于有了可扩展的通用策略学习方法——新方法解决了IW策略在大规模问题上的计算瓶颈，做AI规划或强化学习的团队可以直接参考其编码思路。

原文

14:36

arXiv cs.AI@Qisai Liu, Zhanhong Jiang, Joshua Russell Waite, Aditya Balu, Cody Fleming, Soumik Sarkar

精选

COOPO 是一种新型强化学习框架，通过循环交替进行约束离线训练和在线微调，解决了离线强化学习中的分布偏移和在线学习中的高交互成本问题。该算法在每个循环中先用 KL 正则化的优势加权更新锚定策略，再用任意策略优化进行在线微调，定期回归离线训练可消除遗忘和漂移。理论证明 COOPO 在标准覆盖假设下能实现单调改进，在线样本效率优于纯在线 RL。在 D4RL 基准测试中，COOPO 相比最先进的混合方法减少了在线交互次数，同时提升了最终回报，且对不同离线算法和在线优化器具有鲁棒性。

论文强化学习离线-在线混合策略优化 D4RL COOPO

推荐理由：做强化学习研究的团队终于有了一个能同时解决分布偏移和灾难性遗忘的通用框架——COOPO 的循环设计让离线数据复用和在线探索形成正向循环，D4RL 上效果显著，建议做 RL 算法开发的同学点开看理论证明和实验细节。

原文

14:35

arXiv cs.AI@Fengyi Fu, Mengqi Huang, Shaojin Wu, Yunsheng Jiang, Yufei Huo, Hao Li, Yinghang Song, Fei Ding, Jianzhu Guo, Qian He, Zheren Fu, Zhendong Mao, Yongdong Zhang

精选72°

Lance 是一个轻量级原生统一模型，支持图像和视频的多模态理解、生成与编辑。它不依赖模型规模扩展或文本-图像主导设计，而是通过协作式多任务训练探索统一多模态建模的实用范式。核心包括统一上下文建模和解耦能力路径，采用双流混合专家架构在共享交错多模态序列上联合学习，同时分离理解与生成路径。实验表明，Lance 在图像和视频生成上显著优于现有开源统一模型，同时保持强多模态理解能力。

论文多模态模型统一模型生成与理解混合专家架构 Lance

推荐理由：Lance 用轻量级架构实现了多模态理解与生成的统一，做多模态研究的开发者可以直接参考其双流 MoE 设计，值得关注。

原文

14:34