全部 AI 动态 · AI 热点

5月20日

10:16

arXiv cs.AI@Pierre Boudart, Pierre Gaillard, Alessandro Rudi

精选

该论文研究了基于多项逻辑（MNL）模型的马尔可夫决策过程（MDPs）的强化学习问题。现有算法对MNL混合MDPs的遗憾界为Õ(dH²√T)，其中d是特征维度，H是回合长度，T是回合数。作者引入了一个问题依赖常数σ̄_T（≤1/2），衡量最优下游值函数沿学习轨迹的归一化平均方差，并提出了一个遗憾界为Õ(dH²σ̄_T√T)的算法。该算法在最坏情况下恢复现有界，在结构化MDPs（如KL约束鲁棒MDPs）中可将H依赖因子降低H倍。此外，论文证明了匹配的下界Ω(dH²σ̄_T√T)，首次完全刻画了MNL混合MDPs的遗憾复杂度（达到对数因子内的极小化最优）。

论文强化学习 MDP 多项逻辑模型遗憾界极小化最优

推荐理由：这篇论文首次给出了MNL混合MDPs的极小化最优遗憾界，对研究强化学习理论或设计高效算法的研究者来说，是理解问题复杂度的重要参考。

原文

10:14

arXiv cs.AI@Jinbiao Wei, Qianran Ma, Yilun Zhao, Xiao Zhou, Kangqi Ni, Guo Gan, Arman Cohan

精选

OpenComputer 是一个基于验证器的框架，用于构建可验证的软件世界，以评估和训练计算机使用智能体。它集成了四个组件：应用状态验证器、自进化验证层、任务生成管道和评估工具。目前覆盖 33 个桌面应用和 1000 个任务，包括浏览器、办公工具、创意软件等。实验表明，硬编码验证器比 LLM 作为裁判更准确，尤其在细粒度状态依赖的任务中。前沿模型在端到端完成上仍显吃力，开源模型表现下降，暴露了计算机自动化中的持续差距。

论文计算机使用智能体验证框架桌面自动化评估基准开源/仓库

推荐理由：OpenComputer 解决了计算机使用智能体评估缺乏可靠验证的问题，做智能体开发和自动化研究的团队可以直接用它来测试和训练模型，比 LLM 裁判更靠谱。

原文

10:13

arXiv cs.AI@Yuxuan Gao, Megan Wang, Yi Ling Yu

精选

该研究将分裂共形预测和自适应共形推断（ACI）应用于连续AI智能体评估，提供无分布假设的覆盖保证。在24小时预测窗口内，共形区间在所有名义水平上的校准误差低于0.02，ACI在智能体发布后正确将区间扩大35%后重新收敛。研究还开发了多智能体管道的组合不确定性界限、成对排名的共形弃权规则（控制假排名率）以及排行榜级多重检验的FDR校正弃权。通过每小时收集18个实时信号评估50个智能体，发现每个智能体的条件覆盖集中在名义水平附近（均值80.4%，90%的智能体在[72%,90%]内），跨来源情感分歧可预测排名不稳定性（r=0.64, p<0.01）。代码和数据已以CC BY 4.0协议发布。

论文 AI智能体评估不确定性量化共形预测排行榜统计方法

推荐理由：做AI智能体评估或排行榜的团队终于有了统计严谨的不确定性量化工具——无需分布假设即可保证覆盖，还能处理多智能体管道和排名稳定性问题，建议做评估基准的开发者直接看论文和代码。

原文

10:11

arXiv cs.AI@Thomas Massena, Corentin Friedrich, Mathieu Serrurier

精选

这篇论文提出了一种数据驱动的优化器设计方法，能够根据梯度与激活统计信息动态选择每层神经网络的最优更新几何结构，在SGD和Muon之间自适应插值。该方法基于单步随机特征回归代理模型推导出闭式准则，并整合参数级预处理，可恢复SGD、Muon、Adam和MuAdam作为特例。通过高效计算策略，仅增加约3%的运行开销，在三种训练场景中与Muon和AdamW的最佳性能持平或更优。这项工作为超越静态几何的优化器设计开辟了新路径。

论文优化器自适应几何 Muon SGD Adam

推荐理由：这篇论文解决了优化器几何结构固定、无法适应问题几何的问题，做深度学习训练和优化器研究的开发者可以直接参考其自适应方法，有望提升模型训练效率。

原文

10:09

arXiv cs.AI@Dmitry Redko, Albert Fazlyev, Konstantin Sozykin, Maria Ivanova, Evgeny Burnaev, Egor Shvetsov

精选

该研究通过三个受控实验，系统评估了 LLM Agent 在硬件感知代码优化中的表现。研究发现，LLM 在纯黑盒优化中表现为贪婪优化器；在零样本内核生成中，提供显式输入大小信息没有可测量的效果，模型会收敛到相同的内核参数；在反馈循环优化中，CUDA 在迭代反馈下单调改进，而 TVM IR 则主动退化。结论表明，LLM 在代码优化任务中高度依赖预训练先验知识，而非提供的反馈或智能体结构。

论文 LLM Agent 代码优化硬件感知先验知识反馈循环

推荐理由：做 AI 编译器或硬件优化的开发者会关心——LLM Agent 的搜索能力被高估了，实际表现受限于预训练数据分布，直接套用反馈循环可能适得其反，建议先看实验设计再决定是否采用。

原文

10:07

arXiv cs.AI@Meisam Jamshidi Seikavandi, Alice Modica, Anna Obara, Fabricio Batista Narcizo, Tanya Ignatenko, Ted Vucurevich, Jesper Bünsow Boldt, Paolo Burelli, Andrew Burke Dittberner

精选

AffectAI-Capture 是一项用于收集四人会议式互动中同步多模态数据的协议，整合了眼动追踪、可穿戴生理传感器、近讲与房间音频、多视角视频、事件日志及结构化自我报告。该协议基于固定任务模块，这些模块源自成熟的群体互动研究范式，数据采集与后处理围绕单一权威事件时间线和标准化输出进行组织。研究描述了实验原理、同步理念、数据组织及实际权衡，并通过受控台架测试验证了音频质量和视频同步性，但完整协议会话仍在进行中。其贡献在于提供了一个可复现的协议架构，将任务设计、仪器配置、时间溯源与数据打包相结合，服务于情感、行为及会议分析研究。

论文多模态数据会议分析情感计算可复现协议眼动追踪

推荐理由：做群体互动、情感计算或会议分析的研究者终于有了一个可复现的多模态数据采集标准，直接照着搭建实验环境能省去大量试错成本。

原文

10:05

arXiv cs.AI@Tonghao Zhuang, Shanglong Hu, Yongsheng Luo, Zhiqi Zhang, Yu Li

精选

该研究提出了一种半监督框架，用于胎儿心脏超声图像的联合分割与分类。方法基于EchoCare多任务骨干网络，集成SAM-Med2D进行边界细化，并利用DINOv3提升伪标签质量。引入视图特定硬掩码和两阶段优化策略：EMA阶段巩固分割能力，分类微调阶段冻结分割参数并重置分类头，以恢复分类性能而不损害分割效果。在FETUS 2026排行榜上，该方法达到79.99%的Dice系数、61.62%的归一化表面距离和41.20%的F1分数，验证了其在产前先天性心脏病筛查中的有效性。代码已开源。

论文半监督学习医学影像胎儿心脏超声 SAM-Med2D DINOv3

推荐理由：这项研究解决了胎儿心脏超声分析中标注数据稀缺的痛点，做医学影像AI的团队可以直接参考其半监督框架和开源代码，值得关注。

原文

5月19日

14:54

arXiv cs.LG@Rohit Patel, Alexandre Rezende, Steven McClain

精选72°

GIM（Grounded Integration Measure）是一个包含 820 道原创问题的新基准，旨在通过要求模型协调多种认知操作（如约束满足、状态跟踪、认知警觉、受众校准）来评估 LLM，而非单纯增加知识难度或抽象推理。该基准使用公共-私有问题拆分以检测数据污染，并基于超过 20 万次模型响应校准了 IRT 模型，提供更稳健的能力估计。研究对 22 个模型和 47 种测试配置进行了全面评估，发现思考预算和量化等家族内配置选择与模型选择同等重要。GIM 解决了现有基准在记忆与能力、推理与实践脱节上的问题，为 LLM 评估提供了新视角。

论文 LLM 评估基准测试认知整合 IRT 模型推理能力

推荐理由：GIM 用多认知域整合任务戳穿了现有基准的饱和困境，做 LLM 评估的团队可以直接用它来检测模型真实推理能力，比 GPQA 和 ARC-AGI 更贴近实际应用场景。

原文

14:53

arXiv cs.LG@Mohamed elShehaby, Ashraf Matrawy

精选

本文研究了在基于梯度的对抗攻击下，仅通过精心选择网络架构（如更浅的网络、更少的特征和ReLU激活函数）能否使基于深度神经网络的入侵检测系统（NIDS）具备内在鲁棒性。通过约2200次实验，对比FGSM、PGD和BIM攻击，发现浅层网络、简化特征集和ReLU激活函数能显著降低对抗脆弱性。这种简单模型甚至优于经过对抗训练的深层全特征模型，同时保持近乎完美的正常流量检测率和更短的训练时间。研究强调，关键在于选择“正确的少”而非盲目简化。

论文对抗攻击入侵检测系统网络架构鲁棒性 ReLU

推荐理由：做网络安全和ML-NIDS的团队，不用加额外防御就能提升模型抗攻击能力——调整架构本身就能见效，值得在现有系统上试试这个“少即是多”的思路。

原文

14:53

arXiv cs.LG@Thijs L van der Plas, Jacob JW Bakermans, Vishal Nedungadi, Gabrielė Tijūnaitytė, Marc Rußwurm, Ioannis N Athanasiadis

精选

Earth embedding模型将地球观测数据转化为与地理位置相关的嵌入向量，但现有评估通常孤立比较单个模型。本文提出嵌入互补性指数，衡量融合多个模型嵌入后的性能提升。在六个下游任务中，融合四个模型（AlphaEarth、Tessera、GeoCLIP、SatCLIP）在四个任务上优于最佳单一模型。互补性因任务和地点而异，且部分由土地覆盖类别的空间尺度决定。研究重新定义了Earth embedding的评估方式：未来最大收益可能来自模型组合而非单一模型。

论文 Earth embedding 模型融合地理空间AI 遥感评估方法

推荐理由：做地理空间AI或遥感应用的团队，别再只盯着单个模型刷榜——这篇告诉你融合多个Earth embedding模型能带来实际性能提升，建议直接参考其互补性评估方法。

原文

14:50

arXiv cs.LG@I. B. Spielman amd J. P. Zwolak

该论文探讨了机器学习在冷原子量子模拟器中的应用，特别是图像去噪和识别玻色-爱因斯坦凝聚体中的孤子波。作者指出，尽管ML方法在性能上表现出色，但模型复杂性与可解释性之间存在权衡。研究强调了在量子物理实验中，可解释的ML模型对于理解物理机制和验证结果至关重要。论文通过具体案例展示了如何平衡性能与可解释性，为未来在量子气体实验中使用ML提供了指导。

论文机器学习量子气体可解释性图像去噪孤子识别

推荐理由：量子物理实验正面临数据爆炸和计算瓶颈，ML是破局关键，但黑箱模型让物理学家不放心。这篇论文用图像去噪和孤子识别两个实例，展示了如何在性能与可解释性之间找到平衡，做量子模拟或冷原子实验的研究者值得一读。

原文

14:49

arXiv cs.LG@Zijian Liu

精选

现代机器学习优化中常出现重尾梯度噪声，传统方法需梯度裁剪或归一化来保证收敛。本文首次证明 AdaGrad（自适应梯度方法的起源）在非凸优化中，当尾指数 p 满足 4/3 < p ≤ 2 时无需任何算法修改即可收敛，且无需预先知道 p 值。研究还给出了算法相关的下界，表明 AdaGrad 无法达到重尾优化的最优 minimax 速率。对于 AdaGrad-Norm 变体，在额外温和假设下，收敛率可推广到任意 1 < p ≤ 2。

论文 AdaGrad 重尾噪声收敛性分析非凸优化自适应梯度方法

推荐理由：理论研究者终于有了 AdaGrad 在重尾噪声下的收敛保证，做优化算法分析的人值得关注——它解释了为何 Adam 等自适应方法在真实场景中表现稳健，且无需额外操作。

原文

14:48

arXiv cs.LG@Aashna P. Shah, Michelle M. Li, Yash Lal, Seffi Cohen, Liat F. Antwarg, Morgan Sanchez, James A. Diao, Chirag J. Patel, Ben Y. Reis, Ran D. Balicer, Noa Dagan, Arjun K. Manrai

精选

血液生物标志物是临床诊断的关键，但传统参考区间基于固定人群，忽略了个体间稳定变异，可能掩盖偏离基线的异常。研究者利用北美、中东和东亚超过160万人的近20亿条纵向实验室数据发现，纯个性化参考区间会将高达68%的测量值标记为异常，且与不良临床结局无关。为此，他们提出NORMA，一个基于条件Transformer的框架，通过结合患者历史数据和人群正常变异生成参考区间。NORMA在预测死亡率、急性肾损伤和慢性疾病等结局上精度更高，优于纯个性化或纯人群方法。模型、代码和交互界面已公开，旨在推动实验室检测的个性化解释。

论文血液生物标志物个性化参考区间条件Transformer 临床诊断开源/仓库

推荐理由：NORMA解决了实验室检测中过度个性化导致的假阳性问题，做临床诊断或健康监测的医生、研究者可以直接用这个开源模型来提升异常检测的准确性。

原文

14:46

arXiv cs.LG@Minrui Xu, Zilin Wang, Mengyi DENG, Zhiwei Li, Zhicheng Yang, Xiao Zhu, Yinhong Liu, Boyu Zhu, Baiyu Huang, Chao Chen, Heyuan Deng, Fei Mi, Lifeng Shang, Xingshan Zeng, Zhijiang Guo

精选72°

EnvFactory是一个全自动框架，解决了Agentic RL中可扩展执行环境缺失和真实训练数据稀缺两大瓶颈。它从真实资源中自主探索并验证有状态、可执行的工具环境，通过拓扑感知采样和校准精炼合成自然的多轮轨迹，生成带有隐式意图的查询。仅用85个已验证环境（远少于此前工作的5倍以上），EnvFactory就生成了2575条SFT和RL轨迹，并在BFCLv3、MCP-Atlas等基准上提升Qwen3系列模型最高15%。该框架完全自动化环境构建和轨迹合成，为Agentic RL提供了可扩展、可扩展且鲁棒的基础。

论文 Agentic RL 工具使用环境合成 Qwen3 自动化框架

推荐理由：做Agentic RL的团队终于有了自动化环境构建方案——EnvFactory只用85个环境就碾压了此前5倍数据量的方法，想省掉手动造环境成本的开发者可以直接用。

原文

14:45

arXiv cs.LG@Kenan Majewski, Marcin Żugaj

精选

针对无人机在动态环境中面临的遥测中断、结构振动等噪声非平稳问题，传统卡尔曼滤波假设失效。Sage-Husa卡尔曼滤波虽能在线估计噪声统计量，但其静态标量遗忘因子在稳态稳定性和瞬态响应间存在权衡。本文提出NDR-SHKF，用分层循环网络学习向量化的记忆衰减策略，替代标量参数。该网络处理白化新息序列，浅层状态捕捉瞬时异常，深层状态编码持续动态趋势，并通过辅助重构目标防止特征崩溃。在混沌吸引子和真实无人机飞行数据集上的评估表明，该方法在跨域泛化和传感器中断时优于纯数据驱动方法和经典自适应估计器。

论文卡尔曼滤波无人机状态估计自适应滤波循环神经网络

推荐理由：做无人机状态估计或机器人定位的团队，终于有了一个能自适应噪声变化、在传感器中断时依然可靠的滤波方案，值得在实机测试中尝试。

原文

14:44

arXiv cs.LG@Muhammad Umer, Muhammad Ahmed Mohsin, Ahsan Bilal, Arslan Chaudhry, Andreas Haupt, Sanmi Koyejo, Emily Fox, John M. Cioffi

精选

论文提出通用偏好强化学习（GPRL），旨在弥合在线强化学习与偏好优化之间的鸿沟。传统在线RL依赖可验证奖励，在数学和代码任务上表现优异，但无法处理开放式任务；偏好优化虽能处理开放式生成，却缺乏在线RL的持续探索能力。GPRL基于通用偏好模型（GPM），将响应嵌入k个斜对称子空间，以结构化、非传递性感知的比较表示偏好，并在策略更新中保留k维结构。它计算每维度的组相对优势，独立归一化防止单一维度主导，并通过上下文相关特征值聚合。GPRL还包含闭环漂移监控器，可检测并纠正单轴利用。基于Llama-3-8B-Instruct，GPRL在AlpacaEval 2.0上达到56.51%的长度控制胜率，并在Arena-Hard、MT-Bench和WildBench上优于SimPO和SPPO，有效抵抗奖励黑客攻击。

论文强化学习偏好优化对齐奖励黑客 GPRL

推荐理由：做LLM对齐和强化学习的团队终于有了一个能同时处理开放式任务和持续探索的框架——GPRL用多维偏好结构解决了奖励黑客问题，值得关注其实际效果。

原文

14:43

arXiv cs.LG@Miguel Farinha, Ronald Clark

精选

PIXLRelight 提出了一种前馈式单图像重光照方法，通过共享的内在条件（反照率、漫反射阴影和非漫反射残差）桥接物理渲染与学习图像合成。训练时从多光照照片分解出条件，推理时从用户指定 PBR 光源下的粗 3D 重建渲染中计算相同条件，再由基于 Transformer 的神经渲染器应用目标光照。该方法支持任意 PBR 风格的光照控制，重光照质量达到最先进水平，且每张图像处理时间不到 0.1 秒。代码和模型已开源。

论文重光照物理渲染内在条件 Transformer 开源/仓库

推荐理由：做图像编辑、3D 重建或影视后期的人终于有了一个又快又可控的重光照工具——PIXLRelight 在 0.1 秒内实现物理级光照控制，比传统方法省去大量优化时间，建议直接试玩开源代码。

原文

14:41

arXiv cs.LG@Lifu Wei, Yinuo Ren, Naichen Shi, Yiping Lu

精选

URGE（Unbiased Resampling via Girsanov Estimation）是一种无偏、无梯度的推理时缩放算法，用于扩散生成模型。它通过Girsanov测度变换对模拟轨迹进行路径重要性重加权，并定期重采样，无需计算分数、Hessian或PDE。该方法避免了现有技术中的偏差和高计算开销，在合成测试和扩散模型基准上优于现有推理时引导方法，且实现更简单。URGE建立了路径与粒子级序贯蒙特卡洛之间的等价性，确保两种方案产生相同的无偏终端分布。

论文扩散模型推理时引导无梯度方法序贯蒙特卡洛 Girsanov测度变换

推荐理由：URGE解决了扩散模型推理时引导的计算瓶颈，做生成模型优化或采样加速的研究者可以直接用这个梯度无关的轻量方案，值得关注。

原文

14:39

arXiv cs.LG@Ruitao Liu, Xinyang Tian, Shuo Chen, Tingrui Zhang, Guang Yang, Alan Zhao, Wei Xu

精选

论文提出 RRFP（Runtime-Readiness-First Pipeline），一种基于任务就绪状态的流水线并行运行时系统。传统流水线并行依赖静态或自适应生成的调度顺序，当实际任务就绪状态与预设顺序不一致时，会导致阶段错位和空闲气泡。RRFP 将调度视为非绑定的提示顺序，优先执行已就绪的任务，结合消息驱动的异步通信和轻量级张量并行协调。在 128 GPU 上测试，RRFP 在纯语言和多模态任务上分别实现最高 1.77 倍和 2.77 倍加速，并优于现有外部系统。

论文流水线并行分布式训练大模型运行时优化 RRFP

推荐理由：大模型训练中流水线并行的空闲气泡问题一直困扰着分布式训练团队，RRFP 用就绪优先的思路直接提升 GPU 利用率，做大规模训练的工程师值得关注这个新方案。

原文

14:38

arXiv cs.AI@S. Bensalem, Y. Dong, M. Franzle, X. Huang, J. Kroger, D. Nickovic, A. Nouri, R. Roy, C. Wu

精选

这篇立场论文指出，在单一抽象层内保障LLM智能体安全不仅次优，而且根本不足——这是智能体执行方式的结构性结果，而非当前系统的偶然局限。安全运行需要三个维度：语义意图与策略合规、环境有效性、动态可行性，每个维度依赖不同阶段才可获得的不同信息集。单一护栏无法同时验证三者。论文提出基于合约的架构，每个安全维度由独立认证层强制执行，其概率保证满足下一层的假设，并通过概率链规则推导出组合系统级安全边界。三个开放问题阻碍了该架构成为可部署标准：非独立同分布轨迹的边界估计、部署漂移下的优雅降级、以及多智能体场景的扩展——这是LLM智能体运行时保障中最未完成的重要工作。

论文 LLM智能体安全架构概率保证合约设计部署安全

推荐理由：这篇论文从结构层面揭示了当前LLM智能体安全方案的致命缺陷——单一护栏永远不够，做智能体部署的团队必须理解三层架构的必要性，建议所有关注AI安全的开发者仔细阅读。

原文

14:37

arXiv cs.AI@Michael Aichmüller, Simon Ståhlberg, Martin Funkquist, Hector Geffner

精选

该研究针对经典规划中的通用策略学习问题，改进了迭代宽度（IW）策略。现有IW方法在评估每个转移时计算成本高且表达能力有限，尤其在对象数量大时效率低下。作者提出两种改进：一是对整个搜索树进行高效整体编码，仅通过状态间的关系差异表示IW(1)可达状态，使关系图神经网络（R-GNN）能单次前向传播评分所有转移；二是定义抽象IW(1)，通过类型抽象原子进行新颖性检查，将缩放从原子数转向对象数。在IPC 2023基准测试和多个领域上，新方法达到了最先进性能，显著超越包括经典规划器LAMA在内的先前工作。

论文经典规划图神经网络迭代宽度抽象化通用策略学习

推荐理由：经典规划研究者终于有了可扩展的通用策略学习方法——新方法解决了IW策略在大规模问题上的计算瓶颈，做AI规划或强化学习的团队可以直接参考其编码思路。

原文

14:36

arXiv cs.AI@Qisai Liu, Zhanhong Jiang, Joshua Russell Waite, Aditya Balu, Cody Fleming, Soumik Sarkar

精选

COOPO 是一种新型强化学习框架，通过循环交替进行约束离线训练和在线微调，解决了离线强化学习中的分布偏移和在线学习中的高交互成本问题。该算法在每个循环中先用 KL 正则化的优势加权更新锚定策略，再用任意策略优化进行在线微调，定期回归离线训练可消除遗忘和漂移。理论证明 COOPO 在标准覆盖假设下能实现单调改进，在线样本效率优于纯在线 RL。在 D4RL 基准测试中，COOPO 相比最先进的混合方法减少了在线交互次数，同时提升了最终回报，且对不同离线算法和在线优化器具有鲁棒性。

论文强化学习离线-在线混合策略优化 D4RL COOPO

推荐理由：做强化学习研究的团队终于有了一个能同时解决分布偏移和灾难性遗忘的通用框架——COOPO 的循环设计让离线数据复用和在线探索形成正向循环，D4RL 上效果显著，建议做 RL 算法开发的同学点开看理论证明和实验细节。

原文

14:35

arXiv cs.AI@Fengyi Fu, Mengqi Huang, Shaojin Wu, Yunsheng Jiang, Yufei Huo, Hao Li, Yinghang Song, Fei Ding, Jianzhu Guo, Qian He, Zheren Fu, Zhendong Mao, Yongdong Zhang

精选72°

Lance 是一个轻量级原生统一模型，支持图像和视频的多模态理解、生成与编辑。它不依赖模型规模扩展或文本-图像主导设计，而是通过协作式多任务训练探索统一多模态建模的实用范式。核心包括统一上下文建模和解耦能力路径，采用双流混合专家架构在共享交错多模态序列上联合学习，同时分离理解与生成路径。实验表明，Lance 在图像和视频生成上显著优于现有开源统一模型，同时保持强多模态理解能力。

论文多模态模型统一模型生成与理解混合专家架构 Lance

推荐理由：Lance 用轻量级架构实现了多模态理解与生成的统一，做多模态研究的开发者可以直接参考其双流 MoE 设计，值得关注。

原文

14:34

arXiv cs.AI@Amritpal Singh, Andrey Barsky, Mohamed Ali Souibgui, Ernest Valveny, Dimosthenis Karatzas

精选

可解释AI（XAI）技术对深度学习模型的验证和负责任使用日益重要，但缺乏可靠的评估标准。研究者提出了一种基于连续输入扰动的量化指标，用于衡量XAI方法的质量，该指标从充分性和必要性两个维度评估归因信息对模型决策的影响。实验表明，该指标比现有方法更符合人类对解释质量的直觉。基于此指标，团队还提出了一种新的XAI方法，通过可微分的近似指标作为监督信号微调模型，在不降低模型性能的前提下生成因果解释。该方法在多个量化指标上优于现有XAI技术。

论文可解释AI 量化评估因果解释模型微调深度学习

推荐理由：这项研究解决了XAI领域缺乏可靠评估标准的痛点，做模型可解释性研究的团队可以直接用这个指标来量化自己的方法，值得关注。

原文

14:33

arXiv cs.AI@Sanderson Oliveira de Macedo, Ronaldo Martins da Costa

精选72°

Reversa 是一个将遗留系统（如COBOL代码）转化为AI智能体可操作规范的框架。它通过多智能体流水线，自动映射项目表面、分析模块、提取隐含规则、合成架构并编写单元级规范，强调代码与规范的可追溯性、显式置信度标记和保留人工验证缺口。在将ATM系统从COBOL迁移到Go的案例中，生成了517条声明、10个缺口、53个Gherkin场景和9/11任务完成的重建计划。该框架以Node.js CLI形式发布，支持多种智能体引擎，并利用SHA-256清单保护修改文件。

论文逆向工程遗留系统迁移 AI智能体代码规范 COBOL

推荐理由：做遗留系统现代化或AI驱动代码迁移的团队，终于有了一个能自动生成可追溯规范的框架——Reversa 直接帮你把老代码变成AI智能体能理解的文档，建议做COBOL迁移或大型系统重构的开发者点开看看。

原文

14:32

arXiv cs.AI@Tinghan Ye, Arnaud Deza, Ved Mohan, El Mehdi Er Raqabi, Pascal Van Hentenryck

精选

本文提出一个基于LLM的智能体重优化框架，让非运筹学专家也能通过自然语言交互快速调整优化模型。该框架将LLM作为运筹学专家，将用户提示转化为结构化模型更新，并从优化工具箱中选择合适技术加速重优化。工具箱利用历史解、有效不等式、求解器配置和元启发式等原始信息，在保证解质量的同时提升计算效率。在两个大规模真实案例（在线供应链重优化和离线大学考试排程）中验证了其有效性和可扩展性。该框架减少了对运筹学专家的依赖，提升了决策支持系统的可持续性。

论文 LLM 运筹优化重优化智能体供应链

推荐理由：做供应链排程或排课系统的团队终于有了不用求OR专家的方案——LLM直接帮你改模型、选算法、出解，建议做运筹优化的开发者点开看实现细节。

原文

14:32

arXiv cs.AI@Yifan Zhou, Zhentao Zhang, Ziming Cheng, Shuo Zhang, Qizhen Lan, Zhangquan Chen, Zhi Yang, QianyuXu, Ronghao Chen, Huacan Wang, Sen Hu

精选

SkillGenBench 是一个专门评估 LLM 智能体技能生成能力的基准测试。现有基准主要测试智能体使用已有技能或解决下游任务的能力，但忽略了技能生成本身。该基准覆盖两种生成模式：任务条件生成（根据任务生成特定技能）和任务无关生成（预先提炼可复用的技能库），并包含两种来源：代码仓库和长文档。实验显示不同方法性能差异大，可复用技能蒸馏尤为困难，且从仓库和文档生成技能时失败模式不同。SkillGenBench 为研究智能体系统中的技能生成提供了可复现的测试平台。

论文 LLM智能体技能生成基准测试可复用技能代码仓库

推荐理由：做 LLM 智能体系统或工具链的开发者会发现，技能生成才是当前瓶颈——这个基准直接暴露了从仓库和文档生成可执行技能的难点，值得用来检验自己的管线。

原文

14:31

arXiv cs.AI@Aditya Tanna, Yash Desai, Pratinav Seth, Mohamed Bouadi, Nassim Bouarour, Vinay Kumar Sankarapu

精选

一项新研究评估了六种现代表格基础模型（TFM）在153个OpenML分类任务上的集成效果。结果显示，这些模型高度冗余，平均成对Q统计量达0.961，接近1，导致任何凸组合的性能提升有限。最佳集成策略（两级级联堆叠）仅比最强单模型提升0.18%准确率，但计算成本增加253倍。统计检验表明，三种集成策略与最佳单模型处于同一等价组，而其他三种集成甚至显著更差。逻辑回归元学习器虽然提升了准确率和ROC-AUC，但严重破坏了校准，导致对数损失最差。研究建议实际应用中优先使用贪心选择策略。

论文表格基础模型集成学习校准模型冗余 OpenML

推荐理由：做表格数据建模的团队会发现，盲目集成TFM可能得不偿失——计算成本飙升但收益微乎其微，甚至可能破坏模型校准。建议点开看看，避免踩坑。

原文

14:30

arXiv cs.AI@Stephen Mell, David Mell, Konstantinos Kallas, Steve Zdancewic, Osbert Bastani

精选

复合AI应用（如用Python调用多个ML模型）的端到端延迟成为瓶颈，传统编译器无法优化外部组件调用。PopPy系统通过结合编译时分析和运行时调度，自动识别并并行化Python中调用外部组件的代码段。它解决了Python语言复杂性、动态分发和变量突变三大挑战，在真实复合AI应用中实现最高6.4倍加速。开发者只需少量标注即可获得并行化收益，且保持程序语义不变。

论文复合AI应用并行计算 Python优化系统/工具加速

推荐理由：复合AI应用开发者终于有了一个无需重写代码就能加速的工具——PopPy自动找出并行机会，做多模型编排或自动化管道的团队值得一试。

原文

14:29

arXiv cs.AI@Aditya Tanna, Nassim Bouarour, Mohamed Bouadi, Vinay Kumar Sankarapu, Pratinav Seth

精选

表格基础模型在健康数据集上表现优异，但高推理成本和基础设施需求限制了实际应用。研究者提出通过知识蒸馏将预测能力转移至轻量表格模型，并针对上下文表格模型在推理时依赖训练集导致的上下文泄露问题，采用分层折叠教师标注策略。在19个医疗数据集、6个教师模型、4个学生模型家族及多教师集成实验中，蒸馏学生模型保留了教师AUC的至少90%，部分甚至超越教师，同时CPU推理速度提升至少26倍，且保持校准性和公平性。多教师平均并未持续优于最佳单教师。该研究为推理受限的健康场景部署高质量预测提供了可行路径。

论文表格基础模型知识蒸馏健康数据推理效率公平性

推荐理由：医疗AI团队终于有了低成本部署高精度表格模型的方案——蒸馏后模型保留90%性能且快26倍，做健康数据预测的开发者可以直接用。

原文

14:28

arXiv cs.AI@Songsong Yu, Yuxin Chen, Ying Shan, Yanwei Li

精选

统一多模态模型（UMMs）试图在单一架构中整合视觉理解与视觉生成，但现有训练范式将两者解耦，导致表征空间错位。本文首次系统研究生成式后训练，发现高层语义任务（如图像分割）可作为最优代理，通过提供结构语义来增强视觉感知和生成布局保真度。作者提出语义生成调优（SGT）范式，利用分割作为生成代理对齐多模态能力。机制分析表明SGT改善了特征线性可分性和视觉-文本注意力分配。实验证明SGT在主流基准上持续提升多模态理解和生成保真度。

论文统一多模态模型生成式后训练图像分割视觉理解视觉生成

推荐理由：做多模态模型训练的团队终于有了一个能同时提升理解和生成的后训练方法——SGT用分割任务对齐表征空间，比解耦训练更高效，做视觉AI的开发者可以直接参考代码实现。

原文

14:27

arXiv cs.AI@Feng Chen, Tianzhe Chu, Li Sun, Pei Zhou, Zhuxiu Xu, Shenghua Gao, Yuexiang Zhai, Yanchao Yang, Yi Ma

精选

DexHoldem 是一个基于 ShadowHand 灵巧手系统的真实世界基准测试，围绕德州扑克操作任务设计。它提供了 1470 个遥操作演示、14 种操作原语、标准化物理策略基准和智能体感知基准。实验显示，π0.5 在原始执行上完成率最高（61.2%），而 Opus 4.7 在感知准确率上领先（34.3%），但整体闭环部署中感知与策略错误会累积。该工作旨在评估灵巧操作、智能体感知和具身决策路由的协同能力。

论文灵巧操作具身智能基准测试德州扑克 ShadowHand

推荐理由：灵巧操作与决策感知的闭环评估是具身智能的硬骨头，做机器人操作或具身智能的团队值得看看这个新基准怎么暴露真实部署中的累积错误。

原文

14:27

arXiv cs.AI@Matthew L. Smith, Jonathan P. Shock, Samuel T. Segun, Iyiola E. Olatunji, Tegawendé F. Bissyandé

精选

该研究揭示了大型语言模型（LLM）的事实回忆能力与模型参数数量和训练数据中主题频率之间存在可预测的缩放规律。研究团队评估了38个模型在超过8900个学术参考文献上的表现，发现回忆质量遵循模型参数与主题表示的对数线性组合的S形曲线。这两个变量单独解释了16个密集模型（来自四个模型家族）中60%的方差，在单个家族内解释力升至74-94%。该规律符合一种基于信号噪声比的解释：信号强度随概念频率增加，噪声基底随模型容量增加。

论文缩放定律事实回忆模型大小训练数据频率学术引用

推荐理由：这项研究为LLM的事实回忆能力提供了可预测的缩放规律，做模型评估或训练数据设计的团队可以直接用这个规律来预估模型表现，值得关注。

原文

14:26

arXiv cs.AI@Payal Chandak, Victoria Alkin, David Wu, Maya Dagan, Taposh Dutta Roy, Maria Clara Saad Menezes, Ayush Noori, Nirali Somia, John S. Brownstein, Ran Balicer, Rebecca W. Brendel, Noa Dagan, Isaac S. Kohane, Gabriel A. Brat

精选

医学伦理天然具有多元性，但大型语言模型在提供医疗建议时可能隐含单一的价值偏好。研究者提出了一个审计框架，包含临床验证的伦理困境基准和从决策中恢复价值优先级的方法。前沿模型在讨论伦理冲突时能展现观点多元性，但个体决策几乎确定，无法复现医生群体的分布性多元。多数模型的价值优先级在医生变异范围内，但部分模型显著低估患者自主权。若不加干预，单一模型可能将自身价值偏好大规模强加给所有患者，取代临床伦理的多元性。

论文 AI伦理医疗AI 价值多元性审计框架语言模型

推荐理由：这篇论文揭示了AI医疗建议中隐藏的价值偏见问题，做医疗AI开发或临床决策支持的团队值得关注——它提醒我们，模型不只是输出答案，还在无声地传递伦理立场。

原文

14:25

arXiv cs.AI@Qianhao Yuan, Jie Lou, Xing Yu, Hongyu Lin, Le Sun, Xianpei Han, Yaojie Lu

精选

多模态大模型在细粒度视觉理解任务中常因无法聚焦关键证据而失败，而非缺乏局部识别能力。研究者提出Vision-OPD框架，通过区域到全局的自蒸馏方法，让模型从裁剪后的局部图像（教师）中学习，并迁移到全图（学生）策略上。该方法无需外部教师模型、标注数据或推理时工具，仅通过最小化教师与学生间token级分布差异来提升性能。在多个细粒度视觉理解基准上，Vision-OPD模型性能优于或媲美更大规模的开源、闭源及“思考+图像”智能体模型。

论文多模态大模型细粒度视觉理解自蒸馏区域到全局 Vision-OPD

推荐理由：多模态模型开发者常头疼的“看不清细节”问题，Vision-OPD用自蒸馏给出了一个轻量解法——不用外部模型或标注，直接让模型学会“自动放大”关键区域。做细粒度视觉理解或MLLM优化的团队值得关注。

原文

14:23

arXiv cs.AI@Yining Hong, Jiageng Liu, Han Yin, Manling Li, Leonidas Guibas, Li Fei-Fei, Jiajun Wu, Yejin Choi

精选72°

研究团队提出 ESI-Bench，一个基于 OmniGibson 的具身空间智能基准，涵盖 10 类任务和 29 个子类，要求智能体主动探索而非被动感知。实验发现，主动探索显著优于被动多视角，但大多数失败源于“行动盲视”——错误行动导致错误观察，进而引发级联错误。即使引入 3D 空间理解，不完美的 3D 表示反而比 2D 基线更差。人类研究显示，模型缺乏元认知能力，过早下结论且不修正信念，暴露了感知与行动闭环中的关键鸿沟。

论文具身智能空间推理感知-行动闭环基准测试 MLLM

推荐理由：做具身智能、机器人或空间推理的团队，ESI-Bench 直接点出了当前 MLLM 在主动探索和行动决策上的致命短板，看完会重新思考你的感知-行动闭环设计。

原文

14:22

arXiv cs.AI@Xuying Ning, Katherine Tieu, Dongqi Fu, Tianxin Wei, Zihao Li, Yuanchen Bei, Jiaru Zou, Mengting Ai, Zhining Liu, Ting-Wei Li, Lingjie Chen, Yanjun Zhao, Ke Yang, Bingxuan Li, Cheng Qian, Gaotang Li, Xiao Lin, Zhichen Zeng, Ruizhong Qiu, Sirui Chen, Yifan Sun, Xiyuan Yang, Ruida Wang, Rui Pan, Chenyuan Yang, Dylan Zhang, Liri Fang, Zikun Cui, Yang Cao, Pan Chen, Dorothy Sun, Ren Chen, Mahesh Srinivasan, Nipun Mathur, Yinglong Xia, Hong Li, Hong Yan, Pan Lu, Lingming Zhang, Tong Zhang, Hanghang Tong, Jingrui He

精选72°

本文提出“代码即智能体框架”概念，认为代码不仅是输出，更是智能体推理、行动、环境建模和执行验证的操作基础。论文从三个层次系统梳理：框架接口（代码连接推理与行动）、框架机制（规划、记忆、工具使用与反馈控制）、框架扩展（单智能体到多智能体协作）。覆盖编程助手、GUI/OS自动化、具身智能、科学发现、DevOps等应用场景，并指出评估、验证、状态共享等开放挑战。该视角为构建可执行、可验证、有状态的AI智能体系统提供了统一路线图。

论文智能体代码生成框架/架构多智能体协作综述

推荐理由：这篇综述把代码在智能体系统中的角色从“输出”提升到了“基础设施”层面，做智能体框架设计或工具链开发的团队值得一读，能帮你理清当前方法的脉络和未来方向。

原文

14:22