全部 AI 动态 · AI 热点

6月2日

11:18

arXiv cs.LG@Vladimir Beskorovainyi

精选

本文研究如何将短、噪声、无标准编码的零售产品描述自动映射到消费分类（如UN COICOP），以支持消费者价格测量。作者提出一个管道：文本标准化、基于前缀树的规则预分类器、以及每个类别的二元确认模型。在人工标注环节，采用可靠性加权投票协议，并对比了Dawid-Skene方法。实验发现，在无泄漏控制下，词袋模型即可达到约0.99的F1分数，线性分类器与多层感知机表现相当，约67个标注样本就足够。研究还讨论了价格水平质量控制，为统计机构使用交易数据提供设计经验。

论文机器学习产品分类消费价格人工标注词袋模型

推荐理由：做价格统计或零售数据处理的团队，会发现这个简单但有效的管道能快速解决产品分类痛点，建议直接参考其规则+词袋的轻量方案。

原文

11:18

arXiv cs.LG@Kazuto Fukuchi, Ryuichiro Hataya, Kota Matsui

精选

该论文提出了复杂度最小化框架，用于理论解释预训练数据规模增大如何降低下游样本复杂度。通过端到端分析，证明该框架能捕捉元学习中的缩放行为，即少样本适应误差率随元训练数据量增加而改善。实验表明，将复杂度正则化融入现有元学习方法能持续提升下游样本效率。

论文元学习预训练复杂度最小化数据规模定律理论分析

推荐理由：这篇论文为预训练数据规模定律提供了首个理论证明，做元学习或预训练研究的学者值得关注，可以直接参考其复杂度正则化方法改进现有模型。

原文

11:17

arXiv cs.LG@Gjorgjina Cenikj, Jakub Kudela, Eva Tuba, Tome Eftimov

精选

该研究系统评估了算法选择（AS）模型在合成与真实优化场景间的泛化能力。研究使用了BBOB和CEC两个学术基准套件，以及机器人轨迹优化和无人机路径规划两个真实问题集。通过跨基准测试发现，AS模型在学术基准间表现良好，但迁移到真实领域时泛化能力显著下降。研究揭示了当前AS方法在领域特定应用中的鲁棒性挑战，为开发更可靠的实用AS系统提供了方向。

论文算法选择泛化能力优化算法机器人轨迹优化无人机路径规划

推荐理由：做优化算法选型或自动化机器学习的研究者值得关注——这项研究直接点出了学术基准与真实场景的鸿沟，看完能帮你避开模型部署的坑。

原文

11:17

arXiv cs.LG@Ting Xu, Xu He, Yupu Lu, Jiankai Sun, Dong Li, Wai Lam, Jianye Hao

精选72°

这篇论文研究了链式推理（CoT）过程中的熵变化，发现了一个一致的两阶段结构：先是不确定性探索阶段，然后突然过渡到置信收敛阶段。置信阶段具有高可靠性和高冗余性两个关键特性，模型在得出正确答案后仍会生成大量无用token。基于此，作者提出了两种更高效的推理策略：早退机制（Early Exit）和测试时缩放（Test-Time Scaling）。他们使用累积和（CUSUM）算法进行实时推理控制，无需额外训练。实验表明，CUSUM早退在准确率63.06%时实现了11.1%的token缩减，优于DEER和Dynasor。

论文推理模型 CoT/链式推理早退机制熵动力学 CUSUM

推荐理由：这篇论文揭示了CoT推理中隐藏的熵动力学规律，做推理加速和模型效率优化的研究者可以直接用CUSUM方法实现无训练早退，比现有方法更优。

原文

11:16

arXiv cs.LG@Eduardo Sebastián, Adrian Pfisterer, Vito Mengers, Oliver Brock, Amanda Prorok

这篇论文提出了一种新的机器人学习框架，通过将策略分解为“世界因子”和“任务因子”来实现结构泛化。世界因子描述机器人和环境的固有属性，独立于任务意图；任务因子则定义任务逻辑。作者利用贝叶斯模型证据形式化了这种不对称性，并实例化为AICON图与学习策略的组合，梯度作为两个因子的接口。实验表明，该方法在异构机器人、环境和任务中优于端到端基线，能零样本泛化到分布外配置，并直接迁移到真实硬件。

论文机器人学习泛化世界模型任务分解零样本迁移

推荐理由：机器人学习领域长期面临泛化难题，这篇论文从结构分解入手给出了新解法。做机器人策略研究或部署的团队值得关注，零样本迁移到真实硬件意味着可以直接减少重复训练成本。

原文

11:15

arXiv cs.LG@Reda Snaiki, Abdelatif Merabtine

该研究提出一种不确定性感知的图神经网络框架，用于从稀疏传感器重建城市每日最高温度场，并支持距离约束的传感器布局和概率超限映射。模型采用图注意力机制和均值-残差架构，通过高斯负对数似然训练，同时预测温度场和空间变化的不确定性场。在蒙特利尔地区的实验中，使用Daymet v4.1数据（1公里分辨率）和严格的时间留出验证，该GNN在10-40个传感器预算下均优于反距离加权和普通克里金法。传感器布局影响在低预算时显著，约30个传感器时达到饱和。该框架为不确定性感知的温度场重建和面向决策的热风险制图提供了有效工具。

论文图神经网络温度场重建稀疏传感器不确定性量化城市气候

推荐理由：城市气候监测和热风险分析团队终于有了一个兼顾传感器预算和布局约束的实用方案——GNN在稀疏数据下比传统插值法更准，做城市热岛效应或极端高温预警的可以直接参考。

原文

11:15

arXiv cs.LG@Bradley G. Karat, Maëliss Jallais, Ali R. Khan, Santiago Aja-Fernández, Jelle Veraart, Marco Palombo

扩散MRI能无创探测组织微观结构，但噪声效应影响参数估计精度。在基于模拟数据的监督机器学习框架中，模拟与采集信号的噪声特性差异导致协变量偏移，影响推理准确性。本文提出真实噪声合成（RNS）框架，通过引入Rician期望和有效后处理噪声方差来缓解这一问题。实验表明，忽略噪声效应会导致系统性的信噪比依赖偏差，而RNS能显著降低偏差并提升精度，尤其在低信噪比场景下效果明显。该方法对噪声估计准确性敏感，但回归架构影响较小。

论文扩散MRI 噪声合成微观结构估计监督学习协变量偏移

推荐理由：做医学影像分析或扩散MRI研究的团队，这篇论文解决了模拟数据与真实数据噪声不匹配导致的估计偏差问题，RNS框架可以直接用于提升微观结构参数估计的准确性，值得点开看看具体实现。

原文

11:15

arXiv cs.LG@Junhyoung Chung, Euijong Song, Won Hwa Kim, Gunwoong Park

研究人员提出 Convex Distance Operator Transport (CDOT)，这是首个凸最优传输框架，能在异构域之间对齐分布，同时保留特征对应和内在几何结构。CDOT 通过基于算子的正则化，引入距离和条件期望算子来对齐聚合距离结构，从而提升对局部几何变化的鲁棒性。理论证明 CDOT 差异是属性紧致度量-测度空间上的有效伪度量，并揭示了其与 Gromov-Wasserstein 的非凸性差异。实验在合成点云、脑连接组和图分类基准上表现优于现有方法，且行为稳定可靠。

论文最优传输凸优化几何结构分布对齐 CDOT

推荐理由：做分布对齐或几何数据处理的团队，CDOT 解决了传统 GW 非凸优化不稳定的痛点，可以直接用这个凸框架提升效果，建议点开看理论证明和实验对比。

原文

11:14

arXiv cs.LG@Sabyasachi Basu, Manuj Mukherjee, Lutz Oettershagen, Suhas Thejaswi

本文研究在随机块模型（SBM）中，当学习者只能通过有限次数的噪声查询访问网络数据时，如何实现精确的社区恢复。查询会以固定概率揭示节点的真实邻居，但不会返回非邻居，且总查询次数有限。作者分析了仅依赖查询的模型，以及结合单个子采样图的混合模型。在仅查询模型中，均匀非自适应查询的基准性能由Abbe-Bandeira-Hall精确恢复阈值决定，但自适应策略可以用更少的查询（n+o(n)）超越该基准。在混合模型中，自适应查询可以针对少量不确定节点，实现亚线性查询的精确恢复，而均匀查询则无法改进子采样图的结果。这表明自适应数据获取能严格改善精确恢复的信息论极限。

论文随机块模型社区恢复自适应查询图算法信息论

推荐理由：这篇论文揭示了自适应查询在社区恢复中的理论优势，做图算法或网络分析的学者值得关注，看完会对数据获取策略的设计有新的启发。

原文

11:14

arXiv cs.LG@Michał Brzozowski, Neo Christopher Chung

72°

该论文质疑了Archetypal SAEs声称的稳定性优势。研究发现，其稳定性主要源于所有训练运行使用相同的确定性k-means解码器初始化，而非算法本身的约束。作者区分了“稳定性”（独立训练模型间的一致性）和“稳定化”（不同初始化向共同解收敛）两个概念，后者才是可解释性研究真正需要的。当移除共享初始化后，Archetypal约束并未带来额外的稳定化优势。此外，论文还指出预处理依赖的余弦几何问题会干扰终点稳定性指标的解读。研究建议，评估SAE稳定性时应包含轨迹诊断和初始化消融实验。

论文稀疏自编码器可解释性稳定性初始化消融 Archetypal SAEs

推荐理由：这篇论文戳破了Archetypal SAEs稳定性神话，做可解释性研究的团队需要重新审视自己的评估方法——别被初始化技巧骗了，建议点开看轨迹诊断和消融实验怎么做。

原文

11:14

arXiv cs.LG@Ning Lin, Luxi Chen, Huaguan Chen, Jiacheng Cen, Chongxuan Li, Wenbing Huang, Hao Sun

该论文提出了一种通用的对称化框架，能将任意2D连续表示转换为具有平面群对称性的表示，同时保持连续性。作者给出了数学形式化描述，证明了其对对称函数的逼近能力，并详细说明了构建方法。通过图案设计、剪纸设计、风格化拓扑设计和材料设计四项任务验证了方法的有效性。实验表明该框架能实现有效的对称性控制，具有广泛的应用前景。

论文对称生成平面群连续表示图案设计材料设计

推荐理由：做图案生成、剪纸设计或材料拓扑优化的团队，终于有了一个能精确控制任意平面群对称性的数学框架，可以直接用于现有2D生成流程，值得一试。

原文

11:13

arXiv cs.LG@Jianhao Xu, Zhuang Yang

现有深度神经网络优化器多基于ℓ₂范数或ℓ∞范数，但两者各有缺陷：ℓ₂范数在高曲率方向占主导，导致低曲率方向更新缓慢；ℓ∞范数在平坦区域易振荡。本文提出动态p值的ℓ_p范数方案，融入SGD和带动量SGD，形成LPSGD和LPSGDM优化器。训练早期用大p（>2）抑制高曲率方向，后期p逐渐降至2实现稳定更新，灵感来自余弦退火策略。理论证明非凸场景下收敛率达O(T^{-1/2})，在CIFAR-10/100和ImageNet-1K上使用VGG-11、ResNet-18/50验证了更好泛化性能。

论文优化器 ℓ_p范数泛化性能 SGD 余弦退火

推荐理由：做深度学习训练调参的开发者，这个动态p范数方案解决了ℓ₂和ℓ∞范数的极端问题，直接替换SGD就能提升泛化，值得在CIFAR/ImageNet任务上试试。

原文

11:13

arXiv cs.AI@Sherzod Turaev, Mary John, Mamoun Awad, Nazar Zaki, Khaled Shuaib

本文提出一个四阶段NLP框架，用于解决课程与劳动力市场对齐中的隐性能力提取、缺乏共享分类法和可靠性度量问题。该框架结合了模式约束的LLM集成提取、Sentence-BERT与ESCO v1.2.1词汇的语义匹配、双模型裁决协议以及一致性验证机制。在阿联酋大学计算机科学专业的85门课程和30个岗位的实验中，提取器在技能槽上达到0.79的Cohen's kappa，100%模式合规和文档完整性。分析揭示了通用技能（25.0%）、算法理论（13.8%）和软件工程（12.2%）的供需缺口，而AI与数据科学缺口仅1.8%。该工作为高等教育质量保障提供了可量化的课程-市场对齐方法。

论文 NLP框架课程对齐劳动力市场 ESCO LLM提取

推荐理由：做课程设计或教育数据分析的团队终于有了一个可复用的NLP对齐工具——从LLM提取到语义匹配再到缺口量化，全流程开源可验证，建议直接参考框架改造自己的课程体系。

原文

11:12

arXiv cs.AI@Lichao Wang, Zhaoxing Ren, Tianzhuo Yang, Jiaming Ji, Chi Harold Liu, Yaodong Yang, Juntao Dai

SafeMCP 是一个服务器端防御插件，针对 LLM Agent 使用 MCP 协议时因动作空间扩大带来的安全风险。它通过内部世界模型进行前瞻推理，实现两层防御：主动工具过滤限制危险权限扩展，以及即时干预作为故障安全机制。训练采用三阶段流程：环境动态基础、安全策略初始化和带双重可验证奖励的强化学习。在 PowerSeeking Bench、ToolEmu 和 AgentHarm 上的实验表明，SafeMCP 能在降低风险的同时保持 Agent 的实用性。

论文 MCP/工具 LLM Agent 安全防御前瞻推理强化学习

推荐理由：做 LLM Agent 安全防护的团队终于有了一个可落地的方案——SafeMCP 在服务器端用前瞻推理主动过滤危险工具调用，比事后审计更有效，建议关注其开源实现。

原文

11:12

arXiv cs.AI@Stefano Samele, Eugenio Lomurno, Teodora Jovanovic, Sanjay Shivakumar Manohar, Alberto Crivellaro, Matteo Matteucci

工业异常检测领域近年引入多模态视觉语言模型，声称可通过文本指令实现零样本或少样本检测。但现有评估方法沿用单模态基准，无法验证模型是否真正依赖文本条件。本文提出TGAD结构化基准，通过三个递进场景测试：MVTec AD上的提示敏感性测试、组件级标注扩展、以及新构建的组装面板数据集APD。测试发现，三种代表性模型（生成式大视觉语言模型、无训练判别式、嵌入自适应判别式）均仅表面响应文本指令：移除物体名词后生成模型I-AUROC从97.4降至82.6；组件指令无法约束决策；在APD上图像级判别甚至低于随机水平（最低31.5）。结果表明当前多模态异常检测系统的文本引导能力被高估，需要此类基准才能实现工业部署所需的可靠语言控制。

论文异常检测多模态基准测试视觉语言模型工业检测

推荐理由：做工业视觉检测的团队会发现，当前号称支持文本引导的模型其实并不听指令——TGAD基准直接戳破了这个泡沫，建议点开看看你的模型是否真的被语言控制。

原文

11:12

arXiv cs.AI@Xinyu Che, Junqi Xiong, Yunfei Ge, Xinping Lei, Shihao Li, Hang Yan, Han Li, Yuanxing Zhang, Zhiqi Bai, Jinhua Hao, Ming Sun, Han Li, Jiaheng Liu

网络上有大量多模态、异构、嘈杂的程序性知识，但直接用于智能体执行长周期任务效果不佳。研究者提出 guide-to-skill 学习问题，并发布首个基准 MMG2Skill-Bench。他们设计的闭环框架 MMG2Skill 能将人类指南编译为可编辑技能，在执行时条件化固定视觉语言模型，并通过轨迹级根因反馈持续修正技能。在 GUI 控制、开放游戏和策略卡牌等六个 VLM 骨干上，该方法比基线提升 12.8 到 25.3 个百分点。消融实验表明，直接提示原始指南反而会降低性能，而结构化技能构建和轨迹驱动修正是关键。

论文智能体技能蒸馏多模态长周期任务闭环学习

推荐理由：做智能体长任务规划的团队终于有了把网络教程变成可执行技能的方案——MMG2Skill 直接解决了指南与技能之间的鸿沟，做 GUI 自动化或游戏 AI 的开发者可以试试这个闭环框架。

原文

11:11

arXiv cs.AI@Luca Butera, Giovanni De Felice, Andrea Cini, Cesare Alippi

这篇论文揭示了长上下文窗口对时间序列预测模型的好处不仅在于捕捉长距离依赖，更在于降低生成过程识别的不确定性。作者将预测任务分解为生成过程识别和条件预测两个目标，证明即使对于记忆长度为P的过程，输入窗口也必须大于P才能达到最小误差。通过解耦这两个目标，可以在不牺牲准确性的前提下提升计算可扩展性。实验在合成和真实数据上验证了这些见解对设计预测架构的指导意义。

论文时间序列预测长上下文窗口生成过程识别条件预测计算可扩展性

推荐理由：做时间序列预测的团队终于有了理论依据——长窗口不只是为了捕捉长依赖，更是为了降低过程识别的不确定性，建议做预测架构设计的开发者仔细看看。

原文

11:11

arXiv cs.AI@Jingyun Liang, Min Wei, Shikai Li, Yizeng Han, Hangjie Yuan, Lei Sun, Weihua Chen, Fan Wang

该研究提出一种无需渲染的框架，通过将3D人体网格压缩为token，直接输入DiT架构的视频扩散模型，实现精确的人体运动控制。相比依赖2D渲染引导的现有方法，该方法避免了视角依赖伪影和轨迹-姿态不匹配问题。实验表明，该框架在人体运动控制基准上表现优异，证明视频扩散模型通过网格token化能更好地理解3D结构。这项工作为3D感知视频生成提供了新思路。

论文视频生成 3D人体运动控制网格token化扩散模型 DiT架构

推荐理由：做视频生成或3D人体动画的团队终于有了不依赖渲染的精准控制方案——直接压缩3D网格token，避免2D引导的伪影问题，建议做运动控制或虚拟人应用的开发者点开看看。

原文

11:11

arXiv cs.AI@Oleksandr Nikitin

PlanarBench 是一个新基准，通过让大语言模型根据边列表绘制平面图的 ASCII 艺术来评估其空间推理能力。该任务通过随机排列边顺序、方向和节点标签来防止记忆。研究测试了 91 个模型在 199 个最简单的非异构连通平面图（2-7 个节点）上的表现。关键发现是边数比节点数更能预测任务难度（相关系数 r=-0.85），这一结论在之前的 LLM 图基准中未被报告。

论文空间推理基准测试大语言模型平面图评估

推荐理由：这个基准揭示了 LLM 在空间推理上的真实短板，做模型评估或研究空间智能的团队值得关注——边数作为难度指标的新发现可能改变未来基准设计。

原文

11:10

arXiv cs.AI@Ekaterina Alimaskina, Darya Rudas, Denis Shveykin, Gleb Molodtsov, Pavel Vasiliev, Aleksandr Beznosikov

精选72°

该研究揭示了大型推理模型在极端低比特（2-bit）量化推理时，并非单纯降低答案准确率，而是产生更长的推理轨迹，包括重复循环、预算耗尽、延迟决策和未闭合推理段，导致端到端速度不升反降。作者针对 Qwen3-8B 和 Qwen3-32B 模型，提出了两种轻量级控制方法：FP16 规划（为 2-bit 模型提供短的高精度大纲）和循环救援（检测重复轨迹并回退或提前提交答案）。在 MATH-500 上，循环救援将 Qwen3-8B 准确率从 17.2% 提升至 74.2%，规划加循环救援将 Qwen3-32B 从 65.0% 提升至 87.2%。研究表明，将低比特推理失败视为可控生成病理，通过轻量检测和选择性 FP16 支持，2-bit 推理可以恢复准确率并保持真实端到端加速。代码已开源。

论文推理模型量化/低比特 Qwen3 失败模式开源/仓库

推荐理由：做推理模型量化和部署的团队终于有了针对 2-bit 失败模式的系统解法——不是简单降精度，而是用 FP16 规划和循环救援来修复生成过程，Qwen3 用户可以直接复现并提升准确率。

原文

11:10

arXiv cs.AI@Matvei Shelukhan, Timur Mamedov, Aleksandr Chukhrov, Karina Kvanchiani

多视角目标关联是计算机视觉中的关键问题，常用于多摄像头感知任务。该任务本质上是约束的一对一匹配问题，但近期研究却依赖成对排名指标（如AP和FPR-95）来评估模型。论文指出这些指标与实际分配目标之间存在根本性错配：理论上，即使分配正确，AP和FPR-95也可能不完美；而最优的成对排名仍可能导致错误分配。通过Sinkhorn归一化作为后处理测试，作者发现优化少量参数能显著提升AP和FPR-95，但分配级指标（如ACC和IPAA）并未相应改善。这提醒研究者需谨慎选择评估指标，避免被表面性能提升误导。

论文多视角目标关联评估指标 Sinkhorn归一化计算机视觉论文

推荐理由：这篇论文点破了多视角目标关联领域的一个常见误区——用排名指标评估分配任务可能得出虚假结论。做多摄像头感知或目标关联的开发者，看完会重新审视自己的模型评估方式，建议点开了解如何用Sinkhorn归一化做压力测试。

原文

11:10

arXiv cs.AI@Rui Yang, Qianhui Wu, Yuxi Chen, Hao Bai, Wenlin Yao, Hao Cheng, Baolin Peng, Huan Zhang, Tong Zhang, Jianfeng Gao

精选76°

OpenWebRL 是一个开源框架，用于在真实网站上通过在线多轮强化学习训练视觉网页智能体。该框架覆盖完整训练流程，包括可扩展的实时浏览器基础设施、监督初始化、多模态上下文管理、轨迹级成功判断和高效的多轮策略优化。基于此框架训练的 OpenWebRL-4B 模型仅用 0.4K 初始化轨迹和 2.2K 开放 RL 训练任务，就在 Online-Mind2Web 和 DeepShop 基准上分别达到 67.0% 和 64.0% 的成功率，超越了同规模或更大规模的开源智能体，并接近 OpenAI CUA 和 Gemini CUA 等专有系统。这项工作解决了高质量演示数据收集昂贵和静态数据集覆盖有限的问题，为构建更强大、可复现且成本高效的开源网页智能体提供了实用路径。

论文视觉网页智能体多轮强化学习开源框架 OpenWebRL 在线训练

推荐理由：做网页自动化或视觉智能体的开发者终于有了一个开源的在线RL训练方案——OpenWebRL 用极少的训练数据就达到了接近专有系统的效果，值得直接拿来试试。

原文

11:09

arXiv cs.AI@Yogesh Kumar Meena, Saurabh Agarwal, K. V. Arya

研究人员提出RL-ACRGNet，一种结合预训练DenseNet编码器和多级LSTM解码器的改进编码器-解码器模型，用于自动生成胸部X光报告。该模型在离策略强化学习框架下，通过双网络结构和基于度量的奖励机制优化视觉-语义嵌入，在IU-Xray数据集上BLEU-4、METEOR和ROUGE-L指标分别提升0.47%、0.17%和0.518%，并在MIMIC-CXR数据集上验证了其泛化能力。这项研究旨在解决手动生成放射报告耗时且不一致的问题，推动医学影像AI的自动化诊断流程。

论文医学影像强化学习报告生成 DenseNet LSTM

推荐理由：医学影像团队终于有了更精准的自动报告生成方案——RL-ACRGNet通过强化学习优化视觉语义对齐，做医疗AI的开发者可以直接参考其双网络奖励机制来提升模型临床相关性。

原文

11:09

arXiv cs.AI@Adrián Cánovas-Rodriguez, Miguel A. González-Illán, Maria Fernanda García-Cruz, Pedro Nortes Tortosa, José Salvador Rubio-Asensio, Miguel A. Zamora Izquierdo, Juan Antonio Martínez Navarro, Antonio F. Skarmeta

研究者提出基于注意力机制和迁移学习的桃叶损伤分类方法，解决不同田间环境下的域迁移问题。他们构建了包含 1,366 张桃叶、6 类损伤的公开基准数据集，并评估多种深度学习架构。EfficientNetB5 结合 CBAM 注意力模块取得最佳准确率 93.3%，在少数类上表现更强。针对本地 180 张图像的域迁移测试，EfficientNetB3+CBAM 通过微调策略达到 93% 的宏 F1 分数，证明注意力机制能提升模型跨域泛化能力。

论文注意力机制迁移学习农业AI EfficientNet CBAM

推荐理由：农业 AI 落地常卡在域迁移上——不同果园的光照、品种会让模型失效。这篇用 CBAM 注意力+迁移学习把桃叶病害分类的跨域准确率拉到 93%，做作物病害检测的团队可以直接参考其微调策略。

原文

11:08

arXiv cs.AI@Hallah Shahid Butt, Qiong Huang, Gökhan Demirel, Kevin Förderer, Erfan Tajalli-Ardekani, Simnon Waczowicz, Luigi Spatafora, Veit Hagenmeyer, Benjamin Schäfer

该论文提出了一种可解释的深度强化学习（XRL）框架，用于优化住宅建筑的能源管理，特别是配备光伏和储能系统的建筑。研究对比了在线策略（如A2C和PPO）与离线策略算法，发现前者在累积奖励和策略稳定性上更优。框架利用事后解释技术揭示黑箱模型的决策过程，不仅降低了电费，还提供了透明、可操作的见解。实验基于合成数据和德国KIT的Living Lab真实数据，验证了方法的有效性。

论文深度强化学习可解释AI 建筑能源管理储能优化 PPO/A2C

推荐理由：建筑能源管理团队终于有了可解释的AI方案——XRL框架在降低电费的同时让你看清决策逻辑，做楼宇自动化或智慧能源的开发者可以直接参考。

原文

11:08

arXiv cs.AI@Xiang Li, Jiwei Wei, Ke Liu, Yitong Qin, Jinyu Guo, Malu Zhang, Peng Wang, Yang Yang

eMoT 提出了一种名为“演化思维记忆”的新框架，将推理轨迹视为动态演化的记忆而非静态模板，以解决大模型在多步推理中的幻觉和数值计算问题。该框架包含三个核心模块：记忆腐蚀机制（强化高效用推理结构并衰减低频结构）、符号锚定引擎（利用 Python 进行确定性计算，类似人类使用计算器）以及一致性驱动精炼过程（对齐神经推理与符号结果，减少逻辑偏差）。在 Game of 24 任务上，eMoT 达到 100% 准确率，比基线提升 17.6%；在 GSM8K、ASDiv、SVAMP 和 MGSM 等数学推理基准上也有持续改进。即使使用轻量级模型，eMoT 也优于依赖大规模模型的方法，表明性能提升主要来自框架的推理控制而非模型规模。

论文推理模型记忆机制符号锚定数学推理大模型

推荐理由：eMoT 解决了大模型在多步推理中容易出错和产生幻觉的痛点，做推理增强或数学推理的开发者可以直接参考其记忆腐蚀和符号锚定机制，值得一试。

原文

11:08

arXiv cs.AI@Jiaming Wang, Ziteng Feng, Jiangtao Wu, Ruihao Li, Qianqian Xie, Yuxiang Ren, He Zhu, Xueming Han, Fanyu Meng, Junlan Feng, Jiaheng Liu

精选72°

论文研究深度研究代理在长轨迹中的错误定位问题，指出仅靠最终答案评估无法揭示轨迹中的不可靠部分。作者收集了 2,790 条真实轨迹，通过 LLM 辅助专家标注构建了 TELBench 基准，包含 1,000 个实例用于识别错误跨度。提出 DRIFT 框架，以声明为中心审计代理轨迹，追踪声明并检查证据支持，在多个模型和审计框架上将跨度级错误定位和首次错误准确率提升最多 30 个百分点。该工作为深度研究代理的可靠性提供了过程级视角。

论文深度研究代理错误定位轨迹审计 TELBench DRIFT

推荐理由：做 AI 代理评估或可靠性研究的团队会感兴趣——DRIFT 框架直接解决了「只看结果不看过程」的盲区，建议点开看看方法细节。

原文

11:07

arXiv cs.AI@Kaidi Zhang, Guanxu Zhu

精选

本文提出一种基于可微多平面图像（MPI）的新视角合成方法，旨在平衡渲染速度、模型大小和稀疏视图下的性能。该方法利用视觉基础模型预测的点图进行几何初始化，并通过可微优化调整MPI层。为解决稀疏初始化导致的空洞和伪影问题，引入了一步扩散模型，同时参与MPI优化和渲染后处理。与基于3D高斯泼溅的代表性方法相比，该方法在正面视图场景下速度提升30.7%，模型大小仅为其14.8%，同时保持竞争性的合成质量。

论文新视角合成多平面图像可微优化稀疏视图轻量级模型

推荐理由：对于需要在新视角合成中兼顾速度、模型大小和稀疏视图性能的开发者，该方法提供了一个轻量级替代方案，比3DGS快30%且模型小85%，值得在移动端或资源受限场景下尝试。

原文

11:07

arXiv cs.AI@Lukas Johanns, Marilin Moor, Davide Panzeri, Yu Zhou, Xinyi Chen, Nora F. K. Pauly, Zixuan Pan, Matthias Gunzer, Andreas Müller, Yiyu Shi, Hedi Peterson, Jianxu Chen

精选

Agentic-J 是一个容器化的多智能体AI助手，专为ImageJ/Fiji设计，使生物学家能用自然语言指定分析任务，如细胞核分割、细胞追踪和多条件量化。该智能体生成可执行的脚本并组织成有文档的项目结构，确保每个分析决策可追溯，工作流可复现或共享。其专门子智能体负责插件管理、代码生成、调试、质量保证和统计报告。论文展示了系统设计、真实生物显微镜图像分析工作流及技术实现细节。

论文生物图像分析 ImageJ/Fiji 多智能体自然语言处理开源/仓库

推荐理由：生物图像分析研究者终于有了一个能理解自然语言并自动生成可复现工作流的工具——Agentic-J 解决了跨工具集成和编程门槛的痛点，做细胞生物学或显微镜分析的团队值得一试。

原文

11:07