10:46arXiv cs.AI@Ankita Samaddar, Sandeep Neema, Daniel Balasubramanian, Xenofon Koutsoukos本文提出一种基于模仿学习的策略学习技术,用于在部分可观测的自主网络环境中预测红方(攻击方)动作。该方法适用于离散状态和离散动作的强化学习智能体。集成到使用行为树和LECs的神经符号自主防御智能体后,该方法能有效处理不同红方策略,并在多种模拟场景下实现高预测准确率。论文模仿学习强化学习AI安全智能体网络防御推荐理由:这篇论文用模仿学习帮防守方预测攻击者行动,在模拟网络攻防场景下准确率很高。原文
11:11arXiv cs.AI@Zihao Li, Ranpeng Qiu, Yincong Chen, Guoqiang Ren, Weiming Zhi该论文提出TRACE,一种针对延迟证据视觉运动模仿任务的记忆框架。TRACE使用路径签名(path signatures)作为轨迹条件键,从固定大小潜在记忆中写入和检索早期可见的视觉证据。在真实世界长时操作任务中,TRACE相比短历史基线(1-step history)和循环记忆(GRU)提升了分支选择准确率。实验显示TRACE在视觉模糊分支点任务上的成功率超过基线方法15-30%。论文TRACEpath signaturesdelayed-evidence模仿学习机器人操作推荐理由:用路径签名记住消失的视觉线索原文
11:04arXiv cs.AI@Adam Wei, Nicholas Pfaff, Thomas Cohn, Arif Kerem Dayı, Constantinos Daskalakis, Giannis Daras, Russ Tedrake精选72°机器人领域的高质量任务数据昂贵且难以收集,而次优数据(低质量或分布外演示)却大量存在。现有方法在同时训练两类数据时,常无法区分次优样本中的有用和有害特征。Ambient Diffusion Policy 通过引入噪声依赖的数据使用策略,仅在高和低扩散时间步利用次优数据,从而提取有用特征。该方法基于机器人动作数据的频谱幂律分布,利用全局到局部层次和局部性两个性质。在六项任务上,针对四种次优数据(噪声轨迹、仿真到现实差距、任务不匹配、大规模数据混合),该方法均有效,并在 Open X-Embodiment 数据集上比现有方法提升高达33%。论文机器人模仿学习扩散策略次优数据Open X-Embodiment推荐理由:机器人团队终于有了一个能高效利用次优数据的实用方法——Ambient Diffusion Policy 解决了低质量数据难以训练的问题,做机器人模仿学习的开发者可以直接在现有数据集上尝试,有望大幅降低数据收集成本。原文
10:08arXiv cs.LG@Balázs Gyenes, Emiliyan Gospodinov, Jan Frieling, Enrico Krohmer, Nicolas Schreiber, Xiaogang Jia, Niklas Freymuth, Gerhard Neumann精选该研究提出将点云从笛卡尔空间映射到高维傅里叶空间,以解决神经网络在模仿学习中难以学习高频空间特征的问题。在 RoboCasa 和 ManiSkill3 基准测试以及真实机器人实验中,傅里叶特征显著提升了基于点云的策略在精细操控任务上的表现。该方法简单、鲁棒,且适用于多种编码器架构,有望成为点云模仿学习的通用工具。论文模仿学习机器人操控点云傅里叶特征高频空间推荐理由:做机器人操控和模仿学习的团队值得关注——傅里叶特征解决了神经网络对低频偏好的固有问题,让你在点云策略上直接获得高精度提升,代码和视频已开源,可以直接上手试。原文
12:33arXiv cs.LG@Quinn Pfeifer, Ethan Pronovost, Paarth Shah, Khimya Khetarpal, Siddhartha Srinivasa, Abhishek Gupta精选华盛顿大学团队提出 DARP(差异感知检索策略),一种半参数检索式模仿学习方法,通过重用在推理时的训练数据来缓解行为克隆的分布外泛化问题。DARP 不学习全局策略,而是基于专家演示的 k 近邻、对应动作及邻居与查询状态的相对距离向量来预测动作。该方法无需额外数据收集、在线专家反馈或任务特定知识,在连续控制和机器人操作等任务上比标准行为克隆提升 15-46%。代码和演示已开源。论文模仿学习行为克隆检索增强机器人操作DARP推荐理由:DARP 用检索替代全局映射,解决了行为克隆在部署时误差累积的痛点,做机器人学习和模仿学习的开发者可以直接参考其开源代码。原文
10:37arXiv cs.LG@Fateme Golivand, Michael Skinner, Saurabh Mathur, Ameet Soni, Phillip Reeder, Kristian Kersting, Lakshmi Raman, Sriraam Natarajan精选该研究将儿科ECMO(体外膜肺氧合)中的临床决策建模为从轨迹中学习行动的问题,即模仿学习,且行动并非直接观测。研究采用基于Transformer的TabPFN模型,与XGBoost、MLP等传统基线在真实儿科ECMO数据上对比。结果显示TabPFN方法在预测临床行动上持续优于传统模型,可作为儿科ECMO决策支持的强基线。这项工作解决了儿科重症监护中数据稀缺和高度复杂性的挑战,为AI辅助临床决策提供了新思路。论文模仿学习儿科ECMO临床决策支持TabPFNTransformer推荐理由:儿科重症团队终于有了一个能处理数据稀缺和高复杂性的AI基线——TabPFN在ECMO决策建模上超越传统方法,做临床决策支持系统的研究者可以直接拿来对比或集成。原文