全部 AI 动态 · AI 热点

6月17日

10:46

arXiv cs.AI@Ankita Samaddar, Sandeep Neema, Daniel Balasubramanian, Xenofon Koutsoukos

本文提出一种基于模仿学习的策略学习技术，用于在部分可观测的自主网络环境中预测红方（攻击方）动作。该方法适用于离散状态和离散动作的强化学习智能体。集成到使用行为树和LECs的神经符号自主防御智能体后，该方法能有效处理不同红方策略，并在多种模拟场景下实现高预测准确率。

论文模仿学习强化学习 AI安全智能体网络防御

推荐理由：这篇论文用模仿学习帮防守方预测攻击者行动，在模拟网络攻防场景下准确率很高。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月15日

11:11

arXiv cs.AI@Zihao Li, Ranpeng Qiu, Yincong Chen, Guoqiang Ren, Weiming Zhi

该论文提出TRACE，一种针对延迟证据视觉运动模仿任务的记忆框架。TRACE使用路径签名（path signatures）作为轨迹条件键，从固定大小潜在记忆中写入和检索早期可见的视觉证据。在真实世界长时操作任务中，TRACE相比短历史基线（1-step history）和循环记忆（GRU）提升了分支选择准确率。实验显示TRACE在视觉模糊分支点任务上的成功率超过基线方法15-30%。

论文 TRACE path signatures delayed-evidence 模仿学习机器人操作

推荐理由：用路径签名记住消失的视觉线索

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

11:04

arXiv cs.AI@Adam Wei, Nicholas Pfaff, Thomas Cohn, Arif Kerem Dayı, Constantinos Daskalakis, Giannis Daras, Russ Tedrake

精选72°

机器人领域的高质量任务数据昂贵且难以收集，而次优数据（低质量或分布外演示）却大量存在。现有方法在同时训练两类数据时，常无法区分次优样本中的有用和有害特征。Ambient Diffusion Policy 通过引入噪声依赖的数据使用策略，仅在高和低扩散时间步利用次优数据，从而提取有用特征。该方法基于机器人动作数据的频谱幂律分布，利用全局到局部层次和局部性两个性质。在六项任务上，针对四种次优数据（噪声轨迹、仿真到现实差距、任务不匹配、大规模数据混合），该方法均有效，并在 Open X-Embodiment 数据集上比现有方法提升高达33%。

论文机器人模仿学习扩散策略次优数据 Open X-Embodiment

推荐理由：机器人团队终于有了一个能高效利用次优数据的实用方法——Ambient Diffusion Policy 解决了低质量数据难以训练的问题，做机器人模仿学习的开发者可以直接在现有数据集上尝试，有望大幅降低数据收集成本。

原文

10:08

arXiv cs.LG@Balázs Gyenes, Emiliyan Gospodinov, Jan Frieling, Enrico Krohmer, Nicolas Schreiber, Xiaogang Jia, Niklas Freymuth, Gerhard Neumann

精选

该研究提出将点云从笛卡尔空间映射到高维傅里叶空间，以解决神经网络在模仿学习中难以学习高频空间特征的问题。在 RoboCasa 和 ManiSkill3 基准测试以及真实机器人实验中，傅里叶特征显著提升了基于点云的策略在精细操控任务上的表现。该方法简单、鲁棒，且适用于多种编码器架构，有望成为点云模仿学习的通用工具。

论文模仿学习机器人操控点云傅里叶特征高频空间

推荐理由：做机器人操控和模仿学习的团队值得关注——傅里叶特征解决了神经网络对低频偏好的固有问题，让你在点云策略上直接获得高精度提升，代码和视频已开源，可以直接上手试。

原文

6月9日

12:33

arXiv cs.LG@Quinn Pfeifer, Ethan Pronovost, Paarth Shah, Khimya Khetarpal, Siddhartha Srinivasa, Abhishek Gupta

精选

华盛顿大学团队提出 DARP（差异感知检索策略），一种半参数检索式模仿学习方法，通过重用在推理时的训练数据来缓解行为克隆的分布外泛化问题。DARP 不学习全局策略，而是基于专家演示的 k 近邻、对应动作及邻居与查询状态的相对距离向量来预测动作。该方法无需额外数据收集、在线专家反馈或任务特定知识，在连续控制和机器人操作等任务上比标准行为克隆提升 15-46%。代码和演示已开源。

论文模仿学习行为克隆检索增强机器人操作 DARP

推荐理由：DARP 用检索替代全局映射，解决了行为克隆在部署时误差累积的痛点，做机器人学习和模仿学习的开发者可以直接参考其开源代码。

原文

5月18日

10:37

arXiv cs.LG@Fateme Golivand, Michael Skinner, Saurabh Mathur, Ameet Soni, Phillip Reeder, Kristian Kersting, Lakshmi Raman, Sriraam Natarajan

精选

该研究将儿科ECMO（体外膜肺氧合）中的临床决策建模为从轨迹中学习行动的问题，即模仿学习，且行动并非直接观测。研究采用基于Transformer的TabPFN模型，与XGBoost、MLP等传统基线在真实儿科ECMO数据上对比。结果显示TabPFN方法在预测临床行动上持续优于传统模型，可作为儿科ECMO决策支持的强基线。这项工作解决了儿科重症监护中数据稀缺和高度复杂性的挑战，为AI辅助临床决策提供了新思路。

论文模仿学习儿科ECMO 临床决策支持 TabPFN Transformer

推荐理由：儿科重症团队终于有了一个能处理数据稀缺和高复杂性的AI基线——TabPFN在ECMO决策建模上超越传统方法，做临床决策支持系统的研究者可以直接拿来对比或集成。

原文