09:42arXiv cs.AI@Bingjia Huang, Xiangyu Li, Xiang Wang, Liang Mi, Zixu Hao, Weijun Wang, Hao Wu, Kun Li, Yunxin Liu, Ting Cao精选生成式机器人策略在部署时可能突然失败,现有检测方法需要白盒访问或增加计算开销。ActProbe 提出仅从动作空间提取两个信号——连续动作块间的时间一致性误差(TCE)和当前动作块幅度(ACM),通过单次前向传播即可预测失败。该方法在多个基准测试中将失败检测的F1-时效性帕累托前沿平均提升12.7%,在未见任务上早期检测ROC-AUC领先9.0%。ActProbe 还能迁移到真实机器人拾取任务,将强化学习微调所需环境交互次数减少2.9倍。论文机器人策略失败检测动作空间生成式策略强化学习推荐理由:做机器人策略部署或安全检测的团队,终于有了一个不依赖模型内部状态、零运行时开销的失败预警方案——ActProbe 只需动作序列就能提前发现异常,建议做真实机器人实验的开发者直接试。原文