精选理由
做机器人策略部署或安全检测的团队,终于有了一个不依赖模型内部状态、零运行时开销的失败预警方案——ActProbe 只需动作序列就能提前发现异常,建议做真实机器人实验的开发者直接试。
生成式机器人策略在部署时可能突然失败,现有检测方法需要白盒访问或增加计算开销。ActProbe 提出仅从动作空间提取两个信号——连续动作块间的时间一致性误差(TCE)和当前动作块幅度(ACM),通过单次前向传播即可预测失败。该方法在多个基准测试中将失败检测的F1-时效性帕累托前沿平均提升12.7%,在未见任务上早期检测ROC-AUC领先9.0%。ActProbe 还能迁移到真实机器人拾取任务,将强化学习微调所需环境交互次数减少2.9倍。
AI 翻译 · 中文
生成式机器人策略在部署时可能突然失败,现有检测方法需要白盒访问或增加计算开销。ActProbe 提出仅从动作空间提取两个信号——连续动作块间的时间一致性误差(TCE)和当前动作块幅度(ACM),通过单次前向传播即可预测失败。该方法在多个基准测试中将失败检测的F1-时效性帕累托前沿平均提升12.7%,在未见任务上早期检测ROC-AUC领先9.0%。ActProbe 还能迁移到真实机器人拾取任务,将强化学习微调所需环境交互次数减少2.9倍。
Generative robot policies fail unpredictably at deployment: they hesitate at critical moments, drift off-task, or commit to unrecoverable actions. Existing online failure detectors either require white-box access to poli…