精选理由
斯坦福搞了个新方法,让机器人自己学会想什么有用,不用人教也不用奖励,挺酷的。
斯坦福AI实验室发布R&B-EnCoRe方法,这是一个视觉-语言-动作模型,能自主识别哪些思维链(chain-of-thought)有助于实际行动。该方法无需奖励函数、验证器或人工标注,完全由模型自监督学习。实验表明,R&B-EnCoRe在机器人操作任务中比基线方法有显著提升,证明了自我引导的推理训练的有效性。
AI 翻译 · 中文
斯坦福AI实验室发布R&B-EnCoRe方法,这是一个视觉-语言-动作模型,能自主识别哪些思维链(chain-of-thought)有助于实际行动。该方法无需奖励函数、验证器或人工标注,完全由模型自监督学习。实验表明,R&B-EnCoRe在机器人操作任务中比基线方法有显著提升,证明了自我引导的推理训练的有效性。
New SAIL Blog post: R&B-EnCoRe: What Should a Robot Actually Think About Before It Acts? @milanganai and @katielulula show how a Vision-Language-Action model can teach itself which chain-of-thought actually helps it …