16:24Stanford AI Lab@StanfordAILab斯坦福AI实验室发布R&B-EnCoRe方法,这是一个视觉-语言-动作模型,能自主识别哪些思维链(chain-of-thought)有助于实际行动。该方法无需奖励函数、验证器或人工标注,完全由模型自监督学习。实验表明,R&B-EnCoRe在机器人操作任务中比基线方法有显著提升,证明了自我引导的推理训练的有效性。AI模型R&B-EnCoReStanford视觉-语言-动作模型机器人思维链推荐理由:斯坦福搞了个新方法,让机器人自己学会想什么有用,不用人教也不用奖励,挺酷的。原文