13:15Physical Intelligence@physical_int精选Physical Intelligence 开发了一种强化学习(RL)方法,用于在数小时甚至数分钟内微调其模型以执行精确任务。该方法不训练整个模型,而是向最新模型 π-0.6 添加一个“RL token”输出,由小型 actor 和 critic 网络使用,通过 RL 快速学习。这大幅降低了模型微调的时间和计算成本,适用于机器人等需要快速适应新任务的场景。该技术有望加速 AI 在物理世界中的应用部署。AI模型强化学习微调π-0.6机器人Physical Intelligence推荐理由:Physical Intelligence 的 RL 微调方法解决了模型适应新任务耗时长的痛点,做机器人或物理 AI 的团队可以大幅缩短部署周期,值得关注。原文