精选理由
Jim Fan讲了他们怎么让8个机器人通宵自动做实验,还防止奖励被篡改,资源利用率指标也很实用。
Jim Fan揭秘了物理自动研究系统ENPIRE的设计内幕。安全采用两层硬编码:硬运动学限制立即触发任务失败并自动重置,以及扭矩限制柔性夹爪防止碰撞损坏。奖励函数通过收集成功/失败演示、用计算机视觉分类器编码并冻结在Gym环境中,防止智能体篡改。系统遥测定义了Mean Robot Utilization(MRU)、Mean Token Utilization(MTU)和GPU利用率三个实时指标,并基于Tokens-to-Success和Time-to-Success评估预算效率。
AI 翻译 · 中文
Jim Fan揭秘了物理自动研究系统ENPIRE的设计内幕。安全采用两层硬编码:硬运动学限制立即触发任务失败并自动重置,以及扭矩限制柔性夹爪防止碰撞损坏。奖励函数通过收集成功/失败演示、用计算机视觉分类器编码并冻结在Gym环境中,防止智能体篡改。系统遥测定义了Mean Robot Utilization(MRU)、Mean Token Utilization(MTU)和GPU利用率三个实时指标,并基于Tokens-to-Success和Time-to-Success评估预算效率。
x.com/DrJimFan/statu… Jim Fan @DrJimFan I made Physical AutoResearch sound simple (conceptually), but it took a village to pull off and lots of design thinking into the robot /loopcraft. The hardest part is everything we…