03:06Jim Fan@DrJimFan精选76°Jim Fan揭秘了物理自动研究系统ENPIRE的设计内幕。安全采用两层硬编码:硬运动学限制立即触发任务失败并自动重置,以及扭矩限制柔性夹爪防止碰撞损坏。奖励函数通过收集成功/失败演示、用计算机视觉分类器编码并冻结在Gym环境中,防止智能体篡改。系统遥测定义了Mean Robot Utilization(MRU)、Mean Token Utilization(MTU)和GPU利用率三个实时指标,并基于Tokens-to-Success和Time-to-Success评估预算效率。AI模型ENPIRE物理自动研究安全机制机器人奖励函数2 个信源在谈推荐理由:Jim Fan讲了他们怎么让8个机器人通宵自动做实验,还防止奖励被篡改,资源利用率指标也很实用。原文