03:06Jim Fan@DrJimFan精选76°Jim Fan揭秘了物理自动研究系统ENPIRE的设计内幕。安全采用两层硬编码:硬运动学限制立即触发任务失败并自动重置,以及扭矩限制柔性夹爪防止碰撞损坏。奖励函数通过收集成功/失败演示、用计算机视觉分类器编码并冻结在Gym环境中,防止智能体篡改。系统遥测定义了Mean Robot Utilization(MRU)、Mean Token Utilization(MTU)和GPU利用率三个实时指标,并基于Tokens-to-Success和Time-to-Success评估预算效率。AI模型ENPIRE物理自动研究安全机制机器人奖励函数2 个信源在谈推荐理由:Jim Fan讲了他们怎么让8个机器人通宵自动做实验,还防止奖励被篡改,资源利用率指标也很实用。原文
12:00arXiv cs.LG@Zhou Jiang, Yandong Wen, Zhen Liu精选一步式文本到图像生成器(如SD-Turbo)因单次前向传播即可生成图像而备受关注,但其偏好微调面临挑战。现有方法依赖策略似然、去噪轨迹或可微奖励梯度,难以直接应用。研究者提出Drifting Preference Optimization (DrPO),一种在线偏好微调方法,通过从当前生成器采样候选图像,用目标奖励排序,并合成特征空间更新方向(非参数偶极偏好场加参考漂移),实现无需奖励梯度的训练。DrPO在SD-Turbo和SDXL-Turbo上评估,使用HPSv3和GenEval等基准,相比无奖励梯度的一步偏好基线提升了对齐效果,并在匹配有效批次设置下将HPSv3训练计算量降低3.51倍。该方法支持大型、黑箱或不可微奖励,且推理时仍保持单次生成调用。论文一步生成模型偏好优化文本到图像SD-Turbo奖励函数推荐理由:DrPO 解决了单步生成模型偏好微调的核心痛点——无需可微奖励或复杂去噪轨迹,做文本到图像生成的团队可以直接用黑箱奖励提升模型对齐度,训练效率还提升了3倍多,值得关注。原文