全部 AI 动态 · AI 热点

6月18日

03:06

03:06

Jim Fan@DrJimFan

精选76°

Jim Fan揭秘了物理自动研究系统ENPIRE的设计内幕。安全采用两层硬编码：硬运动学限制立即触发任务失败并自动重置，以及扭矩限制柔性夹爪防止碰撞损坏。奖励函数通过收集成功/失败演示、用计算机视觉分类器编码并冻结在Gym环境中，防止智能体篡改。系统遥测定义了Mean Robot Utilization（MRU）、Mean Token Utilization（MTU）和GPU利用率三个实时指标，并基于Tokens-to-Success和Time-to-Success评估预算效率。

AI模型 ENPIRE 物理自动研究安全机制机器人奖励函数

推荐理由：Jim Fan讲了他们怎么让8个机器人通宵自动做实验，还防止奖励被篡改，资源利用率指标也很实用。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月2日

12:00

12:00

arXiv cs.LG@Zhou Jiang, Yandong Wen, Zhen Liu

精选

一步式文本到图像生成器（如SD-Turbo）因单次前向传播即可生成图像而备受关注，但其偏好微调面临挑战。现有方法依赖策略似然、去噪轨迹或可微奖励梯度，难以直接应用。研究者提出Drifting Preference Optimization (DrPO)，一种在线偏好微调方法，通过从当前生成器采样候选图像，用目标奖励排序，并合成特征空间更新方向（非参数偶极偏好场加参考漂移），实现无需奖励梯度的训练。DrPO在SD-Turbo和SDXL-Turbo上评估，使用HPSv3和GenEval等基准，相比无奖励梯度的一步偏好基线提升了对齐效果，并在匹配有效批次设置下将HPSv3训练计算量降低3.51倍。该方法支持大型、黑箱或不可微奖励，且推理时仍保持单次生成调用。

论文一步生成模型偏好优化文本到图像 SD-Turbo 奖励函数

推荐理由：DrPO 解决了单步生成模型偏好微调的核心痛点——无需可微奖励或复杂去噪轨迹，做文本到图像生成的团队可以直接用黑箱奖励提升模型对齐度，训练效率还提升了3倍多，值得关注。