10:59
10:59
arXiv cs.AI@Shuyi Zhang, Yunfan Lou, Hongyang Cheng, Yichen Guo, Chuyao Fu, Yaoxu Lyu, Xiaojie Zhang, Haoran Li, Pengwei Wang, Zhongyuan Wang, Shanghang Zhang FORCE是一个三阶段框架,通过价值校准热身和自蒸馏来稳定VLA模型的强化学习微调。它解决了Q函数不稳定导致的初期遗忘和低质量探索数据导致的策略更新低效问题。在模拟和真实任务上,FORCE取得了79%的绝对成功率提升,比此前RL方法高出10%,同时训练速度加快32.5%。该框架无需人工干预即可实现稳健性能。
推荐理由:新框架FORCE让机器人学动作更快更稳,成功率飙升79%,比现有RL方法还快32.5%,不用人插手。
10:37
10:37
arXiv cs.LG@Ilia Kulikov, Chenxi Whitehouse, Tianhao Wu, Yixin Nie, Swarnadeep Saha, Eryk Helenowski, Weizhe Yuan, Olga Golovneva, Jack Lanchantin, Yoram Bachrach, Jakob Foerster, Xian Li, Han Fang, Sainbayar Sukhbaatar, Jason Weston 论文提出Autodata方法,让AI代理扮演数据科学家角色,自动构建高质量的训练和评估数据。通过元优化训练数据科学家代理,使其学会生成更优数据。在计算机科学、法律推理和数学对象推理任务上,该方法相比经典合成数据集创建方法取得更优结果。元优化数据科学家代理本身也带来更大性能提升,表明代理式数据创建可将推理计算量转化为高质量模型训练。
推荐理由:这篇论文教你让AI自己当数据科学家,自动造出比手动更好的训练数据,还能越造越强,做研究写代码都能用上。
仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。