AITOP6月11日 15:28
精选
过去 24 小时,从 771 条中筛出 49 条
6月11日
15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
15:07
AITOP6月11日 15:07
6月3日
10:45
10:45
arXiv cs.LG@Tao Chen, Gangwei Jiang, Pengyu Cheng, Siyuan Huang, Yihao Liu, Jingwei Ni, Jiaqi Guo, Mengyu Zhou, Kai Tang, Junling Liu, Qinliang Su, Xiaoxi Jiang, Guanjun Jiang
精选
推荐理由:做 LLM 后训练(RFT/RL)的团队终于有了统一的奖励评估框架,不用再为不同任务拼凑规则和检查表了——Skill-RM 用智能体思路动态整合证据,效果还更好,做对齐和强化学习的建议直接看代码。
6月1日
00:09
AITOP6月1日 00:09
