AITOP6月11日 15:28
精选
过去 24 小时,从 336 条中筛出 12 条
6月11日
15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
15:07
AITOP6月11日 15:07
6月1日
00:09
AITOP6月1日 00:09
5月29日
5月20日
15:34
15:34
arXiv cs.AI@Utkarsh Tyagi, Xingang Guo, MohammadHossein Rezaei, Daniel George, Anas Mahmoud, Jackson Lee, Bing Liu, Yunzhong He
精选
推荐理由:做RLHF或RLVR的团队终于有了更聪明的奖励设计——POW3R解决了静态评分标准浪费训练信号的问题,做多模态或文本模型对齐的开发者可以直接参考实验设置。
