AITOP6月11日 15:28
精选
过去 24 小时,从 662 条中筛出 42 条
6月11日
15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
15:07
AITOP6月11日 15:07
6月3日
10:47
10:47
arXiv cs.AI@Rongzhi Zhang, Rui Feng, Zhihan Zhang, Jingfeng Yang, Qingyu Yin, Xin Liu, Zixuan Zhang, Priyanka Nigam, Bing Yin, Tuo Zhao, Chao Zhang
精选
推荐理由:QUBRIC解决了RL在非可验证任务中的核心瓶颈——查询与评分标准不匹配,做RL训练或AI对齐的团队可以直接参考其方法,提升模型在开放推理任务上的表现。
08:03
08:03
LangChain@LangChainAI
精选
推荐理由:做复杂自动化任务的开发者终于有了一个让智能体不跑偏的机制——自动评分+自我修正,建议试试这个新功能。
6月1日
00:09
AITOP6月1日 00:09
5月29日
5月20日
15:34
15:34
arXiv cs.AI@Utkarsh Tyagi, Xingang Guo, MohammadHossein Rezaei, Daniel George, Anas Mahmoud, Jackson Lee, Bing Liu, Yunzhong He
精选
推荐理由:做RLHF或RLVR的团队终于有了更聪明的奖励设计——POW3R解决了静态评分标准浪费训练信号的问题,做多模态或文本模型对齐的开发者可以直接参考实验设置。
5月13日
19:12
19:12
arXiv cs.AI@Anas Mahmoud, MohammadHossein Rezaei, Zihao Wang, Anisha Gunjal, Bing Liu, Yunzhong He
精选
推荐理由:这篇论文揭示了RLHF中一个被低估的风险——模型可能学会刷分而非真正变强。做AI对齐和模型训练的团队值得一读,尤其是那些依赖评分标准进行RL优化的,看完会对验证器设计有更深警惕。
