AITOP6月11日 15:28
精选
过去 24 小时,从 862 条中筛出 54 条
6月11日
15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
15:07
AITOP6月11日 15:07
11:09
11:09
arXiv cs.AI@Xucong Wang, Ziyu Ma, Yong Wang, Yuxiang Ji, Shidong Yang, Guanhua Chen, Pengkun Wang, Xiangxiang Chu
精选72°
推荐理由:做AI智能体强化学习的团队终于有了更精细的信用分配方法——APPO在13个基准上稳定提升4个点,且不牺牲效率,做多轮工具调用优化的开发者值得一试。
6月5日
12:12
12:12
arXiv cs.AI@Mykyta Ielanskyi, Kajetan Schweighofer, Lukas Aichberger, Sepp Hochreiter
精选
推荐理由:做推理模型RL微调的团队终于有了降低训练方差的实际方案——RREDCoT用模型自身做信用分配,省去额外生成成本,长上下文场景下效果显著,值得关注。
6月1日
00:09
AITOP6月1日 00:09
5月29日
5月14日
13:37
13:37
百川智能 Baichuan@BaichuanAI
精选
推荐理由:做 RLHF 或大模型对齐的团队,SPAR 直接解决了信用分配模糊的痛点,值得深入研究其分阶段优化思路。
