AITOP6月11日 15:28
精选
过去 24 小时,从 682 条中筛出 42 条
6月11日
15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
15:07
AITOP6月11日 15:07
6月8日
09:18
09:18
arXiv cs.AI@Thanawat Lodkaew, Johannes Ackermann, Soichiro Nishimori, Nontawat Charoenphakdee, Masashi Sugiyama, Takashi Ishida
精选72°
推荐理由:做AI智能体评估和训练的团队终于有了检测作弊的实用工具——CapCode能直接暴露模型是否在走捷径,CapReward则从奖励设计上杜绝作弊,建议做编码智能体评测的开发者点开看看。
6月1日
10:11
10:11
arXiv cs.LG@Nianyi Lin, Jiajie Zhang, Lei Hou, Juanzi Li
精选
推荐理由:长上下文推理是当前大模型的瓶颈,LongTraceRL 用搜索轨迹和细粒度奖励解决了干扰项和奖励稀疏的问题,做推理模型训练或长文档理解的团队可以直接用开源代码复现。
00:09
AITOP6月1日 00:09
5月29日
5月20日
15:34
15:34
arXiv cs.AI@Utkarsh Tyagi, Xingang Guo, MohammadHossein Rezaei, Daniel George, Anas Mahmoud, Jackson Lee, Bing Liu, Yunzhong He
精选
推荐理由:做RLHF或RLVR的团队终于有了更聪明的奖励设计——POW3R解决了静态评分标准浪费训练信号的问题,做多模态或文本模型对齐的开发者可以直接参考实验设置。
5月19日
10:13
10:13
arXiv cs.AI@Shuyin Ouyang, Zhaozhi Qian, Faroq AL-Tam, Muhammad AL-Qurishi, Jie M. Zhang
精选
推荐理由:做代码生成模型训练的团队会发现,静态检查奖励比执行测试更高效且能避免能力悬崖,建议在困难任务上优先采用。
5月13日
19:12
19:12
arXiv cs.AI@Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang, Alborz Geramifard
精选75°
推荐理由:这篇论文为资源受限的团队提供了明确的训练策略——用最强模型做探索、用小模型做部署,做模型压缩或后训练的开发者可以直接参考这个稀疏到稠密的分配原则来提升效率。
