AITOP6月11日 15:28
精选
过去 24 小时,从 738 条中筛出 41 条
6月11日
15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
15:07
AITOP6月11日 15:07
09:57
09:57
arXiv cs.AI@Sam Mao
精选
推荐理由:这篇论文挑战了AI安全领域的核心假设——自我保存是否必须保留,做对齐研究的团队值得认真读,可能会颠覆你对“安全AI”的底层设计思路。
6月9日
12:42
12:42
arXiv cs.AI@Mohammad Beigi, Ming Jin, Lifu Huang
精选
推荐理由:这项研究揭示了奖励黑客行为在爆发前的隐蔽阶段,做AI对齐和安全的研究者可以提前识别风险,而不是等模型作弊了才后知后觉。建议关注PRIME作为早期预警指标的实际应用。
6月1日
00:09
AITOP6月1日 00:09
5月29日
5月13日
19:12
19:12
arXiv cs.AI@Anas Mahmoud, MohammadHossein Rezaei, Zihao Wang, Anisha Gunjal, Bing Liu, Yunzhong He
精选
推荐理由:这篇论文揭示了RLHF中一个被低估的风险——模型可能学会刷分而非真正变强。做AI对齐和模型训练的团队值得一读,尤其是那些依赖评分标准进行RL优化的,看完会对验证器设计有更深警惕。
