AITOP6月11日 15:28
精选
过去 24 小时,从 986 条中筛出 58 条
6月11日
15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
15:07
AITOP6月11日 15:07
10:11
10:11
arXiv cs.LG@Chirag Chawla, Pratinav Seth, Vinay Kumar Sankarapu
精选
推荐理由:做模型安全对齐的团队终于有了跨家族迁移方案——ALIGNBEAM 无需训练即可在推理时转移安全能力,适合需要部署不同系列模型但担心安全退化的开发者直接尝试。
6月9日
12:41
12:41
arXiv cs.AI@Blake Bullwinkel, Eugenia Kim, Amanda Minnich, Mark Russinovich
精选
推荐理由:做AI安全对齐的团队终于有了一个稳定的GRPO攻防协同训练方案,能同时提升攻击发现能力和防御鲁棒性,建议做红队测试的开发者直接参考。
6月2日
12:01
12:01
arXiv cs.AI@Hao Li, Jingkun An, Zijun Song, Pengyu Zhu, Rui Li, Hao Wang, Wendi Feng, Yesheng Liu, Lijun Li, Jin-Ge Yao, Lei Sha
精选
推荐理由:SafeSteer 用极低成本(100 个样本)解决了安全对齐损害通用能力的痛点,做 LLM 安全或对齐的团队可以直接参考其局部化蒸馏方法,大幅减少数据依赖。
6月1日
00:09
AITOP6月1日 00:09
5月29日
5月20日
10:38
10:38
arXiv cs.AI@Isaac David, Arthur Gervais
精选
推荐理由:安全智能体开发者需要了解:去对齐模型在漏洞分析任务上可能提升成功率,但效果因模型而异,且硬核漏洞验证任务仍未解决。建议点开查看具体轨迹数据和任务分类,避免盲目采用去对齐策略。
5月19日
10:14
10:14
arXiv cs.AI@Max Zhang, Ameen Patel, Sang T. Truong, Sanmi Koyejo
精选
推荐理由:这篇论文揭示了多语言安全评估的盲区——低资源语言不一定是安全最薄弱环节,做AI安全对齐的团队值得细看,能帮你避开传统指标误导,精准定位跨语言安全漏洞。
