11:48宝玉@dotey88°Anthropic 指控阿里巴巴旗下通义千问实验室在4月22日至6月5日期间,通过约25,000个虚假账号对 Claude 进行了超过2880万次交互,目标锁定 Claude 的软件工程和 Agent 推理能力。这一规模是今年2月 Anthropic 点名的 DeepSeek、MiniMax 和 Moonshot AI 三家总交互量(1600万次)的近两倍。所谓蒸馏攻击指利用对手模型输出训练自有模型,绕过独立研发成本。Anthropic 称这是系统性、工业化规模的能力收割。该事件恰逢美国商务部以国家安全为由限制 Anthropic 的 Fable 5 和 Mythos 5 模型访问,Anthropic 处境复杂。行业AnthropicClaude通义千问阿里巴巴蒸馏攻击推理模型10 个信源在谈推荐理由:Anthropic 跑出来告状了,说阿里用了两万多个假账号狂薅 Claude 的羊毛,次数比之前三家加起来还多一倍,还牵扯到美国商务部自己的限制令,挺拧巴。原文
11:16arXiv cs.AI@Youssef Allouah, Mahdi Haghifam, Sanmi Koyejo, Reza Shokri精选本文通过最小最大博弈框架研究模型蒸馏攻击中的部署权衡:模型输出越有用,越容易被模仿。作者提出自适应评估规则,学生可重加权高价值样本;同时设计教师端防御模板,抑制最易被蒸馏的输出。基于示例价值的廉价代理,提出Product-of-Experts (PoE) 防御,仅需前向传播即可结合教师与代理学生。实验表明,自适应评估揭示被动与自适应攻击的巨大差距:在GSM8K和MATH上,自适应学生恢复的能力远超被动评估。PoE在成本远低于现有防御的情况下,鲁棒性差距显著缩小,且保留更高质量的推理轨迹。代码已开源。论文蒸馏攻击模型安全自适应攻击防御机制博弈论推荐理由:这篇论文戳破了蒸馏防御的假象——被动评估下的鲁棒性在自适应攻击面前不堪一击。做模型安全或部署的团队,建议用文中的自适应评估框架重新审视你的防御方案。原文