02:20Decoder@Matthias BastianAmazon工程师正在蒸馏Anthropic模型为更小、更便宜的版本供内部使用。从2025年起,Amazon将按处理的token数而非计算小时数向Anthropic付费,这可能大幅推高成本。为应对涨价,Amazon也在评估OpenAI等其他模型供应商。行业AmazonAnthropicOpenAI模型蒸馏token定价10 个信源在谈推荐理由:亚马逊工程师把Anthropic模型蒸馏成小版本来省钱,因为明年起要按token付费了,这招挺实用。原文
12:57IT之家(博客/媒体)Anthropic致信美国参议院,指控阿里巴巴在4月22日至6月5日期间使用约2.5万个欺诈账户进行了2880万次对话,对其Claude模型实施“迄今已知最大规模的蒸馏攻击”。蒸馏是一种利用更强模型输出训练更小模型的技术。然而,Anthropic自家旗舰模型Claude Opus 4.8于5月发布后,被用户发现回答中自称是阿里通义千问(Qwen)或DeepSeek,引发双标争议。埃隆·马斯克也批评Anthropic曾大规模盗用训练数据并支付和解金。行业Anthropic阿里巴巴模型蒸馏Claude Opus 4.8双标争议10 个信源在谈推荐理由:Anthropic刚发的Claude Opus 4.8被揭套壳千问和DeepSeek,转头就告阿里偷模型,马斯克都看不下去了,这瓜绝对值得吃。原文
10:07berryxia@berryxia71°Anthropic向美国白宫提交申请,指控阿里巴巴通过创建近25,000个假账户与Claude进行了2880万次对话(2026年4月22日至6月5日),以蒸馏其模型。Anthropic已屏蔽中国访问,但阿里巴巴仍绕过限制。该事件涉及AI模型安全与跨国竞争问题。行业AnthropicClaude阿里巴巴模型蒸馏AI安全10 个信源在谈推荐理由:Anthropic告状说阿里用两万五假账号和两千八百万次对话薅Claude羊毛,这官司有意思。原文
11:07arXiv cs.AI@Alexander V. Kozachok, Alexander M. Nazimov, Shamil G. Magomedov该研究扩展了Text2DSL自动生成领域特定语言代码的工作,用DeepSeek-V4-Flash作为教师模型,在结构化上下文(BNF语法、API规范、词汇表)下生成数据,经AST验证(使用esprima)和运行时验证(polkitd与pkcheck)的流水线,将PolkitBench语料从4,204对扩充到10,073对,其中AST有效性达100.0%、运行时通过率99.7%。在GigaChat-10B-A1.8B上对八种消融条件(C0-C7)评估发现:无上下文时语法有效从97.6%降至58.5%而完整上下文仅从98.6%降至97.4%,完整上下文C7在所有指标上最优,词汇表对语义质量贡献最大(组合得分+0.198),API和BNF分别对结构有效性贡献+24.7和+22.3个百分点。论文Text2DSLDeepSeek-V4-FlashGigaChat-10B-A1.8BPolkitBench模型蒸馏推荐理由:这篇论文用DeepSeek-V4-Flash生成了上万条验证过的Polkit规则,并通过消融实验证明结构化上下文不是锦上添花,词汇表才是提升语义质量的关键。原文
11:26arXiv cs.LG@Guo Yu, Wenlin Liu, Yulan Hu, Hao-Xuan Ma, Jun-Peng Jiang, Han-Jia Ye该论文分析了在线策略蒸馏(OPD)在语言和多模态模型中的参数更新特性,发现OPD更新具有稀疏性,主要集中在FFN层,且仅训练这些子网络即可接近完整OPD的性能。更新在几何上是满秩但谱集中的,主要落在源权重接近零的坐标上。研究还发现,密集教师监督下SGD优化器不如AdamW,因为AdamW的自适应缩放对保持异构梯度尺度更有效。这些结果表明,OPD并非简单的密集参数重写,而是保留了策略后训练的几何特征。论文模型蒸馏稀疏更新优化器对比几何分析OPD推荐理由:这篇论文揭示了OPD更新的稀疏性和几何特性,对做模型蒸馏和微调的团队有直接参考价值——你可以只训练关键子网络来节省计算,同时理解为什么AdamW比SGD更优。建议点开看看实验细节。原文
11:55arXiv: DeepSeek@Zhaoyang Jiang, Xuanqi Peng, Fei Teng, Zhizhong Fu, Yunsoo Kim, Jiacong Mi, Zicheng Li, Honghan Wu一项针对医疗问答链式推理(CoT)蒸馏的研究发现,蒸馏后的小模型在最终答案准确率上显著提升(MedQA-USMLE从74.7%到84.4%),但推理步骤的错误率却从30.6%上升到50.3%。研究使用Qwen3-8B作为学生模型,蒸馏自DeepSeek-V3系列教师模型,并通过Kimi-K2.6等LLM裁判和临床专家盲审验证了这一反向趋势。问题根源在于:当答案选项简短、无法约束完整推理时,学生模型能模仿专家风格的推理过程,但无法确保每一步的局部事实正确。标准答案指标和整体回避率无法揭示这一风险。该发现提醒,在医疗等高风险领域,仅用答案准确率评估蒸馏模型是不够的,推理步骤的事实性必须单独审计。论文链式推理模型蒸馏医疗QA推理审计DeepSeek推荐理由:做医疗AI或模型蒸馏的团队注意了:答案准不等于推理对,蒸馏后步骤错误率反而飙升,临床场景下这是致命隐患。建议点开看看审计方法,避免踩坑。原文
11:50arXiv cs.AI@Jin Shi, Brady Zhang, Yishun Lu精选VLA-AD提出一种蒸馏框架,利用视觉语言模型作为离线语义监督器,将大型VLA教师模型(如OpenVLA-7B)压缩为轻量级学生策略(158M参数),模型大小减少44倍,推理速度提升3.28倍(12.5 Hz on RTX 4090),性能仅下降0.27%。该方法不仅模仿底层动作,还引入任务阶段锚点和多帧操作方向描述等高层语义信号,仅在训练时使用,测试时学生策略独立运行。在LIBERO基准测试中,VLA-AD对π0.5-4B教师也有效,学生策略在部分任务上甚至超越教师。额外分析表明,语义引导使学生对教师动作噪声(如高频夹爪误操作)更鲁棒。论文VLA策略模型蒸馏机器人操控视觉语言模型推理加速推荐理由:做机器人策略部署的团队终于有了实用的模型压缩方案——VLA-AD用VLM离线语义信号替代在线大模型,7B教师变158M学生,速度3倍提升且性能几乎无损,做实时闭环控制的开发者可以直接参考。原文
23:12Gary Marcus@GaryMarcusAnthropic 发布关于中美 AI 竞赛的报告,认为美国及其盟友可通过限制中国获取先进计算能力和模型输出来锁定 12-24 个月的领先优势。报告指出中国实验室利用漏洞、走私芯片、海外数据中心和蒸馏攻击来追赶美国前沿模型。Anthropic 将计算视为 AI 权力的核心瓶颈,并称蒸馏是系统性工业间谍行为。报告还预测华为 2026 年可能仅生产英伟达总计算能力的 4%,2027 年降至 2%。Anthropic 警告中国 AI 领先可能带来自动化压制、网络攻击和军事 AI 部署等风险。行业AI 竞赛Anthropic芯片封锁模型蒸馏中美关系1 个信源在谈推荐理由:Anthropic 这篇报告把中美 AI 竞赛的博弈逻辑摊开了——芯片封锁和模型蒸馏是核心战场,做 AI 政策、投资或技术战略的人值得细读,能帮你理解未来 2 年行业格局的关键变量。原文