全部 AI 动态 · AI 热点

6月23日

11:07

11:07

arXiv cs.AI@Alexander V. Kozachok, Alexander M. Nazimov, Shamil G. Magomedov

该研究扩展了Text2DSL自动生成领域特定语言代码的工作，用DeepSeek-V4-Flash作为教师模型，在结构化上下文（BNF语法、API规范、词汇表）下生成数据，经AST验证（使用esprima）和运行时验证（polkitd与pkcheck）的流水线，将PolkitBench语料从4,204对扩充到10,073对，其中AST有效性达100.0%、运行时通过率99.7%。在GigaChat-10B-A1.8B上对八种消融条件（C0-C7）评估发现：无上下文时语法有效从97.6%降至58.5%而完整上下文仅从98.6%降至97.4%，完整上下文C7在所有指标上最优，词汇表对语义质量贡献最大（组合得分+0.198），API和BNF分别对结构有效性贡献+24.7和+22.3个百分点。

论文 Text2DSL DeepSeek-V4-Flash GigaChat-10B-A1.8B PolkitBench 模型蒸馏

推荐理由：这篇论文用DeepSeek-V4-Flash生成了上万条验证过的Polkit规则，并通过消融实验证明结构化上下文不是锦上添花，词汇表才是提升语义质量的关键。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

11:26

11:26

arXiv cs.LG@Guo Yu, Wenlin Liu, Yulan Hu, Hao-Xuan Ma, Jun-Peng Jiang, Han-Jia Ye

该论文分析了在线策略蒸馏（OPD）在语言和多模态模型中的参数更新特性，发现OPD更新具有稀疏性，主要集中在FFN层，且仅训练这些子网络即可接近完整OPD的性能。更新在几何上是满秩但谱集中的，主要落在源权重接近零的坐标上。研究还发现，密集教师监督下SGD优化器不如AdamW，因为AdamW的自适应缩放对保持异构梯度尺度更有效。这些结果表明，OPD并非简单的密集参数重写，而是保留了策略后训练的几何特征。

论文模型蒸馏稀疏更新优化器对比几何分析 OPD

推荐理由：这篇论文揭示了OPD更新的稀疏性和几何特性，对做模型蒸馏和微调的团队有直接参考价值——你可以只训练关键子网络来节省计算，同时理解为什么AdamW比SGD更优。建议点开看看实验细节。

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月28日

11:55

11:55

arXiv: DeepSeek@Zhaoyang Jiang, Xuanqi Peng, Fei Teng, Zhizhong Fu, Yunsoo Kim, Jiacong Mi, Zicheng Li, Honghan Wu

一项针对医疗问答链式推理（CoT）蒸馏的研究发现，蒸馏后的小模型在最终答案准确率上显著提升（MedQA-USMLE从74.7%到84.4%），但推理步骤的错误率却从30.6%上升到50.3%。研究使用Qwen3-8B作为学生模型，蒸馏自DeepSeek-V3系列教师模型，并通过Kimi-K2.6等LLM裁判和临床专家盲审验证了这一反向趋势。问题根源在于：当答案选项简短、无法约束完整推理时，学生模型能模仿专家风格的推理过程，但无法确保每一步的局部事实正确。标准答案指标和整体回避率无法揭示这一风险。该发现提醒，在医疗等高风险领域，仅用答案准确率评估蒸馏模型是不够的，推理步骤的事实性必须单独审计。

论文链式推理模型蒸馏医疗QA 推理审计 DeepSeek

推荐理由：做医疗AI或模型蒸馏的团队注意了：答案准不等于推理对，蒸馏后步骤错误率反而飙升，临床场景下这是致命隐患。建议点开看看审计方法，避免踩坑。

5月18日

11:50

11:50

arXiv cs.AI@Jin Shi, Brady Zhang, Yishun Lu

精选

VLA-AD提出一种蒸馏框架，利用视觉语言模型作为离线语义监督器，将大型VLA教师模型（如OpenVLA-7B）压缩为轻量级学生策略（158M参数），模型大小减少44倍，推理速度提升3.28倍（12.5 Hz on RTX 4090），性能仅下降0.27%。该方法不仅模仿底层动作，还引入任务阶段锚点和多帧操作方向描述等高层语义信号，仅在训练时使用，测试时学生策略独立运行。在LIBERO基准测试中，VLA-AD对π0.5-4B教师也有效，学生策略在部分任务上甚至超越教师。额外分析表明，语义引导使学生对教师动作噪声（如高频夹爪误操作）更鲁棒。

论文 VLA策略模型蒸馏机器人操控视觉语言模型推理加速

推荐理由：做机器人策略部署的团队终于有了实用的模型压缩方案——VLA-AD用VLM离线语义信号替代在线大模型，7B教师变158M学生，速度3倍提升且性能几乎无损，做实时闭环控制的开发者可以直接参考。