全部 AI 动态 · AI 热点

6月30日

13:53

13:53

arXiv cs.AI@Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary

论文在Qwen3-14B策略上采用DPO，设置三个保守度β（低、中、高），并在在线适应中使用3×Qwen3-1.7B奖励集成。在GSM8K基准上测量准确率，发现更高保守度单调增加奖励黑客损伤，Goodhart gap及其曲线下面积AUGC的Spearman ρ=1.0。机制分析表明，高β DPO压缩策略熵，导致响应多样性降低，但集成分歧增加且被更快利用。论文进一步拟合幂律曲线，确定了平衡对齐保真度和漏洞的最优保守度β*。

论文 Qwen3-14B DPO GSM8K 推理模型 RLHF

推荐理由：这篇论文用Qwen3-14B和DPO实验证明，离线训练越保守，在线适应越容易翻车，还在GSM8K上给出了最优保守度公式。做RLHF的值得一读。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月9日

11:09

11:09

arXiv cs.LG@Yuling Shi, Caiqi Zhang, Yuexian Li, Haopeng Wang, Yeheng Chen, Nigel Collier, Xiaodong Gu

精选

大型语言模型越来越多地用于代码生成，但静默错误程序带来安全风险。现有不确定性估计方法多继承自自然语言，忽略了代码的三个独特特性：单个错误标记可破坏整个程序（标记脆弱性）、算法意图与具体实现可能不一致（意图-代码差距）、以及程序可执行。研究者提出三个正交不确定性轴：词汇（Top-K token熵）、算法（伪代码一致性）和功能（行为一致性）。在五个代码LLM上，三轴集成将平均AUROC从0.696提升至0.776（+8.1点），且单次Top-K token熵在Qwen3-14B上匹配最强多基线，成本降低3倍以上。这表明代码不确定性估计需要代码特定的设计。

论文代码生成不确定性估计 LLM 安全/可靠性 Qwen3-14B

推荐理由：代码生成的不确定性评估长期被自然语言方法误导，这篇论文给出了三个正交维度，做代码LLM安全评估或部署的团队值得仔细看，能直接改进选择性预测和人工审查流程。