全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月9日

11:09

11:09

arXiv cs.LG@Yuling Shi, Caiqi Zhang, Yuexian Li, Haopeng Wang, Yeheng Chen, Nigel Collier, Xiaodong Gu

精选

大型语言模型越来越多地用于代码生成，但静默错误程序带来安全风险。现有不确定性估计方法多继承自自然语言，忽略了代码的三个独特特性：单个错误标记可破坏整个程序（标记脆弱性）、算法意图与具体实现可能不一致（意图-代码差距）、以及程序可执行。研究者提出三个正交不确定性轴：词汇（Top-K token熵）、算法（伪代码一致性）和功能（行为一致性）。在五个代码LLM上，三轴集成将平均AUROC从0.696提升至0.776（+8.1点），且单次Top-K token熵在Qwen3-14B上匹配最强多基线，成本降低3倍以上。这表明代码不确定性估计需要代码特定的设计。

论文代码生成不确定性估计 LLM 安全/可靠性 Qwen3-14B

推荐理由：代码生成的不确定性评估长期被自然语言方法误导，这篇论文给出了三个正交维度，做代码LLM安全评估或部署的团队值得仔细看，能直接改进选择性预测和人工审查流程。