全部 AI 动态 · AI 热点

6月23日

12:03

12:03

arXiv: DeepSeek@Xiang-Jun Ou, Shuang Liang, Xin-Yu Hu, Rong-Hao Huang, Jing Wang, Shao-Qun Zhang

该研究提出一种粒度不确定性分类法，将LLM不确定性归因于输入级、参数级、词元级和解码过程四个源头。研究者将现有21种不确定性量化方法分为贝叶斯、集成、共识和单次推理四类，并在Qwen3、Llama 3.2和DeepSeek-V3三个模型家族上，使用TriviaQA、GSM8K和HumanEval基准进行实验。结果显示，共识方法（Deg和EigV）一致优于其他方法，且更大模型规模与更低不确定性估计相关。该工作为量化LLM不确定性提供了系统诊断工具。

论文 LLM 不确定性量化 Qwen3 Llama 3.2 DeepSeek-V3 模型评估

推荐理由：这篇论文把LLM不确定性拆成四个层面，测了21种方法在多个基准上的效果，结论是共识方法最稳，模型越大越不模糊。

6月18日

09:48

09:48

arXiv cs.AI@Enrico Cassano, Michał Brzozowski, Zuzanna Dubanowska, Paolo Mandica, Neo Christopher Chung

ARIADNE是一个无需训练、与适配器无关的动态适配器选择框架。它通过计算每个适配器训练集嵌入的质心，在推理时根据无标签输入与质心的距离选择适配器。在Llama 3.2 1B Instruct上对23个NLP任务测试，恢复了97.44%的上界性能。扩展到44个任务时，平均选择准确率达到89.7%。无需访问适配器内部参数或额外训练。

论文 ARIADNE Llama 3.2 PEFT 推理路由适配器选择

推荐理由：这篇论文提出了ARIADNE，一个不用训练就能自动为输入选对适配器的方法，在Llama 3.2上恢复了97%的上界性能，比现有路由方式更灵活。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？