12:03arXiv: DeepSeek@Xiang-Jun Ou, Shuang Liang, Xin-Yu Hu, Rong-Hao Huang, Jing Wang, Shao-Qun Zhang该研究提出一种粒度不确定性分类法,将LLM不确定性归因于输入级、参数级、词元级和解码过程四个源头。研究者将现有21种不确定性量化方法分为贝叶斯、集成、共识和单次推理四类,并在Qwen3、Llama 3.2和DeepSeek-V3三个模型家族上,使用TriviaQA、GSM8K和HumanEval基准进行实验。结果显示,共识方法(Deg和EigV)一致优于其他方法,且更大模型规模与更低不确定性估计相关。该工作为量化LLM不确定性提供了系统诊断工具。论文LLM不确定性量化Qwen3Llama 3.2DeepSeek-V3模型评估1 个信源在谈推荐理由:这篇论文把LLM不确定性拆成四个层面,测了21种方法在多个基准上的效果,结论是共识方法最稳,模型越大越不模糊。原文
09:48arXiv cs.AI@Enrico Cassano, Michał Brzozowski, Zuzanna Dubanowska, Paolo Mandica, Neo Christopher ChungARIADNE是一个无需训练、与适配器无关的动态适配器选择框架。它通过计算每个适配器训练集嵌入的质心,在推理时根据无标签输入与质心的距离选择适配器。在Llama 3.2 1B Instruct上对23个NLP任务测试,恢复了97.44%的上界性能。扩展到44个任务时,平均选择准确率达到89.7%。无需访问适配器内部参数或额外训练。论文ARIADNELlama 3.2PEFT推理路由适配器选择推荐理由:这篇论文提出了ARIADNE,一个不用训练就能自动为输入选对适配器的方法,在Llama 3.2上恢复了97%的上界性能,比现有路由方式更灵活。原文