12:03arXiv: DeepSeek@Xiang-Jun Ou, Shuang Liang, Xin-Yu Hu, Rong-Hao Huang, Jing Wang, Shao-Qun Zhang该研究提出一种粒度不确定性分类法,将LLM不确定性归因于输入级、参数级、词元级和解码过程四个源头。研究者将现有21种不确定性量化方法分为贝叶斯、集成、共识和单次推理四类,并在Qwen3、Llama 3.2和DeepSeek-V3三个模型家族上,使用TriviaQA、GSM8K和HumanEval基准进行实验。结果显示,共识方法(Deg和EigV)一致优于其他方法,且更大模型规模与更低不确定性估计相关。该工作为量化LLM不确定性提供了系统诊断工具。论文LLM不确定性量化Qwen3Llama 3.2DeepSeek-V3模型评估1 个信源在谈推荐理由:这篇论文把LLM不确定性拆成四个层面,测了21种方法在多个基准上的效果,结论是共识方法最稳,模型越大越不模糊。原文
09:48arXiv cs.AI@Enrico Cassano, Michał Brzozowski, Zuzanna Dubanowska, Paolo Mandica, Neo Christopher ChungARIADNE是一个无需训练、与适配器无关的动态适配器选择框架。它通过计算每个适配器训练集嵌入的质心,在推理时根据无标签输入与质心的距离选择适配器。在Llama 3.2 1B Instruct上对23个NLP任务测试,恢复了97.44%的上界性能。扩展到44个任务时,平均选择准确率达到89.7%。无需访问适配器内部参数或额外训练。论文ARIADNELlama 3.2PEFT推理路由适配器选择推荐理由:这篇论文提出了ARIADNE,一个不用训练就能自动为输入选对适配器的方法,在Llama 3.2上恢复了97%的上界性能,比现有路由方式更灵活。原文
08:37elvis@omarsar0精选76°Meta 提出 AIRA 智能体系统,通过两个分工明确的智能体(AIRA-Compose 负责宏观架构搜索,AIRA-Design 负责底层机制实现),在 24 小时计算预算内自主发现了超越 Llama 3.2 的神经网络架构(350M、1B、3B 规模)。该方法将策略制定与实现分离,相比单端到端智能体在真实搜索任务上表现更优。论文已公开,对架构搜索和智能体设计有重要参考价值。论文MetaAIRA神经网络架构搜索智能体Llama 3.2推荐理由:做架构搜索或智能体系统的开发者值得一看——AIRA 用双智能体分工策略解决了搜索效率问题,而且思路可以迁移到管道组装、查询规划等场景,直接参考论文实现。原文