10:20arXiv cs.LG@Graham Gibson, John Tipton, Kellin Rumsey, Natalie KleinRibbon是一种针对Dirichlet重加权bootstrap的可扩展近似方法,通过单次拟合模型后的影响函数线性化替代重复重拟合。该方法仅需事后线性代数运算即可保持贝叶斯bootstrap的一阶数据重加权结构,并可通过验证数据调整不确定性尺度。在合成回归、MNIST分类和California Housing基准测试中,Ribbon在避免重复模型训练的同时提供了有竞争力的预测性能和改进的校准效果。论文Ribbon不确定性量化贝叶斯推断近似推断推荐理由:Ribbon用一种巧妙的线性化技巧,让你不用反复训练就能估算模型的不确定性,而且结果和更复杂的bootstrap差不多。原文
09:32arXiv cs.AI@Divake Kumar, Sina Tayebati, Devashri Naik, Amanda Sofie Rios, Nilesh Ahuja, Omesh Tickoo, Ranganath Krishnan, Amit Ranjan TrivediArgus基准系统评估了4个VLM智能体和4个数据集上27种开箱不确定性量化方法,以及3个闭源供应商的8种方法。主要发现是UQ排名在固定模型下跨数据集稳定(Spearman rho最高0.969),但跨模型类和接口时衰减。隐状态和密度法在开箱族中最稳定,而CoCoA-1MCA、Focus等方法在特定场景胜出。闭源UQ需在目标上重新排序,平均转移相关性仅+0.08。校准后局部加权盘半径缩小40-60%,但校准-测试不匹配时覆盖度下降。论文ArgusVLMGUI定位不确定性量化计算机使用智能体推荐理由:这篇论文搞了个Argus基准,比较了27种不确定性方法在4个VLM模型和4个GUI数据集上的表现。结论很实在:方法排名换模型就不灵了,闭源还得单独测。做智能体部署的可以看看。原文
12:03arXiv: DeepSeek@Xiang-Jun Ou, Shuang Liang, Xin-Yu Hu, Rong-Hao Huang, Jing Wang, Shao-Qun Zhang该研究提出一种粒度不确定性分类法,将LLM不确定性归因于输入级、参数级、词元级和解码过程四个源头。研究者将现有21种不确定性量化方法分为贝叶斯、集成、共识和单次推理四类,并在Qwen3、Llama 3.2和DeepSeek-V3三个模型家族上,使用TriviaQA、GSM8K和HumanEval基准进行实验。结果显示,共识方法(Deg和EigV)一致优于其他方法,且更大模型规模与更低不确定性估计相关。该工作为量化LLM不确定性提供了系统诊断工具。论文LLM不确定性量化Qwen3Llama 3.2DeepSeek-V3模型评估1 个信源在谈推荐理由:这篇论文把LLM不确定性拆成四个层面,测了21种方法在多个基准上的效果,结论是共识方法最稳,模型越大越不模糊。原文
10:42arXiv cs.LG@Yuhui Yin, Vassilis M. Charitopoulos论文提出Generative Robust Optimisation (GRO)框架,用深度生成模型(如Wasserstein Adversarial Autoencoder)的解码器图像作为不确定性集,能表达非线性、非对称和多模态依赖。框架包含五个评估标准:重建保真度、分布匹配、潜在空间规整性、鲁棒相关性和计算可处理性。在六个不确定性分布和六种生成架构的生产规划问题以及多周期设施选址实验中,系统关注全部五个标准能同时提升不确定性集的表达力和优化可解性。论文Generative Robust Optimisation鲁棒优化生成模型不确定性量化Wasserstein Adversarial Autoencoder推荐理由:这篇论文用生成模型替换传统固定形状的不确定性集,给出了五个可操作的评估标准,生产规划实验数据扎实,搞鲁棒优化或不确定性量化的值得看看。原文
11:22arXiv cs.LG@Ion Matei, Maksym Zhenirovskyy, Takuya Kurihana, Rohit Vupala, Anthony Wong该研究提出了一种结合混合神经网络-元胞自动机火灾模型与梯度优化方法的空中灭火规划框架。模型利用地形、燃料和风数据预测火灾蔓延,并通过连续参数优化确定空中投放位置和方向。水和阻燃剂分别模拟即时灭火和持久抑制效果。基于2020年Bear Fire的案例验证表明,该框架能生成有效的空中灭火计划,减少火灾影响面积,并支持不确定性分析。论文CNN元胞自动机火灾预测空中灭火不确定性量化推荐理由:做火灾应急规划或AI优化决策的团队值得关注——这套框架把预测和干预统一优化,比传统分步方法更高效,且能处理环境不确定性。原文
13:02arXiv cs.AI@Shizhe Lin, Ladan Tahvildari多智能体代码生成系统常因LLM幻觉和错误传播而可靠性不足。现有语义熵方法虽能量化不确定性,但依赖昂贵的LLM等价性检查。新提出的FASE指标通过结构/语义差异图的最小生成树近似功能正确性,无需LLM参与。在HumanEval和BigCodeBench上,FASE相比传统语义熵在Spearman相关性上平均提升25%,ROCAUC提升19%,而计算成本仅为传统方法的0.3%。这使得FASE成为多智能体工作流中实用且经济的质量评估方案。论文代码质量语义熵多智能体LLM不确定性量化推荐理由:多智能体代码生成团队终于有了低成本的质量评估工具——FASE用0.3%的计算成本实现更优的代码正确性预测,做自动化软件开发的工程师可以直接集成到工作流中。原文
11:15arXiv cs.LG@Reda Snaiki, Abdelatif Merabtine该研究提出一种不确定性感知的图神经网络框架,用于从稀疏传感器重建城市每日最高温度场,并支持距离约束的传感器布局和概率超限映射。模型采用图注意力机制和均值-残差架构,通过高斯负对数似然训练,同时预测温度场和空间变化的不确定性场。在蒙特利尔地区的实验中,使用Daymet v4.1数据(1公里分辨率)和严格的时间留出验证,该GNN在10-40个传感器预算下均优于反距离加权和普通克里金法。传感器布局影响在低预算时显著,约30个传感器时达到饱和。该框架为不确定性感知的温度场重建和面向决策的热风险制图提供了有效工具。论文图神经网络温度场重建稀疏传感器不确定性量化城市气候推荐理由:城市气候监测和热风险分析团队终于有了一个兼顾传感器预算和布局约束的实用方案——GNN在稀疏数据下比传统插值法更准,做城市热岛效应或极端高温预警的可以直接参考。原文
11:06arXiv cs.AI@Ieva Raminta Staliūnaitė, James Bishop, Andreas Vlachos精选该论文研究了在大型语言模型(LLM)的错误预测任务中,如何区分输入固有的模糊性(aleatoric uncertainty)与模型知识不足导致的不确定性。作者发现,传统的不确定性量化(UQ)指标在无歧义样本上预测错误更准确,而在有多个合理答案的模糊问题上表现较差。他们提出了一种方法,通过门控专家(Gated Experts)和选择性预测(Selective Prediction)将模糊性标签融入错误预测流程。实验表明,加入模糊性信息后,多个UQ指标在标准数据集上的错误预测性能提升了超过10个PRR点,且效果跨模型族、训练范式和数据集的泛化。论文错误预测不确定性量化模糊性大语言模型选择性预测推荐理由:这篇论文解决了LLM错误预测中一个被忽视的关键问题——输入模糊性会干扰UQ指标的有效性。做模型可靠性评估或安全部署的团队,建议看看他们如何用模糊性标签提升预测精度,直接可用。原文
10:16arXiv cs.LG@Andre Herz, Matthijs Pals, Daniel Durstewitz, Georgia Koppe该研究揭示了混沌系统代理建模中的动态-概率一致性(DPC)差距:追求有限时域概率目标会削弱动力学重建或使预测不确定性脱离局部切向动力学。论文识别了三种机制:核心坍缩、噪声掩盖和盲不确定性。为解决此问题,提出KAFFEE框架,基于可微扩展卡尔曼滤波训练,通过局部预测残差评估似然度,同时通过学习到的局部雅可比矩阵传递协方差。在随机超混沌Lorenz-96系统上,KAFFEE减少了故障模式,改进了动力学不变量重建,并保持了竞争性预测分数。该框架在13个混沌系统上实现了上下文贝叶斯滤波,同时保留了零样本动力学。论文混沌系统代理建模不确定性量化扩展卡尔曼滤波动力学重建推荐理由:做混沌系统建模或动力学重建的研究者,KAFFEE直接解决了概率预测与动力学一致性脱节的痛点,值得在实验中尝试。原文
11:30arXiv cs.AI@Bushi Xiao, Sarvesh Soni, Daisy Zhe Wang精选大型语言模型在临床文本中部署时,可靠地表达自身不确定性至关重要。现有不确定性量化方法多针对开放域生成,无法在长临床文本中定位到token或片段级别。研究者提出Reverse Probing,首个专为临床摘要设计的不确定性量化框架,直接从已有标注摘要中估计token级不确定性,而非采样新输出。该方法将文本作为探针,从四种内部激活中提取不确定性信号,在两个专家标注的临床数据集上超越八种基线方法,AUPRC提升高达4倍,同时降低推理时间和计算成本。特征分析显示,delta能量和邻域上下文是所有模型中最一致的预测因子,为模型如何内部响应无支持的临床内容提供了可解释的洞见。论文不确定性量化临床文本大型语言模型Token级可解释性推荐理由:临床AI部署中,模型能否准确表达不确定性直接关系到患者安全——Reverse Probing让token级不确定性量化首次在临床摘要场景落地,做医疗NLP或AI安全的研究者值得关注。原文
12:24arXiv cs.LG@Bipin Tiwari, Omer San精选贝叶斯逆设计为从稀疏流场观测中推断气动几何形状并量化不确定性提供了理论框架,但传统方法依赖高保真 CFD 模拟进行 MCMC 采样,计算成本极高。本研究将神经算子代理模型直接嵌入 MCMC 推断循环,在准一维喷管流动的贝叶斯逆问题中,证明其能保持后验几何与不确定性分布。使用 Deep Operator Network 替代 CFD 求解器后,总推断时间降至 1 秒以内,加速超过三个数量级。研究还发现几何参数化(如三次 B 样条)对可辨识性和后验条件化起决定性作用。该方法为航空工程中不确定性感知的逆设计提供了实用工作流。论文神经算子贝叶斯逆设计CFD不确定性量化MCMC推荐理由:做 CFD 逆设计或不确定性量化的研究者终于有了一个计算可行的方案——神经算子加速后,贝叶斯推断从小时级降到秒级,建议直接复现论文中的喷管案例。原文
11:48arXiv cs.AI@Federico Torrielli, Peter Schneider-Kamp, Lukas Galke Poech精选该研究针对激活预言机(activation oracles)的自然语言输出,探索了6种不确定性量化方法。实验基于6000个样本,发现bootstrap模式频率在Qwen3-8B和Qwen3.6-27B上校准误差最低(ECE 5.7% vs 25.5%),而log-prob基线可作为低成本快速筛选信号。这项工作填补了激活预言机置信度评估的空白,对依赖模型内部解释的AI安全研究有直接意义。论文激活预言机置信度校准不确定性量化模型可解释性Qwen推荐理由:做模型可解释性研究的团队终于有了可靠的置信度评估方法——bootstrap模式频率比传统log-prob校准误差低近5倍,建议做LLM内部机制分析的开发者直接参考论文代码。原文
11:47arXiv cs.AI@Waleed Razzaq, Yun-Bo Zhao精选论文提出了一种名为 Neuronal Stochastic Attention Circuit (NSAC) 的新型连续时间注意力架构,受线虫神经回路启发,将注意力 logit 计算建模为 Ornstein-Uhlenbeck 随机微分方程的解。该方法通过引入高斯分布到 logits,并利用 logistic-normal 分布传播随机性,实现了对注意力权重的概率化输出。NSAC 结合了高斯负对数似然和认知分离正则化器,能够联合量化偶然不确定性和认知不确定性。实验表明,NSAC 在连续时间函数逼近、多变量回归、长程预测、工业4.0和自动驾驶车道保持等任务中,在保持准确性的同时,提供了校准良好的不确定性估计,并具有神经元级别的可解释性。论文注意力机制不确定性量化生物启发模型连续时间建模可解释性推荐理由:这篇论文为需要可靠不确定性估计的连续时间序列建模场景提供了新思路,做概率机器学习或自动驾驶感知的团队可以关注其神经元级可解释性带来的调试优势。原文
10:22arXiv cs.LG@Yinsong Chen, Samson S. Yu, Zhong Li, Chee Peng Lim精选该论文提出一个统一框架,将贝叶斯神经网络(BNN)后验分布通过Lipschitz连续归因算子映射为解释分布,并引入不确定性感知相关性归因算子(UA-RAO),利用均值、方差、变异系数、分位数和集合聚合度量来总结解释分布。理论部分提供了蒙特卡洛可达性和Wasserstein近似界限。在15类电能质量扰动分类基准上,深度集成与均值UA-RAO相比确定性基线提升了定位性能,其他UA-RAO摘要揭示了点估计归因中缺失的不确定性模式。该框架是领域无关的,可应用于任何BNN与Lipschitz连续归因算子的组合。论文可解释AI贝叶斯神经网络不确定性量化归因算子电能质量推荐理由:该框架解决了XAI方法缺乏不确定性量化的问题,做可解释AI或电力系统故障诊断的研究者可以直接参考其理论证明和实验设计。原文
10:13arXiv cs.AI@Yuxuan Gao, Megan Wang, Yi Ling Yu精选该研究将分裂共形预测和自适应共形推断(ACI)应用于连续AI智能体评估,提供无分布假设的覆盖保证。在24小时预测窗口内,共形区间在所有名义水平上的校准误差低于0.02,ACI在智能体发布后正确将区间扩大35%后重新收敛。研究还开发了多智能体管道的组合不确定性界限、成对排名的共形弃权规则(控制假排名率)以及排行榜级多重检验的FDR校正弃权。通过每小时收集18个实时信号评估50个智能体,发现每个智能体的条件覆盖集中在名义水平附近(均值80.4%,90%的智能体在[72%,90%]内),跨来源情感分歧可预测排名不稳定性(r=0.64, p<0.01)。代码和数据已以CC BY 4.0协议发布。论文AI智能体评估不确定性量化共形预测排行榜统计方法推荐理由:做AI智能体评估或排行榜的团队终于有了统计严谨的不确定性量化工具——无需分布假设即可保证覆盖,还能处理多智能体管道和排名稳定性问题,建议做评估基准的开发者直接看论文和代码。原文
11:18arXiv cs.LG@Seyed Mohamad Moghadas, Esther Rodrigo Bonet, Bruno Cornelis, Adrian Munteanu精选残差误差传播是循环模型中的根本问题,小预测误差随时间累积会降低长程性能。现有深度时序模型虽能高效参数化时变相关性,但常假设误差时间独立并忽略空间相关。本文提出Teger,一种结构化不确定性模块,通过离散Forman曲率识别信息瓶颈边并进行空间曲率感知图重连,结合低秩加对角协方差头,利用Woodbury恒等式保持可推断性。Teger与骨干网络无关,在LSTM、Transformer和xLSTM上对四个真实时空数据集一致提升了连续排名概率分数(CRPS),并从理论上证明了曲率感知重连能缓解过挤压、改善谱连通性、降低有效电阻并改进协方差校准边界。论文时空预测残差误差传播图重连过挤压不确定性量化推荐理由:做时空序列预测的团队终于有了一个能同时处理空间相关性和误差时间累积的通用模块——Teger直接插入现有自回归模型就能提升长程预测可靠性,值得在电力、交通等场景试试。原文
10:39arXiv cs.LG@Paulo C. Marques F., Helton Graziadei精选本文提出了一种偏态自适应共形预测方法,用于回归任务。该方法从以点预测为中心的非对称区间族出发,利用规范方法推导出该区间族诱导的一致性得分。通过对带符号的缩放残差进行逆双曲正弦变换,作为额外预测模型的训练目标,该模型学习预测不确定性如何在特征空间中倾斜。该方法在可交换性假设下保留了分割共形预测的有限样本边际有效性,同时生成适应局部尺度和局部偏态的区间。实验表明,与缩放得分构造和共形分位数回归相比,该方法在预测区间效率上有所提升,且提出的估计器能准确匹配测试样本上的平均宽度比。论文共形预测回归不确定性量化偏态自适应预测区间推荐理由:做回归预测且需要不确定性量化的团队,这篇论文提供了一种能自适应数据偏态的新方法,比传统共形预测区间更高效,值得关注。原文
11:42arXiv cs.LG(学术论文)GRAPHLCP是一种用于图神经网络(GNN)的局部化共形预测框架,能够提供分布无关的不确定性量化保证。现有方法仅依赖嵌入空间邻近性进行局部化,但对图结构不可靠且效率低。GRAPHLCP通过特征感知致密化缓解稀疏图局部偏差,利用个性化PageRank核建模拓扑邻近性,从而捕获局部和长程依赖。实验表明,该方法在有限样本下保证边际覆盖率,并在多种回归和分类数据集上实现高效的测试条件覆盖率。论文图神经网络不确定性量化共形预测拓扑结构个性化PageRank推荐理由:该工作将图拓扑显式融入共形预测的局部化过程,解决了图场景下传统方法嵌入邻近性不可靠的问题,为图神经网络的可靠不确定性量化提供了新方案,对需要鲁棒预测的图应用(如分子性质预测、社交网络分析)具有实用价值。原文