局部总体风险证书:一种风险可控的模型更新方法

On Local Population-Risk Certificates

精选理由

这篇论文用置信带兜底,保证模型更新不会越改越差,适合需要稳妥迭代的场景。

AI 摘要

本文提出局部总体风险证书(Local Population-Risk Certificates),为当前模型θ周围的候选方向v∈D构建ℓ_{θ+v}-ℓ_θ的两面置信带。该证书的上端点作为风险控制更新规则:仅当上端点非正时才接受更新,否则保留当前模型。这种方法保证了更新不会增加总体风险,为安全模型更新提供了理论保障。

AI 翻译 · 中文

本文提出局部总体风险证书(Local Population-Risk Certificates),为当前模型θ周围的候选方向v∈D构建ℓ_{θ+v}-ℓ_θ的两面置信带。该证书的上端点作为风险控制更新规则:仅当上端点非正时才接受更新,否则保留当前模型。这种方法保证了更新不会增加总体风险,为安全模型更新提供了理论保障。

arXiv cs.LGThis paper develops local certificates for population-risk increments around a current model. For a local candidate set \(\mathcal D\), the certificate is a two-sided confidence band for \(P({\ell_{θ+v}-\ell_θ})\) over \