AI模型精选

OpenAI Deployment Simulation方法扩展预部署风险评估到智能体编码

OpenAI’s Deployment Simulation Extends Pre-Deployment Risk Assessment to Agentic Coding Through Simulated Tool Calls

精选理由

OpenAI搞了个新方法,用历史对话模拟测试模型,能估算不良行为率,误差才1.5倍,做AI安全评估的朋友可以看看。

AI 摘要

OpenAI于2026年6月16日推出Deployment Simulation方法,通过回放历史对话让新候选模型生成完成并评分,以估计部署时不良行为率。该方法报告了1.5倍中位数乘法误差,将预部署风险评估扩展至智能体编码场景。文章还讨论了该方法的局限性,如无法覆盖所有风险类型。

AI 翻译 · 中文

OpenAI于2026年6月16日推出Deployment Simulation方法,通过回放历史对话让新候选模型生成完成并评分,以估计部署时不良行为率。该方法报告了1.5倍中位数乘法误差,将预部署风险评估扩展至智能体编码场景。文章还讨论了该方法的局限性,如无法覆盖所有风险类型。

marktechpostOpenAI introduced Deployment Simulation on June 16, 2026. The method replays past conversations through a new candidate model before release. It then grades the completions to estimate deployment-time rates of undesired