LLM测试时计算扩展：2年后仍被忽视的教训

精选理由

AI安全评估的盲点被戳穿了——忽视推理预算的RSP和标量评估正在让安全组织措手不及，做AI安全或模型评估的团队值得反思自己的测试框架。

AI 摘要

自OpenAI o1发布以来，业界已知LLM的测试时计算扩展（test-time compute scaling）能显著提升模型性能。然而两年后，实验室仍仅报告标量评估结果，安全组织在发现脚手架通过100倍推理获得更好表现时仍感惊讶，且RSP（责任扩展政策）在决定关键阈值时仍忽略推理预算。这暴露了AI安全评估中的系统性盲点，即未将推理计算量作为关键变量纳入考量。

AI 翻译 · 中文

Noam Brown (OpenAI 推理)We've known about LLM test-time compute scaling since @OpenAI o1. Yet 2 years later labs still report scalar evals for models; safety orgs are still surprised when a scaffold does better via 100x inference; and RSPs stil…

John Schulman06-12 04:51原文
IT之家06-10 06:46原文
Decoder06-10 11:48原文
OpenAI Blog06-10 12:00原文
AI Will06-11 02:43原文
Mira Murati (TML)06-12 04:29原文
Dylan Patel (SemiAnalysis)06-12 04:39原文
Gary Marcus06-13 02:27原文
小互06-14 02:56原文
rohanpaul_ai06-10 13:39原文

查看原推