测试时计算

§ 01综述

测试时计算（Test-Time Computation）正在成为大语言模型推理能力提升的关键方向。近期研究聚焦于如何在推理阶段动态分配计算资源，以突破模型在复杂任务上的性能瓶颈。

DIRECT框架探索了具身规划中测试时计算的分配时机与空间，提出根据任务难度动态调整计算策略，以减少不必要的计算开销。DIRECT：具身规划中何时何地分配测试时计算

OpenAI推理模型在数论领域取得突破，通过长链推理（长思考）推翻了1946年的Erdős猜想，展示了测试时计算在数学证明中的潜力，引发关于模型能否独立完成前沿研究的讨论。通用LLM通过长思考破解数论难题

Equilibrium Reasoners提出通过学习吸引子（attractor）来增强模型的推理稳定性，使测试时计算更高效，避免传统链式推理中的发散问题。Equilibrium Reasoners：学习吸引子实现可扩展推理

OpenDeepThink采用Bradley-Terry聚合方法，并行生成多个推理路径并择优，显著提升了复杂推理任务的性能，验证了并行扩展测试时计算的有效性。OpenDeepThink：Bradley-Terry聚合实现并行推理扩展

TMAS通过多智能体协同机制，让多个模型在测试时分工协作，共同解决单一模型难以处理的任务，扩展了测试时计算的范式。TMAS: 多智能体协同扩展测试时计算

当前焦点在于：如何在保证性能的同时控制计算成本，以及测试时计算是否适用于所有任务（尤其是一些简单任务可能不需要额外计算）。未来需关注动态分配策略的通用性，以及多智能体协同带来的沟通开销问题。

§ 02相关报道06 条在档

§ 03邻近话题