近期,人工智能研究领域涌现出一批以“无需训练”为核心理念的方法,旨在通过改进推理过程或架构设计,在不更新模型参数的前提下提升性能或扩展能力。这些工作主要聚焦于大语言模型(LLM)和扩散模型,涵盖检索增强、图像编辑、视频生成、推理优化及幻觉缓解等多个方向。
- 主要进展包括:
- SARDI 提出一种自增强检索方法,使扩散语言模型在推理时能动态利用自身生成内容作为检索依据,避免了额外训练检索器或模型微调,有效提升了生成质量与知识密度(SARDI:扩散语言模型的自增强检索方法)。
- GeM-NR 针对多视图图像编辑,在无需训练的条件下实现了对非刚性场景(如人体姿态变化)的几何一致编辑,通过优化潜在空间中的特征对齐来完成目标变形与外观迁移(GeM-NR:无需训练的几何感知多视图编辑,支持非刚性场景变化)。
- TunerDiT 关注多事件视频生成,利用渐进式引导策略在扩散Transformer的推理过程中逐帧调节生成轨迹,无需额外训练即可确保多个事件(如动作序列)的连贯性与一致性(TunerDiT:无需训练的多事件视频生成渐进引导方法)。
- 无需训练的循环Transformer 提出在冻结模型上循环使用同一Transformer块多次,通过推理时计算增加深度,从而在语言建模和推理任务中稳定提升性能,验证了“计算即容量”的可行性(无需训练的循环Transformer:冻结模型推理时循环提升性能)。
- ILVAD 与 TRACE 分别利用层间视觉注意力差异和跨层证据轨迹追踪来纠正LVLM与LLM的幻觉,两者均以无需训练的方式在推理阶段抑制错误生成(ILVAD:通过层间视觉注意力差异缓解LVLM幻觉;TRACE:跨层证据轨迹纠正减少大模型幻觉,无需训练)。
- KV-Fold 提出一种推理协议,通过单步KV缓存递归扩展LLM的有效上下文长度,无需训练即可处理超长序列,为解决长文本瓶颈提供了轻量方案(KV-Fold:无需训练的长上下文推理协议,单步KV缓存递归)。
当前焦点:这些方法共同指向“训练-推理”范式的转变——不再依赖大规模预训练或微调,而是通过精心设计的推理算法、架构重用或缓存策略来释放预训练模型的潜能。它们特别适合计算资源受限或需快速部署的场景。
未来观察点:随着无需训练技术的成熟,模型能力可能更多由推理策略而非参数规模决定;同时,这些方法能否与模型缩放规律兼容,以及在不同任务上的泛化边界,将是后续值得关注的问题。