PACT:小型语言模型规划提升反应式强化学习在陌生环境中的表现

When in Doubt, Plan It Out: Committed Small Language Model Deliberation for Reactive Reinforcement Learning

精选理由

这篇论文提出了PACT,用一个小型语言模型来规划动作,再结合强化学习策略,在FrozenLake上比纯RL效果好,而且不用重训练。

AI 摘要

PACT是一种混合架构,结合快速反应式RL策略与慢速SLM规划器。它异步调用2B参数SLM生成候选动作计划,经仿真验证安全、可行、完整后直接执行,无需重训练RL策略。在三个难度递增的FrozenLake配置上,PACT超越所有基线,表明规划与反应协同比单独使用更强。

AI 翻译 · 中文

PACT是一种混合架构,结合快速反应式RL策略与慢速SLM规划器。它异步调用2B参数SLM生成候选动作计划,经仿真验证安全、可行、完整后直接执行,无需重训练RL策略。在三个难度递增的FrozenLake配置上,PACT超越所有基线,表明规划与反应协同比单独使用更强。

arXiv cs.LGReinforcement Learning (RL) policies often degrade in unfamiliar environments because they lack explicit deliberation. We propose Plan, Align, Commit, Think (PACT), a hybrid architecture that combines a fast, reactive RL