PACT：小型语言模型规划提升反应式强化学习在陌生环境中的表现

精选理由

这篇论文提出了PACT，用一个小型语言模型来规划动作，再结合强化学习策略，在FrozenLake上比纯RL效果好，而且不用重训练。

AI 摘要

PACT是一种混合架构，结合快速反应式RL策略与慢速SLM规划器。它异步调用2B参数SLM生成候选动作计划，经仿真验证安全、可行、完整后直接执行，无需重训练RL策略。在三个难度递增的FrozenLake配置上，PACT超越所有基线，表明规划与反应协同比单独使用更强。

AI 翻译 · 中文

arXiv cs.LGReinforcement Learning (RL) policies often degrade in unfamiliar environments because they lack explicit deliberation. We propose Plan, Align, Commit, Think (PACT), a hybrid architecture that combines a fast, reactive RL…

阅读原文