12:10arXiv cs.LG@Nathan Gavenski, Juarez Monteiro, Francisco Galuppo, Adriano Veloso, Odinaldo RodriguesPACT是一种混合架构,结合快速反应式RL策略与慢速SLM规划器。它异步调用2B参数SLM生成候选动作计划,经仿真验证安全、可行、完整后直接执行,无需重训练RL策略。在三个难度递增的FrozenLake配置上,PACT超越所有基线,表明规划与反应协同比单独使用更强。论文PACTSmall Language ModelReinforcement LearningFrozenLake规划推荐理由:这篇论文提出了PACT,用一个小型语言模型来规划动作,再结合强化学习策略,在FrozenLake上比纯RL效果好,而且不用重训练。原文