10:27arXiv cs.AI@Yu Xia, Zhouhang Xie, Xin Xu, Byungkyu Kang, Prarit Lamba, Xiang Gao, Julian McAuley精选72°ACTS提出了一种新方法,通过智能体控制器自适应地引导冻结的推理模型,在推理过程中动态调整思考策略和预算,从而在保持生成连续性的同时大幅节省token。该方法将推理引导建模为马尔可夫决策过程,控制器根据推理轨迹和剩余预算发出策略动作。实验表明,ACTS在全思考性能下实现了显著的token节省,并支持不同推理器和任务间的可控精度-效率权衡。代码已开源。论文推理模型token节省智能体可控推理开源/仓库推荐理由:ACTS解决了LLM推理中token浪费和缺乏控制的问题,做推理优化或部署大模型的开发者可以直接用开源代码尝试,实现更经济的推理。原文