13:09arXiv cs.AI@Anton Bolychev, Georgiy Malaniya, Sinan Ibrahim, Pavel Osinenko该论文提出了一种新的强化学习训练方法,通过嵌入已有的基线策略来提升训练效率。方法在训练初期依赖基线策略,逐步将控制权转移给可训练的学习策略,最终使学习策略独立运行。理论分析证明了该方法在目标到达概率上的优势,实验表明其在连续控制任务中表现优于或持平于现有方法,且全程保持高目标到达率。论文强化学习策略增强基线策略模型无关连续控制推荐理由:做强化学习训练的团队可以省下从头调参的功夫——用现有基线策略做跳板,训练效率更高且最终策略更强,值得在连续控制任务上试试。原文
10:16arXiv cs.AI@Peihua Mai, Xuanrong Gao, Youlong Ding, Xianglong Du, Wei Liu, Yan Pang精选SharedRequest 是一种针对大语言模型(LLM)的隐私保护推理框架,通过将原始提示与噪声变体混合,并在批量级别进行语义分组,来隐藏敏感信息。该方法无需修改模型架构或访问模型参数,兼容任何LLM。实验表明,与差分隐私基线相比,SharedRequest 的效用提升超过20%,且共享提示机制使查询成本降低最多5倍。该框架解决了现有方法在效用、效率和兼容性上的权衡问题。论文隐私保护LLM推理模型无关批量查询差分隐私推荐理由:做LLM隐私保护的团队终于有了一个无需改模型、不牺牲太多效用的实用方案——批量推理还能省成本,做API服务的开发者值得关注。原文