policy

§ 01综述

Policy（策略）在人工智能中通常指智能体根据状态选择动作的决策规则，是强化学习与机器人控制的核心组件。近期多篇学术工作聚焦于策略的泛化能力、持续改进与自蒸馏技术，同时实际应用中也出现了策略相关的部署错误问题。

Policy 近期进展

弱到强泛化通过Direct On-Policy Distillation：该研究提出了一种直接基于在线策略的蒸馏方法，使弱策略能够引导强策略的泛化，提升了策略迁移效率。原文标题

FAR: 失败感知重试框架实现测试时恢复与持续策略改进：2025年7月发表的FAR框架允许智能体在测试阶段检测失败并自动重试，从而持续改进策略，无需离线训练。原文标题

R²LPL：通过错误回滚与终身学习实现自动驾驶策略持续改进：该工作结合错误回滚机制与终身学习，使自动驾驶策略能在部署后持续适应新场景，相关实验于2025年6月发布。原文标题

On-Policy Self-Distillation with Sampled Demonstrations Reduces Output Diversity：研究发现，使用采样演示的在线自蒸馏虽然提升效率，但会降低策略输出的多样性，引发对探索能力的担忧。原文标题

当前焦点与观察点

当前Policy研究呈现两条主线：一是通过蒸馏和终身学习提升策略的泛化性与部署后适应能力；二是关注策略多样性下降的风险。此外，实际系统如Claude Code for Web出现的“GitHub被出口策略阻止”错误，提示策略（policy）在AI工具与外部平台交互时可能因权限限制引发运行异常。未来，如何在高效改进策略与保持探索多样性之间取得平衡，将成为关键课题。

§ 02相关报道10 条在档

§ 03邻近话题