DWS：隐式动作分块实现平滑连续控制，100%成功率

精选理由

做机器人控制或自动驾驶的团队，DWS解决了强化学习控制信号抖动这个老大难问题，无需增加模型复杂度就能提升安全性和成功率，值得在你们的仿真或实机任务上试试。

AI 摘要

强化学习常产生高频振荡控制信号，影响物理部署的安全与稳定。显式动作分块虽能预测固定轨迹，但会扩大策略输出维度，导致优化困难。本文提出双窗口平滑（DWS）框架，通过隐式动作分块实现平滑连续控制，无需扩展动作空间。DWS包含执行窗口（确保物理平滑）和价值窗口（修正评论家偏差），并引入轻量级时序正则化器。在DeepMind控制套件、工业能源管理及视觉自动驾驶任务中，DWS超越现有方法，实现100%成功率。

AI 翻译 · 中文

arXiv: Google DeepMindReinforcement learning often produces high-frequency oscillatory control signals that undermine the safety and stability required for physical deployment. Explicit action chunking addresses this by predicting fixed-horiz…

阅读原文