精选理由
这篇论文用蒸馏方法让量子电路也能搞定视觉强化学习,实验做得扎实,省去从头训练的麻烦。
论文提出分阶段知识蒸馏(KD)策略,用于视觉量子强化学习(QRL)。先训练经典视觉老师模型,冻结编码器作为特征接口,将老师策略行为蒸馏到紧凑下游头中。下游头可以是经典或变分量子电路(VQC)的。在CartPole Pixels和Acrobot Pixels环境上评估,结果显示浅层VQC头能在直接像素训练困难的情况下获得非平凡视觉控制行为。角度编码VQC头保持接近老师性能(约90%成功率),而幅度编码头更紧凑(参数减少70%)但更脆弱。
AI 翻译 · 中文
论文提出分阶段知识蒸馏(KD)策略,用于视觉量子强化学习(QRL)。先训练经典视觉老师模型,冻结编码器作为特征接口,将老师策略行为蒸馏到紧凑下游头中。下游头可以是经典或变分量子电路(VQC)的。在CartPole Pixels和Acrobot Pixels环境上评估,结果显示浅层VQC头能在直接像素训练困难的情况下获得非平凡视觉控制行为。角度编码VQC头保持接近老师性能(约90%成功率),而幅度编码头更紧凑(参数减少70%)但更脆弱。
Visual environments are a demanding setting for quantum reinforcement learning (QRL): high-dimensional observations, unstable RL optimisation, and constrained variational quantum circuits (VQCs) are difficult to train jo…