分阶段混合：通过知识蒸馏实现视觉量子强化学习

精选理由

这篇论文用蒸馏方法让量子电路也能搞定视觉强化学习，实验做得扎实，省去从头训练的麻烦。

AI 摘要

论文提出分阶段知识蒸馏(KD)策略，用于视觉量子强化学习(QRL)。先训练经典视觉老师模型，冻结编码器作为特征接口，将老师策略行为蒸馏到紧凑下游头中。下游头可以是经典或变分量子电路(VQC)的。在CartPole Pixels和Acrobot Pixels环境上评估，结果显示浅层VQC头能在直接像素训练困难的情况下获得非平凡视觉控制行为。角度编码VQC头保持接近老师性能(约90%成功率)，而幅度编码头更紧凑(参数减少70%)但更脆弱。

AI 翻译 · 中文

arXiv cs.LGVisual environments are a demanding setting for quantum reinforcement learning (QRL): high-dimensional observations, unstable RL optimisation, and constrained variational quantum circuits (VQCs) are difficult to train jo…

阅读原文