COMPACT-VA：面向长上下文自动驾驶的规划对齐令牌压缩

精选理由

自动驾驶长上下文处理的计算瓶颈终于有了架构兼容的解决方案——COMPACT-VA 无需修改骨干网络即可压缩令牌，做端到端自动驾驶的团队值得关注其 3.3 倍加速效果。

AI 摘要

针对自动驾驶中视觉-动作模型处理长时序上下文时计算开销过大的问题，本文提出 COMPACT-VA 框架。它基于条件 VQ-VAE 实现规划对齐的令牌压缩，将扩展上下文压缩为有限表示，同时保留决策关键信息。该方法在训练时利用未来轨迹蒸馏规划意图，推理时从压缩观测中预测意图，并与压缩记忆拼接后输入策略网络进行端到端优化。在动态场景下，COMPACT-VA 在相同令牌预算下成功率提升超 6%，并实现 3.3 倍加速和 2.7 倍内存缩减。

AI 翻译 · 中文

arXiv cs.AIMonolithic vision-action models represent an emerging paradigm in autonomous driving. However, this architecture produces token sequences that quickly exceed real-time computational budgets when encoding extended tempora…

阅读原文