精选理由
自动驾驶长上下文处理的计算瓶颈终于有了架构兼容的解决方案——COMPACT-VA 无需修改骨干网络即可压缩令牌,做端到端自动驾驶的团队值得关注其 3.3 倍加速效果。
针对自动驾驶中视觉-动作模型处理长时序上下文时计算开销过大的问题,本文提出 COMPACT-VA 框架。它基于条件 VQ-VAE 实现规划对齐的令牌压缩,将扩展上下文压缩为有限表示,同时保留决策关键信息。该方法在训练时利用未来轨迹蒸馏规划意图,推理时从压缩观测中预测意图,并与压缩记忆拼接后输入策略网络进行端到端优化。在动态场景下,COMPACT-VA 在相同令牌预算下成功率提升超 6%,并实现 3.3 倍加速和 2.7 倍内存缩减。
AI 翻译 · 中文
针对自动驾驶中视觉-动作模型处理长时序上下文时计算开销过大的问题,本文提出 COMPACT-VA 框架。它基于条件 VQ-VAE 实现规划对齐的令牌压缩,将扩展上下文压缩为有限表示,同时保留决策关键信息。该方法在训练时利用未来轨迹蒸馏规划意图,推理时从压缩观测中预测意图,并与压缩记忆拼接后输入策略网络进行端到端优化。在动态场景下,COMPACT-VA 在相同令牌预算下成功率提升超 6%,并实现 3.3 倍加速和 2.7 倍内存缩减。
Monolithic vision-action models represent an emerging paradigm in autonomous driving. However, this architecture produces token sequences that quickly exceed real-time computational budgets when encoding extended tempora…