09:46arXiv cs.AI@Junsung Park, Hyunjung Shim精选现有驾驶视觉-语言-动作模型(Driving VLA)在轨迹预测时严重忽视视觉特征,原因是任务定义存在结构性缺陷。研究者从逆运动学角度重新设计,要求模型预测未来视觉状态作为边界条件,并引入独立逆运动学网络(交叉注意力条件扩散模型)来抑制对自车状态和文本指令的捷径依赖。仅用0.5B参数,该模型在NAVSIM-v2和nuScenes基准测试中达到7B-8B大模型的轨迹规划性能,尤其在动态驾驶场景(如转弯)中视觉特征利用显著提升。论文Driving VLA逆运动学轨迹预测自动驾驶视觉特征推荐理由:这篇论文用逆运动学原理解决了Driving VLA忽视视觉特征的顽疾,做自动驾驶轨迹规划的团队值得关注——0.5B模型就能达到7B-8B的效果,意味着更低的部署成本和更好的视觉鲁棒性。原文
09:51arXiv cs.AI@Lukas Schelenz, Shobha Rajanna, Denis Gosalci, Lucas Heublein, Jonas Pirkl, Jonathan Ott, Felix Ott, Christopher Mutschler, Tobias Feigl精选该论文研究了在信号处理管道中预测动态运动(如NBA球员轨迹)的挑战,传统方法如ARIMA和卡尔曼滤波难以处理非线性动态。机器学习方法如LSTM、GNN和Transformer提供了更高灵活性,但常未能显式捕捉时间依赖与上下文交互。实验表明,混合LSTM结合上下文信息在2秒预测范围内实现了最低最终位移误差1.51米,优于TCNN、GAT和Transformer,且所需数据和训练时间更少。研究强调没有单一架构在所有指标上最优,需根据任务选择模型。论文轨迹预测LSTMGNNTransformerNBA推荐理由:做运动轨迹预测或动态系统建模的团队,这篇论文对比了主流模型的实际表现,混合LSTM方案在效率和精度上都有亮点,值得参考。原文