09:37arXiv cs.LG@Mariya Pavlova, Harrison Bo Hua Zhu, Elizsveta Semenova, Yingzhen Li该论文提出了一种名为轨迹量化敏感度分数(TQS)的新指标,将时序模型的量化问题重新定义为动力系统的稳定性分析。TQS通过将模型推理视为离散时间动力系统,量化了量化误差在时间步上的传播和放大效应。与传统的后训练量化方法不同,TQS可以独立于量化器选择和位宽分配进行敏感度估计,适用于黑盒或编译后的网络。基于TQS,作者提出了TQS-PTQ框架,无需校准数据或二阶近似即可实现混合精度量化。实验表明,该视角在资源受限场景下提供了稳健且高性能的低精度部署方案。论文量化时序模型动力系统低精度部署混合精度推荐理由:时序模型部署时量化误差会随时间累积,TQS用动力系统理论解决了这一痛点,做边缘设备或IoT部署的工程师可以直接参考。原文
05:18NVIDIA AI@NVIDIAAI72°NVIDIA Research 推出 LongLive-2.0,一个端到端的 NVFP4 训练与推理系统,专门解决长视频生成问题。该系统将 NVFP4 感知训练、蒸馏和 W4A4 推理对齐,弥补了低精度部署中训练与运行之间的差距。在保持基准质量的同时,显著提升了速度和内存效率。这标志着长视频生成从模型问题转向系统问题,为实际部署提供了更高效的方案。AI模型NVIDIA长视频生成NVFP4训练推理系统低精度部署2 个信源在谈推荐理由:长视频生成一直受限于计算和内存瓶颈,NVIDIA 这次从系统层面给出了端到端方案。做视频生成模型训练或部署的团队,可以直接参考这套 NVFP4 对齐方法,提升效率。原文