AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:低精度部署×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
09:37
09:37arXiv cs.LG@Mariya Pavlova, Harrison Bo Hua Zhu, Elizsveta Semenova, Yingzhen Li
该论文提出了一种名为轨迹量化敏感度分数(TQS)的新指标,将时序模型的量化问题重新定义为动力系统的稳定性分析。TQS通过将模型推理视为离散时间动力系统,量化了量化误差在时间步上的传播和放大效应。与传统的后训练量化方法不同,TQS可以独立于量化器选择和位宽分配进行敏感度估计,适用于黑盒或编译后的网络。基于TQS,作者提出了TQS-PTQ框架,无需校准数据或二阶近似即可实现混合精度量化。实验表明,该视角在资源受限场景下提供了稳健且高性能的低精度部署方案。
论文量化时序模型动力系统低精度部署混合精度

推荐理由:时序模型部署时量化误差会随时间累积,TQS用动力系统理论解决了这一痛点,做边缘设备或IoT部署的工程师可以直接参考。
原文
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
5月23日
05:18
05:18NVIDIA AI@NVIDIAAI
72°
NVIDIA Research 推出 LongLive-2.0,一个端到端的 NVFP4 训练与推理系统,专门解决长视频生成问题。该系统将 NVFP4 感知训练、蒸馏和 W4A4 推理对齐,弥补了低精度部署中训练与运行之间的差距。在保持基准质量的同时,显著提升了速度和内存效率。这标志着长视频生成从模型问题转向系统问题,为实际部署提供了更高效的方案。
AI模型NVIDIA长视频生成NVFP4训练推理系统低精度部署

推荐理由:长视频生成一直受限于计算和内存瓶颈,NVIDIA 这次从系统层面给出了端到端方案。做视频生成模型训练或部署的团队,可以直接参考这套 NVFP4 对齐方法,提升效率。
原文
精选全部日报登录