AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:NVFP4×
6月27日
21:12
21:12LMSYS Org (SGLang)@lmsysorg
精选
英伟达与智谱AI合作,发布了基于GLM-5.2的NVFP4量化检查点。该模型为744B参数混合专家架构(40B活跃参数),专注于推理和编码任务。NVFP4量化通过NVIDIA Model Optimizer实现,在降低内存占用的同时保持前沿推理性能。模型还支持稀疏注意力和IndexShare索引器,实现高效长上下文处理。目前已在Blackwell/Grace Blackwell上通过SGLang提供首日支持。
AI模型GLM-5.2NVFP4NVIDIASGLang推理模型

推荐理由:英伟达把GLM-5.2压缩成NVFP4,内存省一大截,推理编码在Blackwell上直接跑,SGLang第一时间就能用。
原文
13:54
13:54vLLM@vllm_project
精选
NVIDIA发布GLM-5.2的NVFP4检查点,在Blackwell GPU上相比FP8内存占用降低一半。该模型在推理、编码和长上下文基准测试中保持与FP8相同的准确率。用户可通过vLLM直接加载运行:vllm serve nvidia/GLM-5.2-NVFP4。
AI模型GLM-5.2NVFP4vLLMNVIDIA推理模型

推荐理由:想省显存又不想降精度?GLM-5.2的NVFP4版在vLLM上线了,比FP8省一半内存,推理编码长文本都稳。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月9日
08:05
08:05NVIDIA AI@NVIDIAAI
精选72°
NVIDIA 在 Blackwell 平台上使用 NVFP4 精度训练了 Llama 3 8B 和 405B 模型。实验结果显示,相比 FP8 精度,NVFP4 实现了 1.31 到 1.73 倍的训练速度提升,且未出现任何精度损失。这一突破意味着大模型训练可以在更短的时间内完成,同时保持模型质量。对于需要大规模训练 AI 模型的团队来说,这能显著降低计算成本和等待时间。
AI模型NVIDIABlackwellNVFP4Llama 3训练加速

推荐理由:训练速度提升 1.3-1.7 倍且零精度损失,做大规模模型训练的团队可以直接在 Blackwell 上尝试 NVFP4,省时省成本。
原文
5月30日
08:06
08:06Julien Chaumond@julien_c
NVIDIA 发布了 DeepSeek-V4-Pro-NVFP4 的修复版本,该模型基于 DeepSeek-V4 架构,采用 NVFP4 精度优化,旨在提升推理效率和性能。修复版解决了之前版本中的一些问题,使模型更加稳定可靠。对于使用 NVIDIA 硬件进行 AI 推理的开发者来说,这是一个值得关注的更新。
AI模型DeepSeek-V4NVIDIANVFP4模型修复推理优化

推荐理由:NVIDIA 官方修复版解决了 DeepSeek-V4 在自家硬件上的精度和稳定性问题,用 NVIDIA GPU 做推理的团队可以直接拉取使用,省去自己调优的麻烦。
原文
5月23日
05:18
05:18NVIDIA AI@NVIDIAAI
72°
NVIDIA Research 推出 LongLive-2.0,一个端到端的 NVFP4 训练与推理系统,专门解决长视频生成问题。该系统将 NVFP4 感知训练、蒸馏和 W4A4 推理对齐,弥补了低精度部署中训练与运行之间的差距。在保持基准质量的同时,显著提升了速度和内存效率。这标志着长视频生成从模型问题转向系统问题,为实际部署提供了更高效的方案。
AI模型NVIDIA长视频生成NVFP4训练推理系统低精度部署

推荐理由:长视频生成一直受限于计算和内存瓶颈,NVIDIA 这次从系统层面给出了端到端方案。做视频生成模型训练或部署的团队,可以直接参考这套 NVFP4 对齐方法,提升效率。
原文
5月19日
23:48
23:48AK@_akhaliq
精选
Nvidia 推出 LongLive-2.0,基于 NVFP4 并行架构,专门用于长视频生成。该基础设施旨在解决长时序视频生成的计算瓶颈,提升生成效率。与以往方案相比,LongLive-2.0 能够处理更长时间的视频序列。
AI产品NvidiaLongLive-2.0NVFP4视频生成并行计算

推荐理由:Nvidia 开源长视频生成框架
原文
精选全部日报登录