全部 AI 动态 · AI 热点

6月27日

21:12

21:12

LMSYS Org (SGLang)@lmsysorg

精选

英伟达与智谱AI合作，发布了基于GLM-5.2的NVFP4量化检查点。该模型为744B参数混合专家架构（40B活跃参数），专注于推理和编码任务。NVFP4量化通过NVIDIA Model Optimizer实现，在降低内存占用的同时保持前沿推理性能。模型还支持稀疏注意力和IndexShare索引器，实现高效长上下文处理。目前已在Blackwell/Grace Blackwell上通过SGLang提供首日支持。

AI模型 GLM-5.2 NVFP4 NVIDIA SGLang 推理模型

推荐理由：英伟达把GLM-5.2压缩成NVFP4，内存省一大截，推理编码在Blackwell上直接跑，SGLang第一时间就能用。

13:54

13:54

vLLM@vllm_project

精选

NVIDIA发布GLM-5.2的NVFP4检查点，在Blackwell GPU上相比FP8内存占用降低一半。该模型在推理、编码和长上下文基准测试中保持与FP8相同的准确率。用户可通过vLLM直接加载运行：vllm serve nvidia/GLM-5.2-NVFP4。

AI模型 GLM-5.2 NVFP4 vLLM NVIDIA 推理模型

推荐理由：想省显存又不想降精度？GLM-5.2的NVFP4版在vLLM上线了，比FP8省一半内存，推理编码长文本都稳。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月9日

08:05

08:05

NVIDIA AI@NVIDIAAI

精选72°

NVIDIA 在 Blackwell 平台上使用 NVFP4 精度训练了 Llama 3 8B 和 405B 模型。实验结果显示，相比 FP8 精度，NVFP4 实现了 1.31 到 1.73 倍的训练速度提升，且未出现任何精度损失。这一突破意味着大模型训练可以在更短的时间内完成，同时保持模型质量。对于需要大规模训练 AI 模型的团队来说，这能显著降低计算成本和等待时间。

AI模型 NVIDIA Blackwell NVFP4 Llama 3 训练加速

推荐理由：训练速度提升 1.3-1.7 倍且零精度损失，做大规模模型训练的团队可以直接在 Blackwell 上尝试 NVFP4，省时省成本。

5月30日

08:06

08:06

Julien Chaumond@julien_c

NVIDIA 发布了 DeepSeek-V4-Pro-NVFP4 的修复版本，该模型基于 DeepSeek-V4 架构，采用 NVFP4 精度优化，旨在提升推理效率和性能。修复版解决了之前版本中的一些问题，使模型更加稳定可靠。对于使用 NVIDIA 硬件进行 AI 推理的开发者来说，这是一个值得关注的更新。

AI模型 DeepSeek-V4 NVIDIA NVFP4 模型修复推理优化

推荐理由：NVIDIA 官方修复版解决了 DeepSeek-V4 在自家硬件上的精度和稳定性问题，用 NVIDIA GPU 做推理的团队可以直接拉取使用，省去自己调优的麻烦。

5月23日

05:18

05:18

NVIDIA AI@NVIDIAAI

72°

NVIDIA Research 推出 LongLive-2.0，一个端到端的 NVFP4 训练与推理系统，专门解决长视频生成问题。该系统将 NVFP4 感知训练、蒸馏和 W4A4 推理对齐，弥补了低精度部署中训练与运行之间的差距。在保持基准质量的同时，显著提升了速度和内存效率。这标志着长视频生成从模型问题转向系统问题，为实际部署提供了更高效的方案。

AI模型 NVIDIA 长视频生成 NVFP4 训练推理系统低精度部署

推荐理由：长视频生成一直受限于计算和内存瓶颈，NVIDIA 这次从系统层面给出了端到端方案。做视频生成模型训练或部署的团队，可以直接参考这套 NVFP4 对齐方法，提升效率。

5月19日

23:48

23:48

AK@_akhaliq

精选

Nvidia 推出 LongLive-2.0，基于 NVFP4 并行架构，专门用于长视频生成。该基础设施旨在解决长时序视频生成的计算瓶颈，提升生成效率。与以往方案相比，LongLive-2.0 能够处理更长时间的视频序列。

AI产品 Nvidia LongLive-2.0 NVFP4 视频生成并行计算

推荐理由：Nvidia 开源长视频生成框架