英伟达发布GLM-5.2 NVFP4量化版，744B MoE推理编码模型

精选理由

英伟达把GLM-5.2压缩成NVFP4，内存省一大截，推理编码在Blackwell上直接跑，SGLang第一时间就能用。

AI 摘要

英伟达与智谱AI合作，发布了基于GLM-5.2的NVFP4量化检查点。该模型为744B参数混合专家架构（40B活跃参数），专注于推理和编码任务。NVFP4量化通过NVIDIA Model Optimizer实现，在降低内存占用的同时保持前沿推理性能。模型还支持稀疏注意力和IndexShare索引器，实现高效长上下文处理。目前已在Blackwell/Grace Blackwell上通过SGLang提供首日支持。

AI 翻译 · 中文

LMSYS Org (SGLang)🎉 NVIDIA just released an NVFP4 checkpoint of GLM-5.2 from @Zai_org, a 744B MoE (40B active) for reasoning & coding. Day-0 support is live in SGLang! 🤝 @nvidia > NVFP4 quantization via NVIDIA Model Optimizer: frontier…

vLLM06-27 05:54原文
Geek06-26 07:42原文
AWS Machine Learning Blog06-25 16:41原文

查看原推