AI模型精选

英伟达发布GLM-5.2 NVFP4量化版,744B MoE推理编码模型

🎉 NVIDIA just released an NVFP4 checkpoint of GLM-…

精选理由

英伟达把GLM-5.2压缩成NVFP4,内存省一大截,推理编码在Blackwell上直接跑,SGLang第一时间就能用。

AI 摘要

英伟达与智谱AI合作,发布了基于GLM-5.2的NVFP4量化检查点。该模型为744B参数混合专家架构(40B活跃参数),专注于推理和编码任务。NVFP4量化通过NVIDIA Model Optimizer实现,在降低内存占用的同时保持前沿推理性能。模型还支持稀疏注意力和IndexShare索引器,实现高效长上下文处理。目前已在Blackwell/Grace Blackwell上通过SGLang提供首日支持。

AI 翻译 · 中文

英伟达与智谱AI合作,发布了基于GLM-5.2的NVFP4量化检查点。该模型为744B参数混合专家架构(40B活跃参数),专注于推理和编码任务。NVFP4量化通过NVIDIA Model Optimizer实现,在降低内存占用的同时保持前沿推理性能。模型还支持稀疏注意力和IndexShare索引器,实现高效长上下文处理。目前已在Blackwell/Grace Blackwell上通过SGLang提供首日支持。

LMSYS Org (SGLang)🎉 NVIDIA just released an NVFP4 checkpoint of GLM-5.2 from @Zai_org, a 744B MoE (40B active) for reasoning & coding. Day-0 support is live in SGLang! 🤝 @nvidia > NVFP4 quantization via NVIDIA Model Optimizer: frontier