17:06IT之家(博客/媒体)联想昨日在北京发布问天超节点算力解决方案,单节点可搭载40张GPU,FP8算力超过28 PFLOPS,HBM显存突破5.76 TB,满足万亿参数大模型训练与推理。该方案访存总带宽超80TB/s,百纳秒级芯片P2P单向时延,破解万卡级集群通信瓶颈。单节点支持40卡并向下兼容32卡,采用无线缆正交直插架构,集群部署周期压缩至数小时。同时发布万全异构智算平台V5.0,通过分层解耦PD分离和KV Cache共享缓存等技术提升训推性能。AI产品联想问天GPUFP8推理模型推荐理由:联想新方案单节点塞40张GPU,FP8算力28 PFLOPS,专为万亿参数大模型打造,部署快、扩展灵活,适合大规模训练和推理。原文
21:35DeepSeek: GitHub 新仓库(资讯)70°DeepSeek 开源了 DeepGEMM,一个专为 FP8 矩阵乘法设计的高性能库。该库支持密集和 MoE 分组 GEMM,性能优异,在 NVIDIA Hopper GPU 上可达 1350+ TFLOPS。DeepGEMM 采用轻量级即时编译(JIT)方式,核心代码仅约 300 行,但通过精细的调优实现了接近理论峰值的性能。对于使用 FP8 进行训练或推理的团队,这是一个可以直接集成的高效工具。AI产品DeepGEMMFP8矩阵乘法开源/仓库高性能计算推荐理由:DeepGEMM 解决了 FP8 矩阵乘法的性能瓶颈,做大规模模型训练或推理的团队可以直接集成,获得接近理论峰值的算力利用率,值得一试。原文
19:11arXiv cs.AI@Liang Luo, Yinbin Ma, Quanyu Zhu, Vasiliy Kuznetsov, Yuxin Chen, Jian Jiao, Jiecao Yu, Buyun Zhang, Tongyi Tang, Xiaohan Wei, Yanli Zhao, Zeliang Chen, Yuchen Hao, Venkatesh Ranganathan, Sandeep Parab, Yantao Yao, Maxim Naumov, Chunzhi Yang, Shen Li, Ellie Wen, Wenlin Chen, Santanu Kolay, Chunqiang TangLoKA(低精度内核应用)框架解决了FP8低精度计算在大型推荐模型(LRM)中的困境。由于LRM对数值敏感且包含大量小矩阵乘法和归一化操作,直接应用FP8会降低模型质量并增加训练时间。LoKA通过系统-模型协同设计,包含三个核心组件:LoKA Probe在线评估每层精度误差,LoKA Mods提供提升数值稳定性的模型修改,LoKA Dispatch动态选择最快且安全的FP8内核。该方法使FP8在推荐模型中实用化,同时保障精度和训练效率。论文低精度训练FP8推荐模型系统-模型协同设计推荐理由:该研究为推荐系统领域提供了实用的低精度训练方案,解决了FP8在数值敏感场景下的适配难题,对工业级推荐模型的训练加速具有实际参考价值。原文