全部 AI 动态 · AI 热点

6月25日

17:06

17:06IT之家（博客/媒体）

联想昨日在北京发布问天超节点算力解决方案，单节点可搭载40张GPU，FP8算力超过28 PFLOPS，HBM显存突破5.76 TB，满足万亿参数大模型训练与推理。该方案访存总带宽超80TB/s，百纳秒级芯片P2P单向时延，破解万卡级集群通信瓶颈。单节点支持40卡并向下兼容32卡，采用无线缆正交直插架构，集群部署周期压缩至数小时。同时发布万全异构智算平台V5.0，通过分层解耦PD分离和KV Cache共享缓存等技术提升训推性能。

AI产品联想问天 GPU FP8 推理模型

推荐理由：联想新方案单节点塞40张GPU，FP8算力28 PFLOPS，专为万亿参数大模型打造，部署快、扩展灵活，适合大规模训练和推理。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月13日

21:35

21:35DeepSeek: GitHub 新仓库（资讯）

70°

DeepSeek 开源了 DeepGEMM，一个专为 FP8 矩阵乘法设计的高性能库。该库支持密集和 MoE 分组 GEMM，性能优异，在 NVIDIA Hopper GPU 上可达 1350+ TFLOPS。DeepGEMM 采用轻量级即时编译（JIT）方式，核心代码仅约 300 行，但通过精细的调优实现了接近理论峰值的性能。对于使用 FP8 进行训练或推理的团队，这是一个可以直接集成的高效工具。

AI产品 DeepGEMM FP8 矩阵乘法开源/仓库高性能计算

推荐理由：DeepGEMM 解决了 FP8 矩阵乘法的性能瓶颈，做大规模模型训练或推理的团队可以直接集成，获得接近理论峰值的算力利用率，值得一试。

5月12日

19:11

19:11

arXiv cs.AI@Liang Luo, Yinbin Ma, Quanyu Zhu, Vasiliy Kuznetsov, Yuxin Chen, Jian Jiao, Jiecao Yu, Buyun Zhang, Tongyi Tang, Xiaohan Wei, Yanli Zhao, Zeliang Chen, Yuchen Hao, Venkatesh Ranganathan, Sandeep Parab, Yantao Yao, Maxim Naumov, Chunzhi Yang, Shen Li, Ellie Wen, Wenlin Chen, Santanu Kolay, Chunqiang Tang

LoKA（低精度内核应用）框架解决了FP8低精度计算在大型推荐模型（LRM）中的困境。由于LRM对数值敏感且包含大量小矩阵乘法和归一化操作，直接应用FP8会降低模型质量并增加训练时间。LoKA通过系统-模型协同设计，包含三个核心组件：LoKA Probe在线评估每层精度误差，LoKA Mods提供提升数值稳定性的模型修改，LoKA Dispatch动态选择最快且安全的FP8内核。该方法使FP8在推荐模型中实用化，同时保障精度和训练效率。

论文低精度训练 FP8 推荐模型系统-模型协同设计

推荐理由：该研究为推荐系统领域提供了实用的低精度训练方案，解决了FP8在数值敏感场景下的适配难题，对工业级推荐模型的训练加速具有实际参考价值。