华为昇腾910C作为国产AI芯片的代表,近期在万亿级大模型训练中实现了关键突破,标志着国产算力在规模化训练能力上迈出了实质性的一步。
首先,深圳市AI团队成功利用昇腾910C集群完成DeepSeek-V4-Pro万亿参数大模型的全参数后训练,验证了国产芯片在超大规模模型训练中的可行性与稳定性(深圳团队用华为昇腾910C成功训练万亿参数大模型DeepSeek-V4-Pro)。紧接着,华为自身也宣布昇腾910C完成了1.6万亿参数模型的全参数后训练,进一步展示了其在算力密度和集群效率上的潜力(昇腾910C完成1.6万亿参数模型全参数后训练,国产AI算力跨越关键门槛)。在技术创新层面,针对LLM推理中Prefill和Decode阶段的资源争用问题,研究者提出了FlexNPU方案,通过透明NPU虚拟化优化资源分配,可有效提升昇腾910C等NPU在动态负载下的利用率(FlexNPU:为LLM动态Prefill-Decode共置的透明NPU虚拟化)。
当前焦点在于,昇腾910C已证明能支撑万亿参数级别的训练任务,但仍需在集群互联效率、软件生态完善度和长稳运行可靠性上持续优化。未来观察点包括:国产AI芯片在更大规模(如10万亿参数)模型上的表现,以及其与英伟达H100/B200等主流芯片的实际性能对比。