03:18NVIDIA AI@NVIDIAAI精选NVIDIA发布DFlash,一种开源轻量级块扩散模型,专为投机解码设计。在NVIDIA Blackwell硬件上,DFlash可实现高达15倍的推理吞吐量提升,同时保持相同的用户交互响应速度。与传统逐token解码不同,DFlash一次生成整个token块,由主模型并行验证。该方案即插即用,已集成到SGLang、TensorRT-LLM和vLLM等框架中。AI模型DFlashNVIDIABlackwell投机解码开源模型8 个信源在谈推荐理由:NVIDIA开源了DFlash,用块扩散投机解码让Blackwell推理提速15倍,还支持SGLang和vLLM,随手就能用。原文
07:25IT之家(博客/媒体)83°英伟达在MLPerf Training 6.0七项基准测试中全部夺魁,Blackwell平台成为唯一全覆盖的提交系统。全新GB300 NVL72相比GB200 NVL72同等规模带来1.6倍训练速度提升。CoreWeave使用基于Spectrum-X以太网的GB300 NVL72系统,在8192块GPU规模下将DeepSeek-V3 671B训练耗时缩短至2.02分钟。本次测试首次引入DeepSeek-V3 671B和GPT-OSS-20B两个MoE工作负载,刷新了大规模训练效率纪录。AI模型NVIDIABlackwellDeepSeek-V3MLPerf训练基准9 个信源在谈推荐理由:英伟达Blackwell平台在MLPerf上把DeepSeek-V3 671B训练时间压到2分钟,比上代快60%,性能真狠。原文
10:37IT之家(博客/媒体)71°Tensordyne 发布 Napier 推理系统,宣称能效是 NVIDIA Blackwell 系统的 17 倍,吞吐量达 13 倍。Napier 采用对数数学设计简化乘法运算,由台积电 3nm 制程生产。TDN72 集成 72 颗芯片,机柜级系统可支持 1000 Token/s/user 的 LLM 推理。AI产品TensordyneNapierBlackwell推理芯片AI芯片4 个信源在谈推荐理由:Tensordyne 搞了个叫 Napier 的推理芯片,用对数数学省掉了乘法,据说比 NVIDIA Blackwell 快 13 倍,能耗还低 17 倍。初创敢叫板老黄,看看值不值。原文
09:48Together AI@togethercompute精选Together AI 发布了基于 Blackwell 的推理引擎,在 AgentPerf 基准测试中,其 TPS 比次快的开源引擎高出 31%。该引擎通过为 Blackwell 的 Tensor Core 指令定制内核实现性能提升。Cursor 已将其实时编程助手部署在该推理栈上。Together AI 在推文中详细介绍了构建过程。AI模型Together AIBlackwell推理引擎编程助手Tensor Core4 个信源在谈推荐理由:Blackwell 上推理快了 31%原文
12:38Dylan Patel (SemiAnalysis)@dylan522p该分析报告对 DeepSeek 推理系统在多种硬件平台上的性能进行了详细评估,包括 NVIDIA GB200 NVL72、Blackwell、AMD MI355X 以及华为的芯片。报告还提供了过去 44 天内每日性能随时间变化的追踪数据。这些数据对于理解不同硬件在 AI 推理任务中的实际表现和稳定性具有重要参考价值,尤其适合关注硬件选型和性能优化的 AI 工程师。行业DeepSeek推理性能GB200 NVL72BlackwellAMD MI355X华为硬件对比10 个信源在谈推荐理由:这份 44 天的性能追踪数据对做 AI 推理部署的团队很有价值,能直观对比 NVIDIA、AMD 和华为硬件的实际表现,建议点开看具体趋势。原文
12:20Tri Dao (FlashAttention)@tri_dao精选WentaoGuo7 提出了一种对混合专家模型(MoE)反向传播的数学重写方法,显著降低了激活内存占用,并大幅提升了训练速度,尤其适用于细粒度MoE。该方法还利用了NVIDIA Blackwell架构的新特性(如2CTA MMA和CLC)来构建超快MoE内核。这一进展对于训练大规模MoE模型的团队具有重要意义,能有效缓解内存瓶颈并加速迭代。AI模型MoE反向传播内存优化Blackwell加速10 个信源在谈推荐理由:做MoE模型训练和推理的开发者,这个数学重写能直接降低你的显存压力并加速训练,尤其适合细粒度MoE场景,建议试试Blackwell新特性带来的性能提升。原文
12:19Tri Dao (FlashAttention)@tri_dao精选一位开发者宣布,快速 muon 优化器即将支持消费级显卡。所有代码均以 matmul + epilogue 形式编写,因此一旦为 Blackwell 消费级显卡实现了主循环,所有高级对称矩阵乘法即可自动获得光速性能。这意味着普通用户也能在自家显卡上高效运行该优化器,无需依赖专业硬件。AI模型muon优化器消费级显卡Blackwell矩阵乘法开源/仓库推荐理由:这个优化器让消费级显卡也能跑出专业级训练性能,做模型微调或自训练的开发者可以直接关注,省下买高端硬件的钱。原文
08:05NVIDIA AI@NVIDIAAI精选72°NVIDIA 在 Blackwell 平台上使用 NVFP4 精度训练了 Llama 3 8B 和 405B 模型。实验结果显示,相比 FP8 精度,NVFP4 实现了 1.31 到 1.73 倍的训练速度提升,且未出现任何精度损失。这一突破意味着大模型训练可以在更短的时间内完成,同时保持模型质量。对于需要大规模训练 AI 模型的团队来说,这能显著降低计算成本和等待时间。AI模型NVIDIABlackwellNVFP4Llama 3训练加速4 个信源在谈推荐理由:训练速度提升 1.3-1.7 倍且零精度损失,做大规模模型训练的团队可以直接在 Blackwell 上尝试 NVFP4,省时省成本。原文
11:20IT之家(博客/媒体)精选英伟达在 2026 台北电脑展上展示了 RTX Spark 平台,其 CPU 部分采用 10 个 Cortex-X925 和 10 个 Cortex-A725 核心,借鉴了联发科天玑 9400 和 8500 的设计。该平台基于台积电 3nm 工艺,GPU 为 Blackwell RTX 架构,拥有 6144 个 CUDA 核心,FP4 AI 性能达 1 PFLOP。支持最高 128GB LPDDR5X 统一内存,CPU-GPU 间 NVLink-C2C 带宽约 600GB/s。软件生态覆盖 CUDA、TensorRT、DLSS 等。这一设计旨在与英特尔、AMD、高通竞争 PC 芯片市场,标志着英伟达在 ARM PC 领域的重大布局。AI产品英伟达RTX SparkARM PC联发科Blackwell推荐理由:英伟达联手联发科打造 ARM PC 芯片,20 核设计直指英特尔和 AMD 的桌面市场,做高性能计算或 AI 开发的 PC 玩家值得关注这一新生态的潜力。原文