03:18NVIDIA AI@NVIDIAAI精选NVIDIA发布DFlash,一种开源轻量级块扩散模型,专为投机解码设计。在NVIDIA Blackwell硬件上,DFlash可实现高达15倍的推理吞吐量提升,同时保持相同的用户交互响应速度。与传统逐token解码不同,DFlash一次生成整个token块,由主模型并行验证。该方案即插即用,已集成到SGLang、TensorRT-LLM和vLLM等框架中。AI模型DFlashNVIDIABlackwell投机解码开源模型8 个信源在谈推荐理由:NVIDIA开源了DFlash,用块扩散投机解码让Blackwell推理提速15倍,还支持SGLang和vLLM,随手就能用。原文
09:48Together AI@togethercompute精选Together AI 发布了基于 Blackwell 的推理引擎,在 AgentPerf 基准测试中,其 TPS 比次快的开源引擎高出 31%。该引擎通过为 Blackwell 的 Tensor Core 指令定制内核实现性能提升。Cursor 已将其实时编程助手部署在该推理栈上。Together AI 在推文中详细介绍了构建过程。AI模型Together AIBlackwell推理引擎编程助手Tensor Core4 个信源在谈推荐理由:Blackwell 上推理快了 31%原文
12:38Dylan Patel (SemiAnalysis)@dylan522p该分析报告对 DeepSeek 推理系统在多种硬件平台上的性能进行了详细评估,包括 NVIDIA GB200 NVL72、Blackwell、AMD MI355X 以及华为的芯片。报告还提供了过去 44 天内每日性能随时间变化的追踪数据。这些数据对于理解不同硬件在 AI 推理任务中的实际表现和稳定性具有重要参考价值,尤其适合关注硬件选型和性能优化的 AI 工程师。行业DeepSeek推理性能GB200 NVL72BlackwellAMD MI355X华为硬件对比10 个信源在谈推荐理由:这份 44 天的性能追踪数据对做 AI 推理部署的团队很有价值,能直观对比 NVIDIA、AMD 和华为硬件的实际表现,建议点开看具体趋势。原文
12:20Tri Dao (FlashAttention)@tri_dao精选WentaoGuo7 提出了一种对混合专家模型(MoE)反向传播的数学重写方法,显著降低了激活内存占用,并大幅提升了训练速度,尤其适用于细粒度MoE。该方法还利用了NVIDIA Blackwell架构的新特性(如2CTA MMA和CLC)来构建超快MoE内核。这一进展对于训练大规模MoE模型的团队具有重要意义,能有效缓解内存瓶颈并加速迭代。AI模型MoE反向传播内存优化Blackwell加速10 个信源在谈推荐理由:做MoE模型训练和推理的开发者,这个数学重写能直接降低你的显存压力并加速训练,尤其适合细粒度MoE场景,建议试试Blackwell新特性带来的性能提升。原文
12:19Tri Dao (FlashAttention)@tri_dao精选一位开发者宣布,快速 muon 优化器即将支持消费级显卡。所有代码均以 matmul + epilogue 形式编写,因此一旦为 Blackwell 消费级显卡实现了主循环,所有高级对称矩阵乘法即可自动获得光速性能。这意味着普通用户也能在自家显卡上高效运行该优化器,无需依赖专业硬件。AI模型muon优化器消费级显卡Blackwell矩阵乘法开源/仓库推荐理由:这个优化器让消费级显卡也能跑出专业级训练性能,做模型微调或自训练的开发者可以直接关注,省下买高端硬件的钱。原文
08:05NVIDIA AI@NVIDIAAI精选72°NVIDIA 在 Blackwell 平台上使用 NVFP4 精度训练了 Llama 3 8B 和 405B 模型。实验结果显示,相比 FP8 精度,NVFP4 实现了 1.31 到 1.73 倍的训练速度提升,且未出现任何精度损失。这一突破意味着大模型训练可以在更短的时间内完成,同时保持模型质量。对于需要大规模训练 AI 模型的团队来说,这能显著降低计算成本和等待时间。AI模型NVIDIABlackwellNVFP4Llama 3训练加速4 个信源在谈推荐理由:训练速度提升 1.3-1.7 倍且零精度损失,做大规模模型训练的团队可以直接在 Blackwell 上尝试 NVFP4,省时省成本。原文