全部 AI 动态 · AI 热点

6月24日

03:18

03:18

NVIDIA AI@NVIDIAAI

精选

NVIDIA发布DFlash，一种开源轻量级块扩散模型，专为投机解码设计。在NVIDIA Blackwell硬件上，DFlash可实现高达15倍的推理吞吐量提升，同时保持相同的用户交互响应速度。与传统逐token解码不同，DFlash一次生成整个token块，由主模型并行验证。该方案即插即用，已集成到SGLang、TensorRT-LLM和vLLM等框架中。

AI模型 DFlash NVIDIA Blackwell 投机解码开源模型

推荐理由：NVIDIA开源了DFlash，用块扩散投机解码让Blackwell推理提速15倍，还支持SGLang和vLLM，随手就能用。

6月17日

07:25

07:25IT之家（博客/媒体）

83°

英伟达在MLPerf Training 6.0七项基准测试中全部夺魁，Blackwell平台成为唯一全覆盖的提交系统。全新GB300 NVL72相比GB200 NVL72同等规模带来1.6倍训练速度提升。CoreWeave使用基于Spectrum-X以太网的GB300 NVL72系统，在8192块GPU规模下将DeepSeek-V3 671B训练耗时缩短至2.02分钟。本次测试首次引入DeepSeek-V3 671B和GPT-OSS-20B两个MoE工作负载，刷新了大规模训练效率纪录。

AI模型 NVIDIA Blackwell DeepSeek-V3 MLPerf 训练基准

推荐理由：英伟达Blackwell平台在MLPerf上把DeepSeek-V3 671B训练时间压到2分钟，比上代快60%，性能真狠。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

10:37

10:37IT之家（博客/媒体）

71°

Tensordyne 发布 Napier 推理系统，宣称能效是 NVIDIA Blackwell 系统的 17 倍，吞吐量达 13 倍。Napier 采用对数数学设计简化乘法运算，由台积电 3nm 制程生产。TDN72 集成 72 颗芯片，机柜级系统可支持 1000 Token/s/user 的 LLM 推理。

AI产品 Tensordyne Napier Blackwell 推理芯片 AI芯片

推荐理由：Tensordyne 搞了个叫 Napier 的推理芯片，用对数数学省掉了乘法，据说比 NVIDIA Blackwell 快 13 倍，能耗还低 17 倍。初创敢叫板老黄，看看值不值。

6月13日

09:48

09:48

Together AI@togethercompute

精选

Together AI 发布了基于 Blackwell 的推理引擎，在 AgentPerf 基准测试中，其 TPS 比次快的开源引擎高出 31%。该引擎通过为 Blackwell 的 Tensor Core 指令定制内核实现性能提升。Cursor 已将其实时编程助手部署在该推理栈上。Together AI 在推文中详细介绍了构建过程。

AI模型 Together AI Blackwell 推理引擎编程助手 Tensor Core

推荐理由：Blackwell 上推理快了 31%

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

12:38

12:38

Dylan Patel (SemiAnalysis)@dylan522p

该分析报告对 DeepSeek 推理系统在多种硬件平台上的性能进行了详细评估，包括 NVIDIA GB200 NVL72、Blackwell、AMD MI355X 以及华为的芯片。报告还提供了过去 44 天内每日性能随时间变化的追踪数据。这些数据对于理解不同硬件在 AI 推理任务中的实际表现和稳定性具有重要参考价值，尤其适合关注硬件选型和性能优化的 AI 工程师。

行业 DeepSeek 推理性能 GB200 NVL72 Blackwell AMD MI355X 华为硬件对比

推荐理由：这份 44 天的性能追踪数据对做 AI 推理部署的团队很有价值，能直观对比 NVIDIA、AMD 和华为硬件的实际表现，建议点开看具体趋势。

12:20

12:20

Tri Dao (FlashAttention)@tri_dao

精选

WentaoGuo7 提出了一种对混合专家模型（MoE）反向传播的数学重写方法，显著降低了激活内存占用，并大幅提升了训练速度，尤其适用于细粒度MoE。该方法还利用了NVIDIA Blackwell架构的新特性（如2CTA MMA和CLC）来构建超快MoE内核。这一进展对于训练大规模MoE模型的团队具有重要意义，能有效缓解内存瓶颈并加速迭代。

AI模型 MoE 反向传播内存优化 Blackwell 加速

推荐理由：做MoE模型训练和推理的开发者，这个数学重写能直接降低你的显存压力并加速训练，尤其适合细粒度MoE场景，建议试试Blackwell新特性带来的性能提升。

12:19

12:19

Tri Dao (FlashAttention)@tri_dao

精选

一位开发者宣布，快速 muon 优化器即将支持消费级显卡。所有代码均以 matmul + epilogue 形式编写，因此一旦为 Blackwell 消费级显卡实现了主循环，所有高级对称矩阵乘法即可自动获得光速性能。这意味着普通用户也能在自家显卡上高效运行该优化器，无需依赖专业硬件。

AI模型 muon优化器消费级显卡 Blackwell 矩阵乘法开源/仓库

推荐理由：这个优化器让消费级显卡也能跑出专业级训练性能，做模型微调或自训练的开发者可以直接关注，省下买高端硬件的钱。

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月9日

08:05

08:05

NVIDIA AI@NVIDIAAI

精选72°

NVIDIA 在 Blackwell 平台上使用 NVFP4 精度训练了 Llama 3 8B 和 405B 模型。实验结果显示，相比 FP8 精度，NVFP4 实现了 1.31 到 1.73 倍的训练速度提升，且未出现任何精度损失。这一突破意味着大模型训练可以在更短的时间内完成，同时保持模型质量。对于需要大规模训练 AI 模型的团队来说，这能显著降低计算成本和等待时间。

AI模型 NVIDIA Blackwell NVFP4 Llama 3 训练加速

推荐理由：训练速度提升 1.3-1.7 倍且零精度损失，做大规模模型训练的团队可以直接在 Blackwell 上尝试 NVFP4，省时省成本。

6月2日

11:20

11:20IT之家（博客/媒体）

精选

英伟达在 2026 台北电脑展上展示了 RTX Spark 平台，其 CPU 部分采用 10 个 Cortex-X925 和 10 个 Cortex-A725 核心，借鉴了联发科天玑 9400 和 8500 的设计。该平台基于台积电 3nm 工艺，GPU 为 Blackwell RTX 架构，拥有 6144 个 CUDA 核心，FP4 AI 性能达 1 PFLOP。支持最高 128GB LPDDR5X 统一内存，CPU-GPU 间 NVLink-C2C 带宽约 600GB/s。软件生态覆盖 CUDA、TensorRT、DLSS 等。这一设计旨在与英特尔、AMD、高通竞争 PC 芯片市场，标志着英伟达在 ARM PC 领域的重大布局。

AI产品英伟达 RTX Spark ARM PC 联发科 Blackwell

推荐理由：英伟达联手联发科打造 ARM PC 芯片，20 核设计直指英特尔和 AMD 的桌面市场，做高性能计算或 AI 开发的 PC 玩家值得关注这一新生态的潜力。