03:46Jeff Dean@JeffDean73°Jeff Dean宣布一篇将发表于IEEE Micro 2026年7/8月刊的论文,详细回顾Google从TPU v2到Ironwood共五代训练超算的架构演变。论文披露TPU每芯片每瓦TFLOPS提升了约30倍,每个pod的芯片数从TPU v2的256颗扩增至Ironwood的9216颗。冷却方式从风冷(TPU v2)转为水冷(TPU v3起),互连从2D torus升级为3D torus。论文还指出工作负载已大幅转向Transformer模型。论文TPUGoogleIronwoodAI芯片能效1 个信源在谈推荐理由:想看TPU五代真实进化数据和能效提升细节?这篇论文从256芯片到9216芯片、从风冷到水冷、30倍每瓦算力提升,全是硬货。原文
04:27LMSYS Org (SGLang)@lmsysorg精选73°LMSYS 发表博客详解如何用 SGLang-JAX 在 TPU v7x 上优化 Ling-2.6-1T(1T 参数混合 MoE 模型)。通过 Fused MoE V2 内核将令牌和累加器留在 VMEM 中并双缓冲专家权重,MoE 预填充延迟降低 53%。混合内存池为 10 个全注意力层分配逐令牌 MLA KV,为 70 个 GLA 层分配逐请求循环状态。GLA 线性注意力采用分块并行预填充,单控制器 DP 保持分组 RMS Norm 芯片本地化,无需逐层跨芯片规约。AI模型Ling-2.6-1TTPUSGLang-JAXMoE推理优化推荐理由:LMSYS 和 InclusionAI 联手,用 SGLang-JAX 让 1T 参数 MoE 在 TPU 上跑得快 53%,技术细节都在博客里。原文
22:50rohanpaul_ai@rohanpaul_ai据 The Information 报道,Google 已选择 Intel 为其制造超过 300 万颗 TPU 芯片,计划于 2028 年交付。这对 Intel 的晶圆代工业务是一次重大胜利,使其成为 NVIDIA 主要 AI 竞争对手的工厂。由于 AI 热潮导致芯片需求激增,台积电产能紧张,多家 AI 芯片设计公司转向 Intel 作为第二供应商,以降低供应链风险。此举对 Google、NVIDIA、Apple、Tesla 等公司而言,意味着供应链多元化的重要进展。行业GoogleIntelTPU芯片制造供应链5 个信源在谈推荐理由:AI 芯片供应链正在重构,做 AI 基础设施或依赖 GPU/TPU 的团队值得关注——Intel 代工崛起可能改变未来芯片成本和供应格局。原文
00:10小互@imxiaohu精选Midjourney创始人公开表示,团队因采用Google TPU进行训练,研究进度相比使用Nvidia GPU技术栈落后约一年。他称如果回到过去,会从一开始就全部使用Nvidia的方案。这一言论反映了大模型训练中硬件生态适配的隐蔽成本。行业MidjourneyGoogleTPUNvidiaGPUAI训练2 个信源在谈推荐理由:创始人亲述选错硬件的代价原文
13:37Jeff Dean@JeffDeanGoogle 首席科学家 Jeff Dean 在 Cloud Next 上与 Amin Vahdat 及 AcquiredFM 主持人讨论了新发布的 TPU v8t 和 v8i 芯片。这些芯片专为 AI 训练和推理优化,性能大幅提升。Jeff Dean 在推文中分享了个人兴奋点,并附上博客文章链接。该发布标志着 Google 在 AI 硬件领域的持续投入,对云服务和 AI 开发者意义重大。AI产品TPUGoogleAI 硬件Cloud Next芯片推荐理由:Google 新一代 TPU 发布,AI 训练和推理性能再升级,做大规模模型训练或云服务的团队值得关注,看看 Jeff Dean 最兴奋的点是什么。原文
13:37Jeff Dean@JeffDean精选Google Translate 迎来20周年,Jeff Dean 回顾了其关键里程碑:2006年首次部署基于5-gram语言模型的系统,使用了万亿词级训练数据,是早期大语言模型实践;2016年转向深度神经网络,结合序列到序列模型和自研TPU,推理性能提升30-80倍,延迟降低15-30倍,使服务可覆盖数亿用户;近期又借助Gemini模型进一步优化。这些技术迭代持续提升了翻译质量和全球连接性。AI产品Google Translate机器翻译大语言模型TPU序列到序列推荐理由:Jeff Dean 亲自梳理了 Google Translate 从统计方法到神经网络的两次关键跃迁,做 NLP/翻译系统的开发者能从中看到技术选型的真实演进逻辑,值得一读。原文