14:15IT之家(博客/媒体)哈萨比斯在戛纳创意节受访,回应谷歌AI人才流失质疑。他以Noam Shazeer(《Attention is All You Need》作者之一)为例,指出顶级研究员身价堪比明星运动员。哈萨比斯强调谷歌拥有庞大数据生态、整合硬件体系和大规模TPU集群,是训练下一代前沿模型的核心优势。2023年Google Brain与DeepMind合并后,统一架构进一步集中AI资源。行业DeepMind谷歌TPU哈萨比斯AI人才推荐理由:哈萨比斯亲自讲谷歌怎么留人:有TPU集群、海量数据,还有2023年合并后的统一架构,不是光画饼。原文
03:46Jeff Dean@JeffDean73°Jeff Dean宣布一篇将发表于IEEE Micro 2026年7/8月刊的论文,详细回顾Google从TPU v2到Ironwood共五代训练超算的架构演变。论文披露TPU每芯片每瓦TFLOPS提升了约30倍,每个pod的芯片数从TPU v2的256颗扩增至Ironwood的9216颗。冷却方式从风冷(TPU v2)转为水冷(TPU v3起),互连从2D torus升级为3D torus。论文还指出工作负载已大幅转向Transformer模型。论文TPUGoogleIronwoodAI芯片能效1 个信源在谈推荐理由:想看TPU五代真实进化数据和能效提升细节?这篇论文从256芯片到9216芯片、从风冷到水冷、30倍每瓦算力提升,全是硬货。原文
04:27LMSYS Org (SGLang)@lmsysorg精选73°LMSYS 发表博客详解如何用 SGLang-JAX 在 TPU v7x 上优化 Ling-2.6-1T(1T 参数混合 MoE 模型)。通过 Fused MoE V2 内核将令牌和累加器留在 VMEM 中并双缓冲专家权重,MoE 预填充延迟降低 53%。混合内存池为 10 个全注意力层分配逐令牌 MLA KV,为 70 个 GLA 层分配逐请求循环状态。GLA 线性注意力采用分块并行预填充,单控制器 DP 保持分组 RMS Norm 芯片本地化,无需逐层跨芯片规约。AI模型Ling-2.6-1TTPUSGLang-JAXMoE推理优化推荐理由:LMSYS 和 InclusionAI 联手,用 SGLang-JAX 让 1T 参数 MoE 在 TPU 上跑得快 53%,技术细节都在博客里。原文
07:35IT之家(博客/媒体)据科技媒体 The Information 报道,谷歌正与三星晶圆代工部门洽谈,计划由三星 2nm 工艺代工其下一代 TPU v10 芯片的 I/O Die 部分。谷歌 TPU 与博通联合设计,计算引擎仍由台积电生产,而内存输入输出芯片可能转交三星。此前三星已为谷歌第七代 Ironwood TPU 提供超 60% 的 HBM 内存。若合作达成,谷歌可进一步降低 TPU 成本——其当前性能与英伟达 H100 相当,但成本已低约 80%。此举可能重塑 AI 半导体供应链格局,减少对单一代工厂的依赖。行业谷歌三星TPU2nm 工艺AI 芯片推荐理由:谷歌 TPU 成本优势已让英伟达紧张,若三星 2nm 代工落地,AI 芯片供应链将更分散——做 AI 基础设施的团队值得关注这一变局。原文
22:50rohanpaul_ai@rohanpaul_ai据 The Information 报道,Google 已选择 Intel 为其制造超过 300 万颗 TPU 芯片,计划于 2028 年交付。这对 Intel 的晶圆代工业务是一次重大胜利,使其成为 NVIDIA 主要 AI 竞争对手的工厂。由于 AI 热潮导致芯片需求激增,台积电产能紧张,多家 AI 芯片设计公司转向 Intel 作为第二供应商,以降低供应链风险。此举对 Google、NVIDIA、Apple、Tesla 等公司而言,意味着供应链多元化的重要进展。行业GoogleIntelTPU芯片制造供应链5 个信源在谈推荐理由:AI 芯片供应链正在重构,做 AI 基础设施或依赖 GPU/TPU 的团队值得关注——Intel 代工崛起可能改变未来芯片成本和供应格局。原文
11:15IT之家(博客/媒体)科技媒体 Wccftech 报道,Marvell(美满电子)近期获得谷歌 TPU 定制网络芯片设计订单,该芯片用于连接多个 ASIC 构建同步计算集群,协调数据流与处理拥塞。由于台积电先进节点产能紧张,该芯片可能采用英特尔 18A 或 18AP 制程,预计 2027 年底量产。此前英伟达 CEO 黄仁勋曾预言 Marvell 将成为下一个万亿美元公司,消息后其股价大涨 25%。这一订单标志着 Marvell 在 AI 数据中心网络芯片领域的重要突破,也反映了谷歌对定制化 AI 基础设施的持续投入。行业Marvell谷歌TPU网络芯片AI 数据中心推荐理由:AI 数据中心网络芯片需求激增,做 AI 基础设施或芯片设计的团队值得关注 Marvell 的布局——黄仁勋的预言和谷歌的订单都是信号。原文
00:10小互@imxiaohu精选Midjourney创始人公开表示,团队因采用Google TPU进行训练,研究进度相比使用Nvidia GPU技术栈落后约一年。他称如果回到过去,会从一开始就全部使用Nvidia的方案。这一言论反映了大模型训练中硬件生态适配的隐蔽成本。行业MidjourneyGoogleTPUNvidiaGPUAI训练2 个信源在谈推荐理由:创始人亲述选错硬件的代价原文
10:45IT之家(博客/媒体)精选72°谷歌与全球最大私募股权集团黑石合作,计划在美国成立一家新的AI云公司,初期黑石投入50亿美元股权资本,整体计算投资规模预计约250亿美元。新公司将依托谷歌自研TPU芯片和云能力,挑战CoreWeave等AI算力服务商,被视为谷歌最大规模的对外芯片商业化尝试。目标是在2027年上线500兆瓦容量,相当于一座中等城市的用电需求。此举将加剧谷歌与英伟达在AI算力市场的竞争,黑石作为AI基础设施领域最活跃的投资方之一,已拥有超过1500亿美元数据中心资产。行业谷歌黑石AI云TPU算力服务推荐理由:谷歌终于把TPU推向外部市场,做AI训练和推理的团队将多一个算力选择,值得关注这个250亿美元级别的云服务新玩家。原文
13:37Jeff Dean@JeffDeanGoogle 首席科学家 Jeff Dean 在 Cloud Next 上与 Amin Vahdat 及 AcquiredFM 主持人讨论了新发布的 TPU v8t 和 v8i 芯片。这些芯片专为 AI 训练和推理优化,性能大幅提升。Jeff Dean 在推文中分享了个人兴奋点,并附上博客文章链接。该发布标志着 Google 在 AI 硬件领域的持续投入,对云服务和 AI 开发者意义重大。AI产品TPUGoogleAI 硬件Cloud Next芯片推荐理由:Google 新一代 TPU 发布,AI 训练和推理性能再升级,做大规模模型训练或云服务的团队值得关注,看看 Jeff Dean 最兴奋的点是什么。原文
13:37Jeff Dean@JeffDean精选Google Translate 迎来20周年,Jeff Dean 回顾了其关键里程碑:2006年首次部署基于5-gram语言模型的系统,使用了万亿词级训练数据,是早期大语言模型实践;2016年转向深度神经网络,结合序列到序列模型和自研TPU,推理性能提升30-80倍,延迟降低15-30倍,使服务可覆盖数亿用户;近期又借助Gemini模型进一步优化。这些技术迭代持续提升了翻译质量和全球连接性。AI产品Google Translate机器翻译大语言模型TPU序列到序列推荐理由:Jeff Dean 亲自梳理了 Google Translate 从统计方法到神经网络的两次关键跃迁,做 NLP/翻译系统的开发者能从中看到技术选型的真实演进逻辑,值得一读。原文
00:33Google Developers Blog(博客/媒体)TorchTPU是Google为TPU打造的原生PyTorch运行栈,旨在最小代码改动下实现高性能分布式训练。它采用“Eager First”模式,并利用XLA编译器优化集群训练。项目计划在2026年进一步降低编译开销,支持动态形状和自定义内核,以支持下一代AI模型的扩展。AI产品TPUPyTorchXLA编译器分布式训练Google推荐理由:TorchTPU让PyTorch用户能够更顺畅地迁移到TPU,同时保持Eager模式体验,这对需要TPU算力的大规模AI训练场景有直接价值。原文
00:33Google Developers Blog(博客/媒体)Google的MaxText框架现在支持在单主机TPU上进行监督微调(SFT)和强化学习(RL),利用JAX和Tunix库实现高效模型优化。开发者可通过GRPO和GSPO等算法轻松调整预训练模型以适应专业任务和复杂推理。该更新简化了从单主机到多主机配置的微调流程,为后训练工作流提供了可扩展路径。AI产品微调/RLTPUJAXMaxText推荐理由:这表明Google正在降低TPU上高级模型微调的门槛,让中小规模团队也能在单主机TPU上应用RL算法进行后训练,对AI开发实践有实用价值。原文
00:33Google Developers Blog(博客/媒体)加州大学圣地亚哥分校研究者将DFlash(一种块扩散推测解码方法)成功部署到Google TPU上,通过单次前向传播“绘制”整个候选词块,绕过传统自回归逐步预测的顺序瓶颈。该系统在TPU上实现了平均3.13倍的加速,峰值性能接近现有EAGLE-3方法的两倍。该开源方案已集成至vLLM生态,利用TPU的免费并行验证和高品质草稿预测,显著提升复杂推理任务的效率。AI模型推理加速推测解码TPU开源/仓库vLLM推荐理由:这一工作展示了扩散式推测解码在TPU上的实际落地价值,突破传统推测解码的顺序瓶颈,尤其利好大规模LLM推理场景。开源集成至vLLM有助于行业快速采用。原文