全部 AI 动态 · AI 热点

6月24日

14:15

14:15IT之家（博客/媒体）

哈萨比斯在戛纳创意节受访，回应谷歌AI人才流失质疑。他以Noam Shazeer（《Attention is All You Need》作者之一）为例，指出顶级研究员身价堪比明星运动员。哈萨比斯强调谷歌拥有庞大数据生态、整合硬件体系和大规模TPU集群，是训练下一代前沿模型的核心优势。2023年Google Brain与DeepMind合并后，统一架构进一步集中AI资源。

行业 DeepMind 谷歌 TPU 哈萨比斯 AI人才

推荐理由：哈萨比斯亲自讲谷歌怎么留人：有TPU集群、海量数据，还有2023年合并后的统一架构，不是光画饼。

6月19日

03:46

03:46

Jeff Dean@JeffDean

73°

Jeff Dean宣布一篇将发表于IEEE Micro 2026年7/8月刊的论文，详细回顾Google从TPU v2到Ironwood共五代训练超算的架构演变。论文披露TPU每芯片每瓦TFLOPS提升了约30倍，每个pod的芯片数从TPU v2的256颗扩增至Ironwood的9216颗。冷却方式从风冷（TPU v2）转为水冷（TPU v3起），互连从2D torus升级为3D torus。论文还指出工作负载已大幅转向Transformer模型。

论文 TPU Google Ironwood AI芯片能效

推荐理由：想看TPU五代真实进化数据和能效提升细节？这篇论文从256芯片到9216芯片、从风冷到水冷、30倍每瓦算力提升，全是硬货。

6月18日

04:27

04:27

LMSYS Org (SGLang)@lmsysorg

精选73°

LMSYS 发表博客详解如何用 SGLang-JAX 在 TPU v7x 上优化 Ling-2.6-1T（1T 参数混合 MoE 模型）。通过 Fused MoE V2 内核将令牌和累加器留在 VMEM 中并双缓冲专家权重，MoE 预填充延迟降低 53%。混合内存池为 10 个全注意力层分配逐令牌 MLA KV，为 70 个 GLA 层分配逐请求循环状态。GLA 线性注意力采用分块并行预填充，单控制器 DP 保持分组 RMS Norm 芯片本地化，无需逐层跨芯片规约。

AI模型 Ling-2.6-1T TPU SGLang-JAX MoE 推理优化

推荐理由：LMSYS 和 InclusionAI 联手，用 SGLang-JAX 让 1T 参数 MoE 在 TPU 上跑得快 53%，技术细节都在博客里。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

07:35

07:35IT之家（博客/媒体）

据科技媒体 The Information 报道，谷歌正与三星晶圆代工部门洽谈，计划由三星 2nm 工艺代工其下一代 TPU v10 芯片的 I/O Die 部分。谷歌 TPU 与博通联合设计，计算引擎仍由台积电生产，而内存输入输出芯片可能转交三星。此前三星已为谷歌第七代 Ironwood TPU 提供超 60% 的 HBM 内存。若合作达成，谷歌可进一步降低 TPU 成本——其当前性能与英伟达 H100 相当，但成本已低约 80%。此举可能重塑 AI 半导体供应链格局，减少对单一代工厂的依赖。

行业谷歌三星 TPU 2nm 工艺 AI 芯片

推荐理由：谷歌 TPU 成本优势已让英伟达紧张，若三星 2nm 代工落地，AI 芯片供应链将更分散——做 AI 基础设施的团队值得关注这一变局。

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月8日

22:50

22:50

rohanpaul_ai@rohanpaul_ai

据 The Information 报道，Google 已选择 Intel 为其制造超过 300 万颗 TPU 芯片，计划于 2028 年交付。这对 Intel 的晶圆代工业务是一次重大胜利，使其成为 NVIDIA 主要 AI 竞争对手的工厂。由于 AI 热潮导致芯片需求激增，台积电产能紧张，多家 AI 芯片设计公司转向 Intel 作为第二供应商，以降低供应链风险。此举对 Google、NVIDIA、Apple、Tesla 等公司而言，意味着供应链多元化的重要进展。

行业 Google Intel TPU 芯片制造供应链

推荐理由：AI 芯片供应链正在重构，做 AI 基础设施或依赖 GPU/TPU 的团队值得关注——Intel 代工崛起可能改变未来芯片成本和供应格局。

6月4日

11:15

11:15IT之家（博客/媒体）

科技媒体 Wccftech 报道，Marvell（美满电子）近期获得谷歌 TPU 定制网络芯片设计订单，该芯片用于连接多个 ASIC 构建同步计算集群，协调数据流与处理拥塞。由于台积电先进节点产能紧张，该芯片可能采用英特尔 18A 或 18AP 制程，预计 2027 年底量产。此前英伟达 CEO 黄仁勋曾预言 Marvell 将成为下一个万亿美元公司，消息后其股价大涨 25%。这一订单标志着 Marvell 在 AI 数据中心网络芯片领域的重要突破，也反映了谷歌对定制化 AI 基础设施的持续投入。

行业 Marvell 谷歌 TPU 网络芯片 AI 数据中心

推荐理由：AI 数据中心网络芯片需求激增，做 AI 基础设施或芯片设计的团队值得关注 Marvell 的布局——黄仁勋的预言和谷歌的订单都是信号。

5月21日

00:10

00:10

小互@imxiaohu

精选

Midjourney创始人公开表示，团队因采用Google TPU进行训练，研究进度相比使用Nvidia GPU技术栈落后约一年。他称如果回到过去，会从一开始就全部使用Nvidia的方案。这一言论反映了大模型训练中硬件生态适配的隐蔽成本。

行业 Midjourney Google TPU Nvidia GPU AI训练

推荐理由：创始人亲述选错硬件的代价

5月19日

10:45

10:45IT之家（博客/媒体）

精选72°

谷歌与全球最大私募股权集团黑石合作，计划在美国成立一家新的AI云公司，初期黑石投入50亿美元股权资本，整体计算投资规模预计约250亿美元。新公司将依托谷歌自研TPU芯片和云能力，挑战CoreWeave等AI算力服务商，被视为谷歌最大规模的对外芯片商业化尝试。目标是在2027年上线500兆瓦容量，相当于一座中等城市的用电需求。此举将加剧谷歌与英伟达在AI算力市场的竞争，黑石作为AI基础设施领域最活跃的投资方之一，已拥有超过1500亿美元数据中心资产。

行业谷歌黑石 AI云 TPU 算力服务

推荐理由：谷歌终于把TPU推向外部市场，做AI训练和推理的团队将多一个算力选择，值得关注这个250亿美元级别的云服务新玩家。

5月14日

13:37

13:37

Jeff Dean@JeffDean

Google 首席科学家 Jeff Dean 在 Cloud Next 上与 Amin Vahdat 及 AcquiredFM 主持人讨论了新发布的 TPU v8t 和 v8i 芯片。这些芯片专为 AI 训练和推理优化，性能大幅提升。Jeff Dean 在推文中分享了个人兴奋点，并附上博客文章链接。该发布标志着 Google 在 AI 硬件领域的持续投入，对云服务和 AI 开发者意义重大。

AI产品 TPU Google AI 硬件 Cloud Next 芯片

推荐理由：Google 新一代 TPU 发布，AI 训练和推理性能再升级，做大规模模型训练或云服务的团队值得关注，看看 Jeff Dean 最兴奋的点是什么。

13:37

13:37

Jeff Dean@JeffDean

精选

Google Translate 迎来20周年，Jeff Dean 回顾了其关键里程碑：2006年首次部署基于5-gram语言模型的系统，使用了万亿词级训练数据，是早期大语言模型实践；2016年转向深度神经网络，结合序列到序列模型和自研TPU，推理性能提升30-80倍，延迟降低15-30倍，使服务可覆盖数亿用户；近期又借助Gemini模型进一步优化。这些技术迭代持续提升了翻译质量和全球连接性。

AI产品 Google Translate 机器翻译大语言模型 TPU 序列到序列

推荐理由：Jeff Dean 亲自梳理了 Google Translate 从统计方法到神经网络的两次关键跃迁，做 NLP/翻译系统的开发者能从中看到技术选型的真实演进逻辑，值得一读。

5月13日

00:33

00:33Google Developers Blog（博客/媒体）

TorchTPU是Google为TPU打造的原生PyTorch运行栈，旨在最小代码改动下实现高性能分布式训练。它采用“Eager First”模式，并利用XLA编译器优化集群训练。项目计划在2026年进一步降低编译开销，支持动态形状和自定义内核，以支持下一代AI模型的扩展。

AI产品 TPU PyTorch XLA编译器分布式训练 Google

推荐理由：TorchTPU让PyTorch用户能够更顺畅地迁移到TPU，同时保持Eager模式体验，这对需要TPU算力的大规模AI训练场景有直接价值。

00:33

00:33Google Developers Blog（博客/媒体）

Google的MaxText框架现在支持在单主机TPU上进行监督微调（SFT）和强化学习（RL），利用JAX和Tunix库实现高效模型优化。开发者可通过GRPO和GSPO等算法轻松调整预训练模型以适应专业任务和复杂推理。该更新简化了从单主机到多主机配置的微调流程，为后训练工作流提供了可扩展路径。

AI产品微调/RL TPU JAX MaxText

推荐理由：这表明Google正在降低TPU上高级模型微调的门槛，让中小规模团队也能在单主机TPU上应用RL算法进行后训练，对AI开发实践有实用价值。

00:33

00:33Google Developers Blog（博客/媒体）

加州大学圣地亚哥分校研究者将DFlash（一种块扩散推测解码方法）成功部署到Google TPU上，通过单次前向传播“绘制”整个候选词块，绕过传统自回归逐步预测的顺序瓶颈。该系统在TPU上实现了平均3.13倍的加速，峰值性能接近现有EAGLE-3方法的两倍。该开源方案已集成至vLLM生态，利用TPU的免费并行验证和高品质草稿预测，显著提升复杂推理任务的效率。

AI模型推理加速推测解码 TPU 开源/仓库 vLLM

推荐理由：这一工作展示了扩散式推测解码在TPU上的实际落地价值，突破传统推测解码的顺序瓶颈，尤其利好大规模LLM推理场景。开源集成至vLLM有助于行业快速采用。