精选 AI 资讯 · AI 热点

6月18日

04:27

04:27

LMSYS Org (SGLang)@lmsysorg

精选73°

LMSYS 发表博客详解如何用 SGLang-JAX 在 TPU v7x 上优化 Ling-2.6-1T（1T 参数混合 MoE 模型）。通过 Fused MoE V2 内核将令牌和累加器留在 VMEM 中并双缓冲专家权重，MoE 预填充延迟降低 53%。混合内存池为 10 个全注意力层分配逐令牌 MLA KV，为 70 个 GLA 层分配逐请求循环状态。GLA 线性注意力采用分块并行预填充，单控制器 DP 保持分组 RMS Norm 芯片本地化，无需逐层跨芯片规约。

AI模型 Ling-2.6-1T TPU SGLang-JAX MoE 推理优化

推荐理由：LMSYS 和 InclusionAI 联手，用 SGLang-JAX 让 1T 参数 MoE 在 TPU 上跑得快 53%，技术细节都在博客里。

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？

5月19日

10:45

10:45IT之家（博客/媒体）

精选72°

谷歌与全球最大私募股权集团黑石合作，计划在美国成立一家新的AI云公司，初期黑石投入50亿美元股权资本，整体计算投资规模预计约250亿美元。新公司将依托谷歌自研TPU芯片和云能力，挑战CoreWeave等AI算力服务商，被视为谷歌最大规模的对外芯片商业化尝试。目标是在2027年上线500兆瓦容量，相当于一座中等城市的用电需求。此举将加剧谷歌与英伟达在AI算力市场的竞争，黑石作为AI基础设施领域最活跃的投资方之一，已拥有超过1500亿美元数据中心资产。

行业谷歌黑石 AI云 TPU 算力服务

推荐理由：谷歌终于把TPU推向外部市场，做AI训练和推理的团队将多一个算力选择，值得关注这个250亿美元级别的云服务新玩家。

5月14日

13:37

13:37

Jeff Dean@JeffDean

精选

Google Translate 迎来20周年，Jeff Dean 回顾了其关键里程碑：2006年首次部署基于5-gram语言模型的系统，使用了万亿词级训练数据，是早期大语言模型实践；2016年转向深度神经网络，结合序列到序列模型和自研TPU，推理性能提升30-80倍，延迟降低15-30倍，使服务可覆盖数亿用户；近期又借助Gemini模型进一步优化。这些技术迭代持续提升了翻译质量和全球连接性。

AI产品 Google Translate 机器翻译大语言模型 TPU 序列到序列

推荐理由：Jeff Dean 亲自梳理了 Google Translate 从统计方法到神经网络的两次关键跃迁，做 NLP/翻译系统的开发者能从中看到技术选型的真实演进逻辑，值得一读。