AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
精选
过去 24 小时,从 661 条中筛出 45 条
全部模型产品行业论文技巧
标签:TPU×
6月18日
04:27
04:27LMSYS Org (SGLang)@lmsysorg
精选73°
LMSYS 发表博客详解如何用 SGLang-JAX 在 TPU v7x 上优化 Ling-2.6-1T(1T 参数混合 MoE 模型)。通过 Fused MoE V2 内核将令牌和累加器留在 VMEM 中并双缓冲专家权重,MoE 预填充延迟降低 53%。混合内存池为 10 个全注意力层分配逐令牌 MLA KV,为 70 个 GLA 层分配逐请求循环状态。GLA 线性注意力采用分块并行预填充,单控制器 DP 保持分组 RMS Norm 芯片本地化,无需逐层跨芯片规约。
AI模型Ling-2.6-1TTPUSGLang-JAXMoE推理优化

推荐理由:LMSYS 和 InclusionAI 联手,用 SGLang-JAX 让 1T 参数 MoE 在 TPU 上跑得快 53%,技术细节都在博客里。
原文
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月1日
00:09
AITOP6月1日 00:09
OpenAI 发起“Codex for Open Source”:免费赠送 6 个月 Pro 订阅,开源维护者能否迎来 AI 变革?
5月29日
08:02
AITOP5月29日 08:02
Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?
5月19日
10:45
10:45IT之家(博客/媒体)
精选72°
谷歌与全球最大私募股权集团黑石合作,计划在美国成立一家新的AI云公司,初期黑石投入50亿美元股权资本,整体计算投资规模预计约250亿美元。新公司将依托谷歌自研TPU芯片和云能力,挑战CoreWeave等AI算力服务商,被视为谷歌最大规模的对外芯片商业化尝试。目标是在2027年上线500兆瓦容量,相当于一座中等城市的用电需求。此举将加剧谷歌与英伟达在AI算力市场的竞争,黑石作为AI基础设施领域最活跃的投资方之一,已拥有超过1500亿美元数据中心资产。
行业谷歌黑石AI云TPU算力服务

推荐理由:谷歌终于把TPU推向外部市场,做AI训练和推理的团队将多一个算力选择,值得关注这个250亿美元级别的云服务新玩家。
原文
5月14日
13:37
13:37Jeff Dean@JeffDean
精选
Google Translate 迎来20周年,Jeff Dean 回顾了其关键里程碑:2006年首次部署基于5-gram语言模型的系统,使用了万亿词级训练数据,是早期大语言模型实践;2016年转向深度神经网络,结合序列到序列模型和自研TPU,推理性能提升30-80倍,延迟降低15-30倍,使服务可覆盖数亿用户;近期又借助Gemini模型进一步优化。这些技术迭代持续提升了翻译质量和全球连接性。
AI产品Google Translate机器翻译大语言模型TPU序列到序列

推荐理由:Jeff Dean 亲自梳理了 Google Translate 从统计方法到神经网络的两次关键跃迁,做 NLP/翻译系统的开发者能从中看到技术选型的真实演进逻辑,值得一读。
原文
精选全部日报登录