全部 AI 动态 · AI 热点

6月29日

16:27

16:27

Pandaily@contact@pandaily.com (Pandaily)

精选73°

DeepSeek 与北京大学联合开发的 DSpark 推理系统获得 PyTorch 核心维护者 Dmytro Dzhulgakov 的详细技术分析。他重点称赞 DSpark 的半并行草稿（semi-parallel drafting）机制，能提升推理吞吐量。分析指出该系统达到生产级工程水平（production-grade engineering），在特定负载下相比基线有显著加速。这一评测为开源推理系统提供了高含金量的第三方验证。

AI模型 DeepSeek DSpark PyTorch 推理模型开源模型

推荐理由：PyTorch 核心大佬亲自下场拆解 DeepSeek 的 DSpark，说它半并行草稿很牛、工程落地扎实，搞推理优化的必看。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月2日

10:59

10:59

marktechpost@Sana Hassan

精选

本文介绍了如何通过NVIDIA Apex库中的FusedAdam优化器和FusedLayerNorm层，结合PyTorch原生的torch.amp混合精度训练，来加速Transformer模型的训练。作者从源码编译Apex，检测融合内核是否可用，并进行了基准测试。实验表明，这些优化可以显著提升训练速度，同时保持模型精度。对于需要高效训练Transformer的开发者，这是一份实用的性能优化指南。

技巧 Transformer NVIDIA Apex 混合精度训练性能优化 PyTorch

推荐理由：Transformer训练慢是很多开发者的痛点，这篇教程直接给出了用Apex和torch.amp加速的具体步骤和基准测试结果，做NLP或大模型训练的团队可以照着优化自己的代码。

5月13日

00:33

00:33Google Developers Blog（博客/媒体）

TorchTPU是Google为TPU打造的原生PyTorch运行栈，旨在最小代码改动下实现高性能分布式训练。它采用“Eager First”模式，并利用XLA编译器优化集群训练。项目计划在2026年进一步降低编译开销，支持动态形状和自定义内核，以支持下一代AI模型的扩展。

AI产品 TPU PyTorch XLA编译器分布式训练 Google

推荐理由：TorchTPU让PyTorch用户能够更顺畅地迁移到TPU，同时保持Eager模式体验，这对需要TPU算力的大规模AI训练场景有直接价值。

00:33

00:33Google Developers Blog（博客/媒体）

Google Cloud推出新集成方案，通过fsspec接口将Rapid Storage与PyTorch直连，利用Colossus架构和双向gRPC流，实现最高15 TiB/s聚合吞吐量并显著降低延迟。开发者只需更新存储桶类型，无需修改代码即可使训练总时间缩短23%。该方案旨在消除AI训练中的数据加载瓶颈，提升大规模分布式训练效率。

AI产品 PyTorch Google Cloud 存储优化训练加速 fsspec

推荐理由：对于依赖PyTorch进行大规模AI训练的团队，该方案提供了零代码改动的性能提升路径，验证了存储系统优化对训练效率的显著影响。