AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:PyTorch×
6月29日
16:27
16:27Pandaily@contact@pandaily.com (Pandaily)
精选73°
DeepSeek 与北京大学联合开发的 DSpark 推理系统获得 PyTorch 核心维护者 Dmytro Dzhulgakov 的详细技术分析。他重点称赞 DSpark 的半并行草稿(semi-parallel drafting)机制,能提升推理吞吐量。分析指出该系统达到生产级工程水平(production-grade engineering),在特定负载下相比基线有显著加速。这一评测为开源推理系统提供了高含金量的第三方验证。
AI模型DeepSeekDSparkPyTorch推理模型开源模型

推荐理由:PyTorch 核心大佬亲自下场拆解 DeepSeek 的 DSpark,说它半并行草稿很牛、工程落地扎实,搞推理优化的必看。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月2日
10:59
10:59marktechpost@Sana Hassan
精选
本文介绍了如何通过NVIDIA Apex库中的FusedAdam优化器和FusedLayerNorm层,结合PyTorch原生的torch.amp混合精度训练,来加速Transformer模型的训练。作者从源码编译Apex,检测融合内核是否可用,并进行了基准测试。实验表明,这些优化可以显著提升训练速度,同时保持模型精度。对于需要高效训练Transformer的开发者,这是一份实用的性能优化指南。
技巧TransformerNVIDIA Apex混合精度训练性能优化PyTorch

推荐理由:Transformer训练慢是很多开发者的痛点,这篇教程直接给出了用Apex和torch.amp加速的具体步骤和基准测试结果,做NLP或大模型训练的团队可以照着优化自己的代码。
原文
5月13日
00:33
00:33Google Developers Blog(博客/媒体)
TorchTPU是Google为TPU打造的原生PyTorch运行栈,旨在最小代码改动下实现高性能分布式训练。它采用“Eager First”模式,并利用XLA编译器优化集群训练。项目计划在2026年进一步降低编译开销,支持动态形状和自定义内核,以支持下一代AI模型的扩展。
AI产品TPUPyTorchXLA编译器分布式训练Google

推荐理由:TorchTPU让PyTorch用户能够更顺畅地迁移到TPU,同时保持Eager模式体验,这对需要TPU算力的大规模AI训练场景有直接价值。
原文
00:33
00:33Google Developers Blog(博客/媒体)
Google Cloud推出新集成方案,通过fsspec接口将Rapid Storage与PyTorch直连,利用Colossus架构和双向gRPC流,实现最高15 TiB/s聚合吞吐量并显著降低延迟。开发者只需更新存储桶类型,无需修改代码即可使训练总时间缩短23%。该方案旨在消除AI训练中的数据加载瓶颈,提升大规模分布式训练效率。
AI产品PyTorchGoogle Cloud存储优化训练加速fsspec

推荐理由:对于依赖PyTorch进行大规模AI训练的团队,该方案提供了零代码改动的性能提升路径,验证了存储系统优化对训练效率的显著影响。
原文
精选全部日报登录