16:27Pandaily@contact@pandaily.com (Pandaily)精选73°DeepSeek 与北京大学联合开发的 DSpark 推理系统获得 PyTorch 核心维护者 Dmytro Dzhulgakov 的详细技术分析。他重点称赞 DSpark 的半并行草稿(semi-parallel drafting)机制,能提升推理吞吐量。分析指出该系统达到生产级工程水平(production-grade engineering),在特定负载下相比基线有显著加速。这一评测为开源推理系统提供了高含金量的第三方验证。AI模型DeepSeekDSparkPyTorch推理模型开源模型推荐理由:PyTorch 核心大佬亲自下场拆解 DeepSeek 的 DSpark,说它半并行草稿很牛、工程落地扎实,搞推理优化的必看。原文
10:56arXiv cs.LG@Daniel Romero Schellhorn, Till Mossakowski, Björn GehrkeNeSyCat Torch 扩展了 ULLER 框架,通过强单子和真值聚合结构统一了经典、模糊、概率和神经语义。该实现使用分布单子进行参考语义和度量评估,并引入惰性对数张量单子实现数值稳定可微训练。在 MNIST 加法任务上,基于 HaskTorch、JAX 和 PyTorch 的实现比 LTN 和 DeepProbLog 更快且准确率更高,同时达到接近 DeepStochLog 的精度。该框架保持单子参数化,未来可扩展至连续概率(如 Giry 单子)。论文NeSyCat TorchULLER神经符号学习MNISTPyTorch推荐理由:把神经符号学习统一到一个可微框架里,在 MNIST 加法上比 LTN 和 DeepProbLog 又快又准,还兼容 PyTorch。原文
19:58Julien Chaumond@julien_c精选safetensors v0.8.0 在 Apple Silicon 上支持将张量直接加载到 Metal 的 MTLBuffer 中。通过 DLPack 协议,可无缝传递给 PyTorch 等框架。相比之前版本,跳过了不必要的内存拷贝,提升了推理效率。该更新适用于所有使用 safetensors 的 Apple Silicon 用户。AI产品safetensorsMetalApple SiliconPyTorch模型加载推荐理由:Apple 用户加载模型更快原文
10:59marktechpost@Sana Hassan精选本文介绍了如何通过NVIDIA Apex库中的FusedAdam优化器和FusedLayerNorm层,结合PyTorch原生的torch.amp混合精度训练,来加速Transformer模型的训练。作者从源码编译Apex,检测融合内核是否可用,并进行了基准测试。实验表明,这些优化可以显著提升训练速度,同时保持模型精度。对于需要高效训练Transformer的开发者,这是一份实用的性能优化指南。技巧TransformerNVIDIA Apex混合精度训练性能优化PyTorch推荐理由:Transformer训练慢是很多开发者的痛点,这篇教程直接给出了用Apex和torch.amp加速的具体步骤和基准测试结果,做NLP或大模型训练的团队可以照着优化自己的代码。原文
11:23arXiv cs.AI@Mark Obozov, Maxime Griot, Joseph Cummings, Evan Smothers, Felipe Mello, Rafi Ayub, Philip John Bontrager, Salman Mohammadi, Ariel Kwiatkowski, Nathan Azrak, Mircea Mironenco精选72°torchtune 是一个 PyTorch 原生的后训练库,旨在简化大语言模型(LLM)的微调、实验和部署流程。与 Axolotl、Unsloth 等框架相比,torchtune 强调模块化、可定制性和对底层 PyTorch 组件的直接访问,而非牺牲透明度和可扩展性。论文展示了其模型构建器、训练配方和分布式训练栈的设计,并在多种后训练场景中评估了性能。结果表明,torchtune 在保持强性能和内存效率的同时,足够灵活以支持快速研究迭代。该库为可复现的 LLM 后训练研究提供了实用基础。AI模型torchtunePyTorchLLM 微调后训练开源/仓库推荐理由:做 LLM 微调的研究者或工程师,如果受够了黑盒框架的调试痛苦,torchtune 的模块化设计和 PyTorch 原生体验值得一试,能让你在保持性能的同时自由定制训练流程。原文
00:33Google Developers Blog(博客/媒体)TorchTPU是Google为TPU打造的原生PyTorch运行栈,旨在最小代码改动下实现高性能分布式训练。它采用“Eager First”模式,并利用XLA编译器优化集群训练。项目计划在2026年进一步降低编译开销,支持动态形状和自定义内核,以支持下一代AI模型的扩展。AI产品TPUPyTorchXLA编译器分布式训练Google推荐理由:TorchTPU让PyTorch用户能够更顺畅地迁移到TPU,同时保持Eager模式体验,这对需要TPU算力的大规模AI训练场景有直接价值。原文
00:33Google Developers Blog(博客/媒体)Google Cloud推出新集成方案,通过fsspec接口将Rapid Storage与PyTorch直连,利用Colossus架构和双向gRPC流,实现最高15 TiB/s聚合吞吐量并显著降低延迟。开发者只需更新存储桶类型,无需修改代码即可使训练总时间缩短23%。该方案旨在消除AI训练中的数据加载瓶颈,提升大规模分布式训练效率。AI产品PyTorchGoogle Cloud存储优化训练加速fsspec推荐理由:对于依赖PyTorch进行大规模AI训练的团队,该方案提供了零代码改动的性能提升路径,验证了存储系统优化对训练效率的显著影响。原文