全部 AI 动态 · AI 热点

6月29日

16:27

Pandaily@contact@pandaily.com (Pandaily)

精选73°

DeepSeek 与北京大学联合开发的 DSpark 推理系统获得 PyTorch 核心维护者 Dmytro Dzhulgakov 的详细技术分析。他重点称赞 DSpark 的半并行草稿（semi-parallel drafting）机制，能提升推理吞吐量。分析指出该系统达到生产级工程水平（production-grade engineering），在特定负载下相比基线有显著加速。这一评测为开源推理系统提供了高含金量的第三方验证。

AI模型 DeepSeek DSpark PyTorch 推理模型开源模型

推荐理由：PyTorch 核心大佬亲自下场拆解 DeepSeek 的 DSpark，说它半并行草稿很牛、工程落地扎实，搞推理优化的必看。

原文

6月18日

10:56

arXiv cs.LG@Daniel Romero Schellhorn, Till Mossakowski, Björn Gehrke

NeSyCat Torch 扩展了 ULLER 框架，通过强单子和真值聚合结构统一了经典、模糊、概率和神经语义。该实现使用分布单子进行参考语义和度量评估，并引入惰性对数张量单子实现数值稳定可微训练。在 MNIST 加法任务上，基于 HaskTorch、JAX 和 PyTorch 的实现比 LTN 和 DeepProbLog 更快且准确率更高，同时达到接近 DeepStochLog 的精度。该框架保持单子参数化，未来可扩展至连续概率（如 Giry 单子）。

论文 NeSyCat Torch ULLER 神经符号学习 MNIST PyTorch

推荐理由：把神经符号学习统一到一个可微框架里，在 MNIST 加法上比 LTN 和 DeepProbLog 又快又准，还兼容 PyTorch。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月9日

19:58

Julien Chaumond@julien_c

精选

safetensors v0.8.0 在 Apple Silicon 上支持将张量直接加载到 Metal 的 MTLBuffer 中。通过 DLPack 协议，可无缝传递给 PyTorch 等框架。相比之前版本，跳过了不必要的内存拷贝，提升了推理效率。该更新适用于所有使用 safetensors 的 Apple Silicon 用户。

AI产品 safetensors Metal Apple Silicon PyTorch 模型加载

推荐理由：Apple 用户加载模型更快

原文

6月2日

10:59

marktechpost@Sana Hassan

精选

本文介绍了如何通过NVIDIA Apex库中的FusedAdam优化器和FusedLayerNorm层，结合PyTorch原生的torch.amp混合精度训练，来加速Transformer模型的训练。作者从源码编译Apex，检测融合内核是否可用，并进行了基准测试。实验表明，这些优化可以显著提升训练速度，同时保持模型精度。对于需要高效训练Transformer的开发者，这是一份实用的性能优化指南。

技巧 Transformer NVIDIA Apex 混合精度训练性能优化 PyTorch

推荐理由：Transformer训练慢是很多开发者的痛点，这篇教程直接给出了用Apex和torch.amp加速的具体步骤和基准测试结果，做NLP或大模型训练的团队可以照着优化自己的代码。

原文

5月21日

11:23

arXiv cs.AI@Mark Obozov, Maxime Griot, Joseph Cummings, Evan Smothers, Felipe Mello, Rafi Ayub, Philip John Bontrager, Salman Mohammadi, Ariel Kwiatkowski, Nathan Azrak, Mircea Mironenco

精选72°

torchtune 是一个 PyTorch 原生的后训练库，旨在简化大语言模型（LLM）的微调、实验和部署流程。与 Axolotl、Unsloth 等框架相比，torchtune 强调模块化、可定制性和对底层 PyTorch 组件的直接访问，而非牺牲透明度和可扩展性。论文展示了其模型构建器、训练配方和分布式训练栈的设计，并在多种后训练场景中评估了性能。结果表明，torchtune 在保持强性能和内存效率的同时，足够灵活以支持快速研究迭代。该库为可复现的 LLM 后训练研究提供了实用基础。

AI模型 torchtune PyTorch LLM 微调后训练开源/仓库

推荐理由：做 LLM 微调的研究者或工程师，如果受够了黑盒框架的调试痛苦，torchtune 的模块化设计和 PyTorch 原生体验值得一试，能让你在保持性能的同时自由定制训练流程。

原文

5月13日

00:33

00:33Google Developers Blog（博客/媒体）

TorchTPU是Google为TPU打造的原生PyTorch运行栈，旨在最小代码改动下实现高性能分布式训练。它采用“Eager First”模式，并利用XLA编译器优化集群训练。项目计划在2026年进一步降低编译开销，支持动态形状和自定义内核，以支持下一代AI模型的扩展。

AI产品 TPU PyTorch XLA编译器分布式训练 Google

推荐理由：TorchTPU让PyTorch用户能够更顺畅地迁移到TPU，同时保持Eager模式体验，这对需要TPU算力的大规模AI训练场景有直接价值。

原文

00:33

00:33Google Developers Blog（博客/媒体）

Google Cloud推出新集成方案，通过fsspec接口将Rapid Storage与PyTorch直连，利用Colossus架构和双向gRPC流，实现最高15 TiB/s聚合吞吐量并显著降低延迟。开发者只需更新存储桶类型，无需修改代码即可使训练总时间缩短23%。该方案旨在消除AI训练中的数据加载瓶颈，提升大规模分布式训练效率。

AI产品 PyTorch Google Cloud 存储优化训练加速 fsspec

推荐理由：对于依赖PyTorch进行大规模AI训练的团队，该方案提供了零代码改动的性能提升路径，验证了存储系统优化对训练效率的显著影响。

原文