全部 AI 动态 · AI 热点

6月30日

02:49

02:49Hugging Face: Blog（博客/媒体）

精选

Allen AI 发布 DiScoFormer，一种基于 Transformer 的架构，同时学习任意数据分布的密度函数和得分函数。传统方法如 NICE、MAF、ResFlow 需分别建模或使用归一化流，DiScoFormer 通过单一模型完成且无需显式归一化。在 2D 环形、高维高斯混合等多个基准分布上，DiScoFormer 的密度估计和得分误差均低于这些基线。该论文已被 NeurIPS 2024 接收，代码和预训练模型已在 GitHub 开源。

AI模型 DiScoFormer Allen AI Transformer 密度估计生成模型

推荐理由：Allen AI 搞了个新模型 DiScoFormer，一个 Transformer 既能算密度又能算得分，比 NICE 这些老方法误差更低。想省事搞密度估计的可以看看。

6月25日

18:03

18:03IT之家（博客/媒体）

富士通发布了PHOTON架构，在多查询场景下性能最高可达Transformer架构的475倍。该架构通过语义分层处理替代词元级分割，降低计算复杂度并提升并行性。测试显示，在600M、900M和1.2B参数模型上，PHOTON实现了更高的迭代吞吐量和更低的内存占用。其中1.2B模型性能提升475倍，但质量略有下降。

AI模型富士通 PHOTON Transformer 推理模型智能体

推荐理由：富士通新架构PHOTON在多查询任务上比Transformer快475倍，1.2B小模型实测，省内存省GPU。

00:51

00:51Hugging Face: Blog（博客/媒体）

精选

NVIDIA 发布 NeMo AutoModel，通过自动化模型并行、混合精度训练和梯度检查点，简化 Transformer 模型微调流程。该工具可自动检测硬件配置，支持多 GPU 分布式训练，无需手动调整参数。在微调 BERT-base 模型时，相比标准 PyTorch 实现，NeMo AutoModel 将训练时间缩短约 40%，并保持相同精度。

技巧 NVIDIA NeMo AutoModel Transformer 微调

推荐理由：NVIDIA 搞了个 NeMo AutoModel，能自动帮你加速微调 Transformer 模型，省去手动调参的麻烦，速度还快很多，适合想快速出结果的人。

6月18日

15:25

15:25

Decoder@Matthias Bastian

Noam Shazeer是2017年Transformer论文《Attention Is All You Need》的合著者，曾共同领导Google Gemini模型。2024年他作为27亿美元交易的一部分从Character.AI重返Google，现又转投OpenAI。这是继Andrej Karpathy跳槽Anthropic后，今年AI行业第二次重大高管变动。

行业 Noam Shazeer OpenAI Google Gemini Transformer

推荐理由：Transformer论文作者Noam Shazeer从Google跳到OpenAI了，他去年刚从Character.AI回归Google，这次跳槽节奏很快。

13:13

13:13IT之家（博客/媒体）

88°

Noam Shazeer是2017年Transformer论文主要作者，曾因谷歌拒绝发布聊天机器人Meena（后演变为LaMDA）于2021年离职创办Character.AI。2024年8月，谷歌以27亿美元技术许可协议将其请回，他担任Gemini项目技术负责人并推动Gemini 3登顶多项排行榜。2026年2月他当选美国国家工程院院士。如今他宣布加入OpenAI，促使OpenAI CEO Sam Altman称其为最想合作的人之一。至此Transformer论文八位作者全部离开谷歌。

行业 Transformer OpenAI 谷歌 Character.AI 人才流动

推荐理由：Transformer之父二度出走，从谷歌跳到OpenAI。他发明了现代大模型的核心架构，这次跳槽说明顶级AI人才争夺有多激烈。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

16:13

16:13

marktechpost@Asif Razzaq

Zyphra 发布了 Zamba2-VL 系列开源视觉语言模型，包含 1.2B、2.7B 和 7B 三个参数版本。该模型采用混合 Mamba2 状态空间和 Transformer 骨干架构，在 Apache 2.0 许可下发布。与同类 Transformer 视觉语言模型相比，Zamba2-VL 在保持竞争力的同时，将首 token 生成时间降低了约一个数量级。这标志着在高效视觉语言推理方面的重要进展，尤其适合对延迟敏感的应用场景。

AI模型视觉语言模型 Mamba2 Transformer 开源/仓库低延迟

推荐理由：做视觉语言模型部署或实时推理的开发者，Zamba2-VL 的首 token 延迟优势能显著提升用户体验，值得直接尝试。

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月6日

22:09

22:09

Decoder@Tomislav Bezmalinović

精选

日本 AI 初创公司 Sakana AI 宣布成立专门研究递归自改进（RSI）的实验室，目标是让 AI 能够迭代地自我提升。该公司由 Transformer 论文合著者 Llion Jones 联合创立，认为 RSI 是大型美国实验室之间算力军备竞赛的替代方案。Anthropic 则警告这种技术存在控制风险。Sakana AI 的实验室将专注于开发能够自主改进自身代码和架构的 AI 系统，从而减少对大规模计算资源的依赖。这一方向可能改变 AI 发展的范式，从“堆算力”转向“用智能提升智能”。

AI产品递归自改进 Sakana AI 算力军备竞赛 AI 实验室 Transformer

推荐理由：Sakana AI 的递归自改进路线为算力受限的团队提供了新思路——用算法效率替代硬件堆叠，做 AI 研究的开发者值得关注这个方向。

6月2日

10:59

10:59

marktechpost@Sana Hassan

精选

本文介绍了如何通过NVIDIA Apex库中的FusedAdam优化器和FusedLayerNorm层，结合PyTorch原生的torch.amp混合精度训练，来加速Transformer模型的训练。作者从源码编译Apex，检测融合内核是否可用，并进行了基准测试。实验表明，这些优化可以显著提升训练速度，同时保持模型精度。对于需要高效训练Transformer的开发者，这是一份实用的性能优化指南。

技巧 Transformer NVIDIA Apex 混合精度训练性能优化 PyTorch

推荐理由：Transformer训练慢是很多开发者的痛点，这篇教程直接给出了用Apex和torch.amp加速的具体步骤和基准测试结果，做NLP或大模型训练的团队可以照着优化自己的代码。

5月13日

17:06

17:06IT之家（博客/媒体）

亚马逊设备负责人帕诺斯·帕奈回应了关于公司是否推出新款智能手机的传闻，表示“未必”会做传统手机，但未完全否认。此前有消息称亚马逊正在开发代号“Transformer”的AI设备，核心围绕Alexa Plus AI助手。帕奈暗示未来设备形态可能不是传统智能手机，而是AI硬件或新型终端。亚马逊对再次涉足手机市场保持谨慎，部分源于Fire Phone的失败经历。

AI产品亚马逊 AI硬件 Alexa Plus 智能手机 Transformer

推荐理由：亚马逊的AI硬件动向直接关系到Alexa生态的下一步，做智能家居或AI硬件的开发者值得关注——Transformer项目可能定义新的设备形态。