02:49Hugging Face: Blog(博客/媒体)精选Allen AI 发布 DiScoFormer,一种基于 Transformer 的架构,同时学习任意数据分布的密度函数和得分函数。传统方法如 NICE、MAF、ResFlow 需分别建模或使用归一化流,DiScoFormer 通过单一模型完成且无需显式归一化。在 2D 环形、高维高斯混合等多个基准分布上,DiScoFormer 的密度估计和得分误差均低于这些基线。该论文已被 NeurIPS 2024 接收,代码和预训练模型已在 GitHub 开源。AI模型DiScoFormerAllen AITransformer密度估计生成模型推荐理由:Allen AI 搞了个新模型 DiScoFormer,一个 Transformer 既能算密度又能算得分,比 NICE 这些老方法误差更低。想省事搞密度估计的可以看看。原文
18:03IT之家(博客/媒体)富士通发布了PHOTON架构,在多查询场景下性能最高可达Transformer架构的475倍。该架构通过语义分层处理替代词元级分割,降低计算复杂度并提升并行性。测试显示,在600M、900M和1.2B参数模型上,PHOTON实现了更高的迭代吞吐量和更低的内存占用。其中1.2B模型性能提升475倍,但质量略有下降。AI模型富士通PHOTONTransformer推理模型智能体推荐理由:富士通新架构PHOTON在多查询任务上比Transformer快475倍,1.2B小模型实测,省内存省GPU。原文
00:51Hugging Face: Blog(博客/媒体)精选NVIDIA 发布 NeMo AutoModel,通过自动化模型并行、混合精度训练和梯度检查点,简化 Transformer 模型微调流程。该工具可自动检测硬件配置,支持多 GPU 分布式训练,无需手动调整参数。在微调 BERT-base 模型时,相比标准 PyTorch 实现,NeMo AutoModel 将训练时间缩短约 40%,并保持相同精度。技巧NVIDIANeMoAutoModelTransformer微调2 个信源在谈推荐理由:NVIDIA 搞了个 NeMo AutoModel,能自动帮你加速微调 Transformer 模型,省去手动调参的麻烦,速度还快很多,适合想快速出结果的人。原文
15:25Decoder@Matthias BastianNoam Shazeer是2017年Transformer论文《Attention Is All You Need》的合著者,曾共同领导Google Gemini模型。2024年他作为27亿美元交易的一部分从Character.AI重返Google,现又转投OpenAI。这是继Andrej Karpathy跳槽Anthropic后,今年AI行业第二次重大高管变动。行业Noam ShazeerOpenAIGoogleGeminiTransformer10 个信源在谈推荐理由:Transformer论文作者Noam Shazeer从Google跳到OpenAI了,他去年刚从Character.AI回归Google,这次跳槽节奏很快。原文
13:13IT之家(博客/媒体)88°Noam Shazeer是2017年Transformer论文主要作者,曾因谷歌拒绝发布聊天机器人Meena(后演变为LaMDA)于2021年离职创办Character.AI。2024年8月,谷歌以27亿美元技术许可协议将其请回,他担任Gemini项目技术负责人并推动Gemini 3登顶多项排行榜。2026年2月他当选美国国家工程院院士。如今他宣布加入OpenAI,促使OpenAI CEO Sam Altman称其为最想合作的人之一。至此Transformer论文八位作者全部离开谷歌。行业TransformerOpenAI谷歌Character.AI人才流动10 个信源在谈推荐理由:Transformer之父二度出走,从谷歌跳到OpenAI。他发明了现代大模型的核心架构,这次跳槽说明顶级AI人才争夺有多激烈。原文
16:13marktechpost@Asif RazzaqZyphra 发布了 Zamba2-VL 系列开源视觉语言模型,包含 1.2B、2.7B 和 7B 三个参数版本。该模型采用混合 Mamba2 状态空间和 Transformer 骨干架构,在 Apache 2.0 许可下发布。与同类 Transformer 视觉语言模型相比,Zamba2-VL 在保持竞争力的同时,将首 token 生成时间降低了约一个数量级。这标志着在高效视觉语言推理方面的重要进展,尤其适合对延迟敏感的应用场景。AI模型视觉语言模型Mamba2Transformer开源/仓库低延迟推荐理由:做视觉语言模型部署或实时推理的开发者,Zamba2-VL 的首 token 延迟优势能显著提升用户体验,值得直接尝试。原文
22:09Decoder@Tomislav Bezmalinović精选日本 AI 初创公司 Sakana AI 宣布成立专门研究递归自改进(RSI)的实验室,目标是让 AI 能够迭代地自我提升。该公司由 Transformer 论文合著者 Llion Jones 联合创立,认为 RSI 是大型美国实验室之间算力军备竞赛的替代方案。Anthropic 则警告这种技术存在控制风险。Sakana AI 的实验室将专注于开发能够自主改进自身代码和架构的 AI 系统,从而减少对大规模计算资源的依赖。这一方向可能改变 AI 发展的范式,从“堆算力”转向“用智能提升智能”。AI产品递归自改进Sakana AI算力军备竞赛AI 实验室Transformer10 个信源在谈推荐理由:Sakana AI 的递归自改进路线为算力受限的团队提供了新思路——用算法效率替代硬件堆叠,做 AI 研究的开发者值得关注这个方向。原文
10:59marktechpost@Sana Hassan精选本文介绍了如何通过NVIDIA Apex库中的FusedAdam优化器和FusedLayerNorm层,结合PyTorch原生的torch.amp混合精度训练,来加速Transformer模型的训练。作者从源码编译Apex,检测融合内核是否可用,并进行了基准测试。实验表明,这些优化可以显著提升训练速度,同时保持模型精度。对于需要高效训练Transformer的开发者,这是一份实用的性能优化指南。技巧TransformerNVIDIA Apex混合精度训练性能优化PyTorch推荐理由:Transformer训练慢是很多开发者的痛点,这篇教程直接给出了用Apex和torch.amp加速的具体步骤和基准测试结果,做NLP或大模型训练的团队可以照着优化自己的代码。原文
17:06IT之家(博客/媒体)亚马逊设备负责人帕诺斯·帕奈回应了关于公司是否推出新款智能手机的传闻,表示“未必”会做传统手机,但未完全否认。此前有消息称亚马逊正在开发代号“Transformer”的AI设备,核心围绕Alexa Plus AI助手。帕奈暗示未来设备形态可能不是传统智能手机,而是AI硬件或新型终端。亚马逊对再次涉足手机市场保持谨慎,部分源于Fire Phone的失败经历。AI产品亚马逊AI硬件Alexa Plus智能手机Transformer推荐理由:亚马逊的AI硬件动向直接关系到Alexa生态的下一步,做智能家居或AI硬件的开发者值得关注——Transformer项目可能定义新的设备形态。原文