11:01AI Will@FinanceYF5精选Jayden Teoh提出Next-Latent Prediction(NextLat),一种自监督学习方法。该方法教Transformer预测下一个隐状态而非直接预测token。NextLat使模型形成紧凑的世界模型,在推理和规划任务上表现更好。通过自speculative decoding,推理速度最高提升3.3倍。AI模型NextLatTransformer推理模型自监督学习加速推理推荐理由:Transformer预测隐状态而不是token能加速3.3倍,还能形成世界模型。Jayden Teoh的新框架值得看看。原文
00:42berryxia@berryxiaSakana AI是一家2023年在东京成立的AI研发公司,由David Ha(前Google Brain日本团队负责人)、Llion Jones(Transformer论文共同作者)和Ren Ito(前日本外交官、Mercari早期员工)联合创立。公司核心定位是开发“自然启发”的AI模型,强调集体智能和演化方法,旨在摆脱单一大模型限制。该公司的创办背景体现了日本AI主权的战略需求,团队和运营完全基于东京。行业Sakana AIDavid HaLlion JonesTransformer日本AI推荐理由:这家日本AI公司有Transformer论文作者和前Google Brain负责人,主打集体智能,背景扎实值得看。原文
12:57歸藏(guizang.ai)@op7418精选71°Noam Shazeer(Transformer论文作者之一、MoE架构提出者)加入OpenAI,负责模型架构研究。谷歌此前以27亿美元收购Character.AI换取他加入谷歌。但Shazeer在谷歌停留短暂后即转投OpenAI。行业Noam ShazeerTransformerMoEOpenAICharacter.AI模型架构10 个信源在谈推荐理由:Transformer论文作者Noam Shazeer,MoE提出者,跑到OpenAI研究模型架构了,谷歌27亿美元白花了?原文
00:35Microsoft Research@MSFTResearch微软研究院的Subutai Ahmad和Nicolò Fusi与公司副总裁Doug Burger探讨人类记忆与机器智能的差异。他们发现Transformer架构能通过持续五小时的故事输入记住一个新密码。这项对比研究揭示了机器在长期信息保留上的独特优势。相关讨论视频已在Twitter上发布。行业Transformer微软记忆机制机器智能推荐理由:微软研究员拿Transformer和人类比记忆:听五小时故事,它能记住新密码,你行吗?看看具体差异在哪。原文
18:19Aadit Sheth@aaditsh88°据X用户aaditsh透露,谷歌在2024年支付27亿美元,这笔交易的主要目的是将Transformer论文合著者Noam Shazeer从Character.ai带回。但Noam在谷歌工作不到两年后,于2026年宣布加入OpenAI。这相当于每月超过1亿美元的人才成本。Noam曾用几行训练代码拯救了Gemini项目,现在将参与OpenAI的架构建设。行业Noam ShazeerGoogleOpenAICharacter.aiTransformer人才竞争10 个信源在谈推荐理由:Noam Shazeer刚加入OpenAI,之前谷歌花27亿签他都没留住。你想知道AI圈顶级人才有多贵吗?点开看看。原文
17:29Amazon Science@AmazonScience亚马逊AI、芯片与量子负责人Peter DeSantis在VivaTech表示,最大的AI突破尚未到来。他认为Transformer不会是最后一个AI架构,现有模型架构将被超越。芯片和模型必须协同进化,才能实现未来突破。这一观点挑战了当前以Transformer为主流的AI发展路径。行业AmazonPeter DeSantisTransformerVivaTech芯片推荐理由:亚马逊的AI老大说了,Transformer不是终点,芯片和模型得一起进步才能搞出大新闻。原文
11:12歸藏(guizang.ai)@op7418精选81°Noam Shazeer,Character AI前CEO、Transformer论文作者之一及混合专家模型(MoE)架构提出者,宣布加入OpenAI。谷歌曾以27亿美元收购Character AI,旨在换取Shazeer加入,但他仅在谷歌短暂任职后便离职。Shazeer在社交媒体确认新职位,称期待与OpenAI团队合作。行业Noam ShazeerOpenAITransformerMoE行业动态10 个信源在谈推荐理由:Transformer和MoE的发明者从谷歌跳到OpenAI了,看看他能为GPT-5带来什么新架构。原文
11:06Sam Altman@sama88°OpenAI CEO Sam Altman 发推表示,自公司成立之初就一直想与 Noam Shazeer 共事,如今历经10年终于实现。Noam Shazeer 是 Transformer 论文的共同作者之一,也是 Character.AI 的联合创始人。他此前在 Google 工作多年,此次从 Google 跳槽至 OpenAI。Shazeer 本人发推确认加入,并称做出这个决定很艰难。行业Noam ShazeerOpenAITransformerCharacter.AI人事变动10 个信源在谈推荐理由:Transformer 共同作者 Noam Shazeer 从 Google 跳槽到 OpenAI,Altman 期待了10年,这个人加入可能会影响下一代模型研发。原文
01:21Aadit Sheth@aaditsh精选Andrej Karpathy(前特斯拉 Autopilot AI 负责人)发布了一门 3.5 小时的免费课程,详细讲解 ChatGPT 的工作原理。课程涵盖 Transformer 架构、训练流程(预训练、微调、RLHF)等核心内容。该课程完全免费,旨在普及大语言模型知识。技巧Andrej KarpathyChatGPTTransformerRLHF提示词工程推荐理由:Karpathy 免费教 ChatGPT 原理原文
12:20Tri Dao (FlashAttention)@tri_dao精选通过数学重写,研究者发现 Transformer 的所有操作本质上可以归结为一系列 GEMM(通用矩阵乘法)加 epilogue(后处理)。这意味着只要提供几个优化好的基础原语,LLM 甚至新手人类都能为所有 Transformer 操作编写达到光速的内核。这一发现简化了模型优化,让高性能内核的编写门槛大幅降低。论文TransformerGEMM内核优化LLM数学重写推荐理由:对做模型推理优化和内核开发的团队来说,这揭示了 Transformer 的底层统一结构,可以直接用 LLM 生成高效代码,建议关注。原文
04:11Richard Socher@RichardSocherAndrej Karpathy 发布了一个新的 AI 基准测试,旨在评估从基础 Transformer 模型到高级 AI 系统的演进过程。该测试需要 AI 花费相当长的时间才能达到 Karpathy 的版本水平。这一基准测试可能用于衡量 AI 系统的复杂性和进步程度,对研究者和开发者具有重要参考价值。论文基准测试TransformerKarpathyAI 评估模型进化推荐理由:Karpathy 的基准测试为 AI 开发者提供了一个衡量模型进化难度的新工具,做模型训练和评估的团队值得关注这个测试,看看自己的模型需要多久才能达到高级水平。原文
17:09Viking@vikingmute精选Viking 推荐了两篇深入讲解 Transformer 和 LLM 内部机制的文章。第一篇《Inside the Transformer: The Life of a Token》详细追踪了一个 Token 在现代 Transformer 中的完整前向传播过程,包含大量实战实现细节和精美图表,适合有一定基础的学习者作为进阶阅读。第二篇《How LLMs Actually Work》曾登顶 HackerNews,以深入浅出的方式、直观的比喻和代码示例,帮助有编程基础但未深入学过 Transformer 的读者理解 LLM 原理。Viking 强调写作乐趣,坚持不用 AI 辅助,保持文章的人味。论文TransformerToken前向传播LLM 原理技术文章推荐理由:两篇文章分别适合不同阶段的读者:进阶者可以看 Token 级追踪,初学者可以看 LLM 原理入门,都是活人写的干货,建议收藏慢慢啃。原文
20:29rohanpaul_ai@rohanpaul_ai一篇新论文发现 Transformer 的 Key 和 Value 投影可以共享同一映射,从而将 KV 缓存减少 50%,而困惑度仅上升 3.1%。最佳变体 Q-K=V 保留了 Query 的独立性,使注意力仍具有方向性。结合 GQA 和 MQA 时,缓存削减可达 87.5% 和 96.9%。弱变体 Q=K-V 因对称性不适合因果语言模型,且无缓存节省。该发现挑战了传统 QKV 三投影的必要性,对推理内存优化有重要意义。论文TransformerKV 缓存注意力机制推理优化论文推荐理由:做 LLM 推理优化的团队可以直接参考这个设计——砍掉一半 KV 缓存但几乎不损质量,值得在自家模型上试试。原文
01:03Gary Marcus@GaryMarcus精选Gary Marcus 在 X 上反驳 Google 联合创始人 Sergey Brin 的观点,Brin 认为 Transformer 架构本身足以实现 AGI。Marcus 指出,当前没有任何团队单独使用 Transformer,而是结合工具、约束和神经符号 AI 架构。他认为 Transformer 可能是 AGI 的必要条件,但绝非充分条件,这正是神经符号 AI 兴起的原因。行业AGITransformer神经符号 AIGary MarcusSergey Brin推荐理由:AGI 路线争论升级,做 AI 架构和研究的开发者值得关注——Transformer 的边界在哪、神经符号 AI 为何崛起,看完会有启发。原文
10:47Viking@vikingmute精选一篇名为《How LLMs Actually Work》的文章近日登上 HackerNews 榜首。文章用直观的例子和恰当的比喻,向有编程基础但未深入学 Transformer 的读者解释大模型工作原理。作者强调写作乐趣,坚持不用 AI 辅助,文章风格自然,没有 AI 味。适合想理解 LLM 底层逻辑的开发者阅读。论文LLMTransformer深度学习技术文章HackerNews推荐理由:想搞懂 LLM 原理但被 Transformer 劝退的开发者,这篇用活人语言讲清楚了,比看论文轻松太多,建议直接点开。原文
10:10Gary Marcus@GaryMarcus精选Gary Marcus 转发了一条关于神经符号系统(Neurosymbolic)的突破性进展:通过让一个 80 万参数的 Transformer 像逻辑求解器一样推理,仅用 15 分钟训练计算就能在极难数独(sudoku-extreme)上达到 100% 准确率。这项工作由 Leo 在 Axiom Math AI 完成,标志着神经符号集成在推理任务上的重大进步。它展示了小模型通过符号化推理能力可以超越纯神经网络方法,为 AI 推理效率提供了新思路。论文神经符号系统推理模型Transformer数独小模型推荐理由:神经符号系统终于有了可量化的突破——小模型+符号推理就能碾压纯神经网络,做推理模型和逻辑 AI 的团队值得关注这个方向。原文
22:53rohanpaul_ai@rohanpaul_ai72°一场由顶尖研究者参与的 Transformer 与 Post-Transformer 辩论,以拳击擂台形式呈现,兼具技术深度与娱乐性。Transformer 阵营强调其规模化优势、硬件友好性和当前统治地位,认为替代者需 10 倍更好才能迫使生态切换。Post-Transformer 阵营则指出原生推理、持续学习和真正记忆是当前架构的短板,未来可能是混合架构。辩论持续 1 小时 20 分钟,涵盖从注意力机制到 latent reasoning 的多个关键点。AI模型TransformerPost-Transformer推理模型持续学习架构辩论推荐理由:这场辩论把 AI 架构之争讲得既硬核又好玩,做模型研究或关注下一代架构的开发者看完会有新视角,建议直接看原视频。原文
23:42AK@_akhaliqMRT(Masked Region Transformer)是一种用于大规模分层图像生成与编辑的新方法。它通过掩码区域机制,能够对图像中的特定区域进行精确的生成或修改,同时保持整体图像的连贯性。该方法在图像编辑任务中表现出色,支持复杂的分层操作,如对象替换、背景修改等。MRT的提出为图像生成和编辑领域提供了更灵活、高效的解决方案,尤其适用于需要精细控制的大规模图像处理场景。论文图像生成图像编辑Transformer掩码区域分层处理推荐理由:MRT解决了图像编辑中区域精确控制与整体连贯性的矛盾,做图像生成和编辑的开发者可以直接尝试,尤其适合需要分层操作的项目。原文
19:58rohanpaul_ai@rohanpaul_ai研究发现图像扩散Transformer训练效率低下的根源在于残差连接,而非注意力或编码器。残差连接导致信号膨胀、梯度消失和特征冗余,尤其不适合扩散模型这种多步去噪任务。作者提出扩散自适应路由(Diffusion-Adaptive Routing),让每层根据去噪时间步动态选择前层输出,从而在相同图像质量下减少8.75倍训练迭代。该工作没有引入新数据集或注意力机制,而是质疑了从语言Transformer继承的残差结构。论文扩散模型Transformer残差连接训练加速DiT推荐理由:扩散模型研究者终于找到了训练瓶颈的隐藏位置——残差连接,8.75倍加速意味着更低的训练成本,做图像生成的团队值得关注这个新路由方案。原文
23:22berryxia@berryxia83°CMU和UMD的研究团队发现,Transformer大模型在处理超长任务时注意力机制会因上下文长度二次方爆炸而性能下降。他们提出“sleep-like consolidation”机制,让模型在“睡眠”期间将最近上下文转化为持久fast weights并清空KV cache,从而将短期记忆转为长期记忆。实验表明,增加睡眠深度或时长能显著提升睡眠后的推理能力。该方案完全开源,颠覆了传统靠堆显存扩展上下文的做法。论文Transformer长上下文记忆固化开源/仓库推理优化推荐理由:这个研究用“睡觉”这种生物启发机制解决了长上下文推理的显存和速度瓶颈,做长序列AI应用的开发者可以直接参考开源方案,比堆显存更聪明。原文
02:19rohanpaul_ai@rohanpaul_ai76°HiDream 开源了 8B 参数的图像模型 HiDream-O1-Image,声称性能与 27B 的 Qwen-Image 等更大模型持平。该模型采用像素级统一 Transformer,无需 VAE 和文本编码器,直接在原始像素上端到端处理。它支持文生图、长文本渲染、指令编辑、主体个性化及故事板生成等多种任务。内置推理驱动的提示代理,能先理解用户意图再生成,在长文本渲染基准上接近 200B+ 模型的表现。这暗示传统扩散管线可能不再是唯一的主流路径。AI模型HiDreamHiDream-O1-Image图像生成Transformer开源/仓库推荐理由:HiDream 用 8B 参数挑战了传统扩散架构的统治地位,做图像生成或研究的开发者值得关注——它可能改变你对模型效率与架构的认知。原文
17:12AlphaSignal@AlphaSignalAI76°本周(5月11日至17日)GitHub 热门仓库包括 DeepSeek 4 Flash 本地推理引擎(支持 Metal 和 CUDA)、更稀疏快速的 Transformer 语言模型、利用 WiFi 信号实现空间感知的 RuView、面向法律工作流的 Claude 插件套件,以及 X 平台开源的 feed 排序算法。这些项目覆盖了模型推理、架构优化、环境感知、行业应用和算法透明化等多个方向,值得开发者关注。AI产品DeepSeek本地推理TransformerWiFi感知开源推荐理由:做本地推理或模型优化的开发者可以看看 DeepSeek 4 Flash 和稀疏 Transformer 项目,前者直接提升 Metal/CUDA 部署效率,后者可能改变模型架构设计思路。法律从业者或对行业 AI 应用感兴趣的人,Claude 插件套件提供了现成的 workflow 参考。原文
00:40AlphaSignal@AlphaSignalAI精选Transformer Explainer 是一个免费的开源互动工具,通过浏览器运行 GPT-2 模型,实时展示文本生成的全过程。它提供实时推理、可视化步骤图和温度滑块,让用户直观看到嵌入、注意力头和最终 token 排名。该工具使用 ONNX runtime 和 HuggingFace 在本地运行,前端基于 Svelte 和 D3 动画。对于想理解 Transformer 工作原理的开发者、学生和 AI 爱好者来说,这是一个极佳的学习资源。AI产品TransformerGPT-2可视化工具开源AI 教育推荐理由:这个工具把 Transformer 的黑箱彻底透明化了,做 AI 学习或教学的人可以直接上手体验,比看论文直观一百倍。原文
23:29Geek@geekbb精选73°xAI 用 Rust 重写了 X 平台的推荐算法并开源,项目名为 x-algo。系统将推荐流程分为两层:in-network 通过 Thunder 内存存储实时获取关注账号的帖子,out-of-network 通过 Phoenix 双塔模型检索全局语料。排序阶段使用基于 Grok-1 移植的 Transformer 模型,预测用户点赞、回复、转发、点击等多类行为概率,加权计算最终得分。这一开源举措让开发者可以直接研究 X 的推荐机制,并可能推动推荐系统的透明化。AI产品推荐算法开源/仓库RustGrok-1Transformer1 个信源在谈推荐理由:推荐系统从业者终于能直接看 X 的算法源码了,Rust 实现和 Grok-1 模型移植都是硬核干货,做推荐或社交产品的团队值得深入分析。原文
23:35berryxia@berryxia精选73°Daily Dose of Data Science 通过视觉图解清晰对比了 Transformer 和 Mixture of Experts(MoE)的核心差异。MoE 将 Transformer 中的单个前馈网络拆分为多个小专家网络,推理时仅激活部分专家,虽参数更多但计算更快。模型通过 Router(多分类器)为每个 token 选择 top-K 专家,但训练中面临“专家过选”和“负载不均”两大问题。前者通过加噪声和屏蔽非 top-K logit 解决,后者通过设置专家容量上限并自动转交 token 来平衡。Mixtral 8x7B 和 Llama 4 是典型 MoE 模型。AI模型TransformerMoE路由机制负载均衡Mixtral 8x7B推荐理由:想搞懂 MoE 为什么又快又强,这篇视觉解释把路由和负载均衡的坑讲透了,做模型训练或推理优化的开发者值得一看。原文
04:54Andrew Ng@AndrewYNgAndrew Ng 推出新课程《Transformers in Practice》,与 AMD 合作,由 Sharon Zhou 主讲。课程提供基于 Transformer 的 LLM 的实用视角,帮助理解其行为、诊断推理缓慢等问题,并做出更明智的部署决策。课程包含交互式可视化,而非纯视频,让学员动手探索概念。学员将掌握 LLM 幻觉原因、注意力机制、推理瓶颈诊断及 GPU 加速技术。AI模型TransformerLLM课程推理优化AMD推荐理由:想真正理解 LLM 内部机制、诊断推理问题的开发者,这门课能帮你从黑盒用户变成懂原理的实践者,建议直接报名。原文