02:49Hugging Face: Blog(博客/媒体)精选Allen AI 发布 DiScoFormer,一种基于 Transformer 的架构,同时学习任意数据分布的密度函数和得分函数。传统方法如 NICE、MAF、ResFlow 需分别建模或使用归一化流,DiScoFormer 通过单一模型完成且无需显式归一化。在 2D 环形、高维高斯混合等多个基准分布上,DiScoFormer 的密度估计和得分误差均低于这些基线。该论文已被 NeurIPS 2024 接收,代码和预训练模型已在 GitHub 开源。AI模型DiScoFormerAllen AITransformer密度估计生成模型推荐理由:Allen AI 搞了个新模型 DiScoFormer,一个 Transformer 既能算密度又能算得分,比 NICE 这些老方法误差更低。想省事搞密度估计的可以看看。原文
11:01AI Will@FinanceYF5精选Jayden Teoh提出Next-Latent Prediction(NextLat),一种自监督学习方法。该方法教Transformer预测下一个隐状态而非直接预测token。NextLat使模型形成紧凑的世界模型,在推理和规划任务上表现更好。通过自speculative decoding,推理速度最高提升3.3倍。AI模型NextLatTransformer推理模型自监督学习加速推理推荐理由:Transformer预测隐状态而不是token能加速3.3倍,还能形成世界模型。Jayden Teoh的新框架值得看看。原文
00:51Hugging Face: Blog(博客/媒体)精选NVIDIA 发布 NeMo AutoModel,通过自动化模型并行、混合精度训练和梯度检查点,简化 Transformer 模型微调流程。该工具可自动检测硬件配置,支持多 GPU 分布式训练,无需手动调整参数。在微调 BERT-base 模型时,相比标准 PyTorch 实现,NeMo AutoModel 将训练时间缩短约 40%,并保持相同精度。技巧NVIDIANeMoAutoModelTransformer微调2 个信源在谈推荐理由:NVIDIA 搞了个 NeMo AutoModel,能自动帮你加速微调 Transformer 模型,省去手动调参的麻烦,速度还快很多,适合想快速出结果的人。原文
12:57歸藏(guizang.ai)@op7418精选71°Noam Shazeer(Transformer论文作者之一、MoE架构提出者)加入OpenAI,负责模型架构研究。谷歌此前以27亿美元收购Character.AI换取他加入谷歌。但Shazeer在谷歌停留短暂后即转投OpenAI。行业Noam ShazeerTransformerMoEOpenAICharacter.AI模型架构10 个信源在谈推荐理由:Transformer论文作者Noam Shazeer,MoE提出者,跑到OpenAI研究模型架构了,谷歌27亿美元白花了?原文
11:12歸藏(guizang.ai)@op7418精选81°Noam Shazeer,Character AI前CEO、Transformer论文作者之一及混合专家模型(MoE)架构提出者,宣布加入OpenAI。谷歌曾以27亿美元收购Character AI,旨在换取Shazeer加入,但他仅在谷歌短暂任职后便离职。Shazeer在社交媒体确认新职位,称期待与OpenAI团队合作。行业Noam ShazeerOpenAITransformerMoE行业动态10 个信源在谈推荐理由:Transformer和MoE的发明者从谷歌跳到OpenAI了,看看他能为GPT-5带来什么新架构。原文
10:15arXiv cs.LG@Viet-Hoang Tran, Vinh Khanh Bui, Van-Hoan Trinh, Tan Lai Ngoc, Tan M. Nguyen精选这篇论文研究了Transformer中注意力机制的函数等价性,重点分析了sinusoidal和旋转位置编码(RoPE)两种变体。作者发现sinusoidal编码保留了普通注意力的等价结构,而RoPE显著减小了对称群,从而增强了表达力。这一发现为RoPE在实践中的流行提供了理论解释。论文还讨论了位置编码如何影响线性模式连接性,并通过对齐算法证明连接性的存在和变化关键依赖于位置编码。实验表明使用RoPE的Transformer在参数空间具有更少的函数等价性,有助于优化和泛化。论文TransformerRoPE位置编码注意力机制函数等价性推荐理由:这篇论文解释了为啥RoPE比Sinusoidal位置编码更受青睐——它减少了参数空间的对称性,让Transformer表达力更强。如果你好奇背后的理论,值得一看。原文
01:21Aadit Sheth@aaditsh精选Andrej Karpathy(前特斯拉 Autopilot AI 负责人)发布了一门 3.5 小时的免费课程,详细讲解 ChatGPT 的工作原理。课程涵盖 Transformer 架构、训练流程(预训练、微调、RLHF)等核心内容。该课程完全免费,旨在普及大语言模型知识。技巧Andrej KarpathyChatGPTTransformerRLHF提示词工程推荐理由:Karpathy 免费教 ChatGPT 原理原文
12:20Tri Dao (FlashAttention)@tri_dao精选通过数学重写,研究者发现 Transformer 的所有操作本质上可以归结为一系列 GEMM(通用矩阵乘法)加 epilogue(后处理)。这意味着只要提供几个优化好的基础原语,LLM 甚至新手人类都能为所有 Transformer 操作编写达到光速的内核。这一发现简化了模型优化,让高性能内核的编写门槛大幅降低。论文TransformerGEMM内核优化LLM数学重写推荐理由:对做模型推理优化和内核开发的团队来说,这揭示了 Transformer 的底层统一结构,可以直接用 LLM 生成高效代码,建议关注。原文
12:38arXiv cs.AI@Boyang Li, Yulin Wu, Sizhe Xu, Nuoxian Huang, Zhonghang Yuan, Shangyi Guo, Shu Yang, Takahiro Yabe精选nD-RoPE 是一种将旋转位置编码(RoPE)推广到任意维度的新方法。现有高维 RoPE 方法要么独立旋转每个轴,要么经验性地混合频率,限制了跨维度交互并导致方向依赖的表示。nD-RoPE 从连续希尔伯特空间的平移不变性出发,推导出各向同性的谱条件,要求将位置和频率视为耦合的 n 维向量。它采用多尺度正则单纯形波矢设计,提供非退化的空间覆盖和对称、方向平衡的二阶响应。在图像、视频和点云上的实验表明,nD-RoPE 在性能提升和泛化能力上均优于现有方法。论文位置编码RoPETransformer高维表示论文推荐理由:nD-RoPE 解决了高维位置编码缺乏统一理论框架的问题,做视觉、视频或点云 Transformer 的开发者可以直接用,能显著提升模型对空间结构的理解能力。原文
17:09Viking@vikingmute精选Viking 推荐了两篇深入讲解 Transformer 和 LLM 内部机制的文章。第一篇《Inside the Transformer: The Life of a Token》详细追踪了一个 Token 在现代 Transformer 中的完整前向传播过程,包含大量实战实现细节和精美图表,适合有一定基础的学习者作为进阶阅读。第二篇《How LLMs Actually Work》曾登顶 HackerNews,以深入浅出的方式、直观的比喻和代码示例,帮助有编程基础但未深入学过 Transformer 的读者理解 LLM 原理。Viking 强调写作乐趣,坚持不用 AI 辅助,保持文章的人味。论文TransformerToken前向传播LLM 原理技术文章推荐理由:两篇文章分别适合不同阶段的读者:进阶者可以看 Token 级追踪,初学者可以看 LLM 原理入门,都是活人写的干货,建议收藏慢慢啃。原文
12:12arXiv cs.LG@Chenxiao Yang, Nathan Srebro, Zhiyuan Li精选该论文严格刻画了深度L、总参数W的Transformer的VC维,上界为O(L W log(T W)),下界为Ω(L W log(T W / L)),其中T为输入序列长度。进一步,论文给出了思维链学习(chain-of-thought)的样本复杂度紧界:教师强制(teacher forcing)方法需要O(L W log((T+T')W))个样本,而任何利用思维链数据的学习规则至少需要Ω(L W log((T+T')W / L))个样本,T'为自回归步数。这些结果首次为Transformer的泛化能力提供了理论保证,对理解大模型的数据效率有重要意义。论文TransformerVC维样本复杂度思维链泛化理论推荐理由:理论研究者终于有了Transformer样本复杂度的紧界——VC维和思维链学习的下界都算清楚了,做深度学习理论的团队值得细读。原文
01:03Gary Marcus@GaryMarcus精选Gary Marcus 在 X 上反驳 Google 联合创始人 Sergey Brin 的观点,Brin 认为 Transformer 架构本身足以实现 AGI。Marcus 指出,当前没有任何团队单独使用 Transformer,而是结合工具、约束和神经符号 AI 架构。他认为 Transformer 可能是 AGI 的必要条件,但绝非充分条件,这正是神经符号 AI 兴起的原因。行业AGITransformer神经符号 AIGary MarcusSergey Brin推荐理由:AGI 路线争论升级,做 AI 架构和研究的开发者值得关注——Transformer 的边界在哪、神经符号 AI 为何崛起,看完会有启发。原文
10:47Viking@vikingmute精选一篇名为《How LLMs Actually Work》的文章近日登上 HackerNews 榜首。文章用直观的例子和恰当的比喻,向有编程基础但未深入学 Transformer 的读者解释大模型工作原理。作者强调写作乐趣,坚持不用 AI 辅助,文章风格自然,没有 AI 味。适合想理解 LLM 底层逻辑的开发者阅读。论文LLMTransformer深度学习技术文章HackerNews推荐理由:想搞懂 LLM 原理但被 Transformer 劝退的开发者,这篇用活人语言讲清楚了,比看论文轻松太多,建议直接点开。原文
22:09Decoder@Tomislav Bezmalinović精选日本 AI 初创公司 Sakana AI 宣布成立专门研究递归自改进(RSI)的实验室,目标是让 AI 能够迭代地自我提升。该公司由 Transformer 论文合著者 Llion Jones 联合创立,认为 RSI 是大型美国实验室之间算力军备竞赛的替代方案。Anthropic 则警告这种技术存在控制风险。Sakana AI 的实验室将专注于开发能够自主改进自身代码和架构的 AI 系统,从而减少对大规模计算资源的依赖。这一方向可能改变 AI 发展的范式,从“堆算力”转向“用智能提升智能”。AI产品递归自改进Sakana AI算力军备竞赛AI 实验室Transformer10 个信源在谈推荐理由:Sakana AI 的递归自改进路线为算力受限的团队提供了新思路——用算法效率替代硬件堆叠,做 AI 研究的开发者值得关注这个方向。原文
10:57arXiv cs.AI@Zekun Qi, Xuchuan Chen, Dairu Liu, Chenghuai Lin, Yunrui Lian, Sikai Liang, Zhikai Zhang, Yu Guan, Jilong Wang, Wenyao Zhang, Xinqiang Yu, He Wang, Li Yi精选研究团队提出 Humanoid-GPT,一种基于 GPT 风格的因果注意力 Transformer,在 20 亿帧的运动数据上预训练,用于全身控制。与以往受限于数据稀缺和敏捷性-泛化权衡的浅层 MLP 追踪器不同,Humanoid-GPT 统一了所有主要动作捕捉数据集和大量内部录制数据。通过扩展数据和模型容量,该模型能够追踪高度动态的行为,并在未见过的动作和控制任务上实现前所未有的零样本泛化。实验表明,Humanoid-GPT 在零样本泛化和动态复杂运动追踪方面均达到了新的性能水平。论文Humanoid-GPT运动追踪零样本泛化Transformer全身控制推荐理由:做机器人全身控制和运动追踪的团队终于有了一个能零样本泛化的基础模型——Humanoid-GPT 用 20 亿帧数据训练,直接解决了以往模型在动态场景下泛化差的问题,做仿人机器人或动画生成的开发者值得关注。原文
10:59marktechpost@Sana Hassan精选本文介绍了如何通过NVIDIA Apex库中的FusedAdam优化器和FusedLayerNorm层,结合PyTorch原生的torch.amp混合精度训练,来加速Transformer模型的训练。作者从源码编译Apex,检测融合内核是否可用,并进行了基准测试。实验表明,这些优化可以显著提升训练速度,同时保持模型精度。对于需要高效训练Transformer的开发者,这是一份实用的性能优化指南。技巧TransformerNVIDIA Apex混合精度训练性能优化PyTorch推荐理由:Transformer训练慢是很多开发者的痛点,这篇教程直接给出了用Apex和torch.amp加速的具体步骤和基准测试结果,做NLP或大模型训练的团队可以照着优化自己的代码。原文
10:10Gary Marcus@GaryMarcus精选Gary Marcus 转发了一条关于神经符号系统(Neurosymbolic)的突破性进展:通过让一个 80 万参数的 Transformer 像逻辑求解器一样推理,仅用 15 分钟训练计算就能在极难数独(sudoku-extreme)上达到 100% 准确率。这项工作由 Leo 在 Axiom Math AI 完成,标志着神经符号集成在推理任务上的重大进步。它展示了小模型通过符号化推理能力可以超越纯神经网络方法,为 AI 推理效率提供了新思路。论文神经符号系统推理模型Transformer数独小模型推荐理由:神经符号系统终于有了可量化的突破——小模型+符号推理就能碾压纯神经网络,做推理模型和逻辑 AI 的团队值得关注这个方向。原文
10:25arXiv cs.LG@Arnas Uselis, Darina Koishigarina, Seong Joon Oh精选人类能轻松将颜色与形状绑定(如“红色圆形”),但 CLIP 等视觉-语言嵌入模型在多物体场景中无法正确绑定概念,表现为“词袋”行为。研究发现,CLIP 的场景嵌入可加性分解为物体表征,但绑定函数复杂度高,导致图像与文本编码器无法学习共享的绑定机制,难以泛化到未见过的概念组合。通过从头训练的受控 Transformer 模型,作者发现当数据覆盖足够时,模型能学会低复杂度的绑定函数(涉及概念间的乘法交互),实现系统性泛化。该工作揭示了嵌入模型在概念绑定上的根本限制与突破条件,代码已开源。论文嵌入模型概念绑定CLIP泛化Transformer推荐理由:做多模态嵌入或视觉-语言模型研究的开发者,这篇论文点出了 CLIP 类模型在概念绑定上的核心瓶颈,并给出了可复现的解决方案,值得深入阅读。原文
10:18arXiv cs.LG@Ulrich Prestel, Stefan Andreas Baumann, Nick Stracke, Björn Ommer精选RayDer 提出了一种统一的、前馈式 Transformer 架构,将相机估计、场景重建和渲染整合到一个主干网络中,将自监督新视角合成(NVS)转化为一个定义良好的单模型缩放问题。通过引入最小动态状态作为干扰因素,它吸收了视频中的时变内容,从而能够在无约束的真实世界视频上稳定训练。RayDer 将静态场景 NVS 作为目标任务,动态内容仅作为可扩展的监督信号,而非像动态场景(4D)NVS 那样进行重建。实验表明,RayDer 在数据和计算量上表现出清晰的幂律缩放行为,并在多个基准测试中取得了与有监督方法相媲美的零样本开放集性能。论文新视角合成自监督学习Transformer场景重建RayDer推荐理由:RayDer 解决了自监督 NVS 难以规模化的问题,做 3D 视觉和场景重建的研究者可以关注其简洁的缩放规律和零样本能力,值得在真实视频数据上试试。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……
10:53arXiv cs.LG@Sridhar Mahadevan精选本文提出 Kan Extension Transformers (KETs),一个基于范畴论的统一框架,将多种 Transformer 变体(标准注意力、几何 Transformer、扩散模型)视为加权结构化扩展算子的特例。KET 将注意力推广到高阶单纯形邻域,并揭示了与扩散式补全的桥梁。当扩展算子作用于分离的预测载体而非教师强制隐状态时,形成一种有效的自条件化机制,在不泄露未来 token 的情况下暴露非因果结构。在 Penn Treebank、WikiText-2 和 WikiText-103 上的 12 种 Transformer 变体实验中,严格因果设置下二次 KET 在 WikiText-2 和 WikiText-103 上表现最强;但最大收益来自 predict-detach 机制而非邻域族变化。论文Transformer范畴论自条件化扩散模型注意力机制推荐理由:这篇论文用范畴论统一了注意力、扩散和自条件化,做 Transformer 架构研究的开发者会看到新的理论视角;predict-detach 机制带来的收益比改邻域更大,值得关注。原文
12:38arXiv: DeepSeek@Spandan Pratyush精选该论文提出一种基于语法角色(词性标注)的稀疏注意力机制,通过动态生成注意力掩码,只允许语法相关的词对进行交互,从而降低Transformer自注意力的计算复杂度。实验在SST-2情感分类任务上使用DistilBERT架构,硬掩码和软掩码策略分别达到0.8200和0.8165的准确率,与全注意力的0.8200持平,但显著减少了理论计算开销。该方法为构建更高效、可解释且融入语言学知识的Transformer模型提供了新路径。论文稀疏注意力Transformer语法引导可解释性词性标注推荐理由:做NLP模型压缩或可解释性研究的开发者,可以关注这种用语法知识替代暴力稀疏化的思路——既省算力又不掉点,值得在长文本任务上试试。原文
11:44arXiv cs.AI@Sangyun Lee, Sean McLeish, Tom Goldstein, Giulia Fanti精选论文提出一种类似睡眠的记忆巩固机制,让 Transformer 模型在长上下文任务中表现更好。模型在推理过程中定期将近期上下文转换为持久化的快速权重,并清除键值缓存,类似生物体的睡眠过程。在睡眠阶段,模型对积累的上下文进行多次离线循环处理,通过局部学习规则更新状态空间模型(SSM)块中的快速权重。在合成任务(如元胞自动机、多跳图检索)和数学推理任务上,该方法显著优于普通 Transformer 和 SSM-注意力混合模型。增加睡眠时长 N 能持续提升性能,尤其在需要深层推理的样本上效果最明显。论文Transformer长上下文记忆巩固推理模型状态空间模型1 个信源在谈推荐理由:这项研究给长上下文推理带来了新思路——用类似睡眠的离线巩固机制解决注意力瓶颈,做长链推理或复杂数学问题的开发者值得关注,尤其适合处理超长上下文的场景。原文
11:22arXiv cs.LG@Hongwu Peng, Ohiremen Dibua, Yuanjun Xiong, Yifan Gong, Jianming Zhang, Yan Kang精选研究者提出Complete-muE框架,解决了从密集FFN到混合专家(MoE)模型架构的超参数迁移问题。现有方法如μP和SDE无法处理MoE中专家数量变化带来的架构和每个专家token数同时改变的问题。Complete-muE通过双桥系统实现迁移:桥I利用激活宽度μP和归一化路由器尺度映射密集FFN到密集MoE;桥II通过激活专家缩放映射密集MoE到稀疏MoE,并处理一阶SDE学习率/权重衰减校正。实验表明,在语言模型和扩散模型预训练中,该框架能使超参数在多种MoE配置下保持稳定,实现“一次调参,迁移所有”的效果,显著加速MoE模型收敛。论文MoE模型超参数迁移缩放法则Transformer预训练推荐理由:做大规模MoE模型训练的团队终于有了可靠的超参数迁移方案——不用为每个专家配置重新调参,直接复用密集模型的超参数即可,建议做预训练优化的点开看看。原文
10:22arXiv cs.LG@Omar Coser, Loredana Zollo, Paolo Soda, Antonio Orvieto精选Amos等人(2024)发现,Transformer模型在序列分类任务中,先通过掩码标记预测目标进行自预训练(SPT),无需外部数据或增强,即可显著提升准确率。本研究复现并系统消融了该发现,指出瓶颈不在于深度或泛化,而在于标签监督从随机初始化学习有用查询-键注意力模式的能力。通过最小化设置,识别出学习邻近交互——将绝对位置编码转化为邻近偏置注意力分数——是SPT改进的关键来源。在简化理论框架中,证明标签监督对某些注意力分数方向局部不可见,而掩码重建可检测这些方向。论文自预训练Transformer序列分类注意力机制消融研究推荐理由:这篇论文揭示了自预训练提升Transformer序列分类的核心机制——学习邻近交互注意力模式,做序列建模或注意力机制研究的开发者值得深入理解,尤其对改进长序列分类有启发。原文
10:22arXiv cs.LG@Shinnosuke Taksuka, Hideo Mukai精选该研究提出 Musical Attention 机制,通过将小节号、调号、拍号和速度等元信息融入注意力计算,解决 Transformer 生成音乐时常见的重复和音符冗余问题。每个音符被表示为音高、小节号、起始时间、时长、力度及三个元信息共八个特征,注意力机制据此调整相关性权重。实验表明,该方法在音乐连贯性、多样性和整体质量上优于 Full Attention 和 Strided Attention,显著减少重复并增强和声一致性。这项工作是 AI 音乐生成领域的重要进展,有助于生成更自然、富有表现力的旋律。论文音乐生成Transformer注意力机制元信息论文推荐理由:做 AI 音乐生成或音频研究的团队可以关注——这个机制直接解决了 Transformer 生成音乐时“重复啰嗦”的痛点,用元信息让旋律更自然,值得在自家模型上试试。原文
10:22arXiv cs.LG@Tom Jacobs, Rohan Jain, Rebekka Burkholz精选HORST是一种新型优化器,通过组合自适应优化器的L∞稳定性和L1稀疏偏置,解决了稀疏Transformer训练中稳定性和稀疏性难以兼得的问题。它利用非交换算子组合优化几何,基于双曲镜像映射实现鲁棒稀疏训练。实验表明,HORST在视觉和语言任务的Transformer稀疏训练中,在所有稀疏度水平上均显著优于AdamW基线,尤其在高稀疏度下提升巨大。这项工作为高效稀疏模型训练提供了新思路。论文稀疏训练优化器TransformerHORST双曲几何推荐理由:做稀疏模型训练或Transformer优化的研究者,HORST直接解决了AdamW在高稀疏度下效果差的问题,值得在实验中尝试替换优化器。原文
09:46arXiv cs.AI@Paul Lintilhac, Sair Shaikh精选该研究从布尔函数的傅里叶谱角度分析Transformer的泛化行为,提出稀疏且集中在低阶分量的频谱能构造低锐度(low-sharpness)的平坦最小值,从而获得非平凡的泛化界。与以往基于Rademacher复杂度的方法不同,作者利用PAC-Bayes理论证明了只要目标函数的稀疏度不超过上下文长度,就能实现良好泛化。实验和机械可解释性研究支持了理论构造在真实Transformer中的可行性。这项工作为理解Transformer为何能高效泛化提供了新的理论工具。论文Transformer泛化理论PAC-Bayes傅里叶谱可解释性推荐理由:理论研究者终于有了一个更精确的工具来刻画Transformer泛化——傅里叶谱视角比Rademacher复杂度更贴近实际训练行为,做深度学习理论或可解释性的同学值得细读。原文
11:17arXiv cs.LG@Zhen Xiong, Shang-Ling Hsu, Cyrus Shahabi精选TrajTok 是一种新型轨迹编码器,通过自适应多分辨率六边形网格分词和掩码标记预训练,从原始GPS轨迹中学习可迁移的轨迹表征。它解决了传统网格分词中细粒度导致稀疏、粗粒度混淆运动模式的问题。TrajTok 使用分解式Transformer编码器,分别处理几何和运动学特征,并通过交叉注意力融合。在Porto数据集上,冻结的TrajTok编码器配合轻量任务适配器,在轨迹相似性搜索、分类、预计到达时间等任务上超越多个专用方法。这表明多分辨率空间分词与掩码预训练是构建通用轨迹基础模型的有前景方向。论文轨迹表征空间分词Transformer预训练GPS数据推荐理由:做轨迹分析或时空数据挖掘的团队,TrajTok 提供了一种无需为每个任务单独训练模型的通用方案,值得关注其预训练权重和代码开源。原文
14:43arXiv cs.LG@Miguel Farinha, Ronald Clark精选PIXLRelight 提出了一种前馈式单图像重光照方法,通过共享的内在条件(反照率、漫反射阴影和非漫反射残差)桥接物理渲染与学习图像合成。训练时从多光照照片分解出条件,推理时从用户指定 PBR 光源下的粗 3D 重建渲染中计算相同条件,再由基于 Transformer 的神经渲染器应用目标光照。该方法支持任意 PBR 风格的光照控制,重光照质量达到最先进水平,且每张图像处理时间不到 0.1 秒。代码和模型已开源。论文重光照物理渲染内在条件Transformer开源/仓库推荐理由:做图像编辑、3D 重建或影视后期的人终于有了一个又快又可控的重光照工具——PIXLRelight 在 0.1 秒内实现物理级光照控制,比传统方法省去大量优化时间,建议直接试玩开源代码。原文
11:13arXiv cs.LG@Moritz Brösamle, Stephan Eckstein精选这篇论文研究了标准Transformer解码器在低精度(如软注意力、激活值和注意力权重取整)下的表达能力,发现其仍能模拟图灵机。作者通过构建硬注意力Transformer作为中间步骤,证明了软注意力Transformer在链式思维推理中具有强大的计算能力。研究还分析了摘要式链式思维范式,表明其能更高效地模拟图灵机,模型大小仅与空间边界对数相关而非时间边界。在数独推理任务上的实验验证了理论预测,与现有高精度结果相比更符合实际可学习性。代码已开源。论文Transformer链式思维低精度表达能力图灵机模拟推荐理由:这篇论文解决了低精度Transformer在链式思维推理中表达能力的关键理论问题,对研究Transformer计算极限和推理效率的学者很有价值,建议关注其理论突破和实验验证。原文