04:31Latent.Space@latentspacepod73°AMP 创始人 Anjney Midha 在播客中分享 Google 内部将 95% GPU 利用率视为“故障”的标准,指出单纯购买更多 GPU 已非 AI 竞争核心。他介绍 AMP 正推动将 FLOPs 像兆瓦级电力一样调度,并警告数据中心阻力可能成为 AI 最大瓶颈之一。同时分析 Anthropic 通过独特文化和准备在编码领域取得突破,DeepMind 的研究囤积导致市场失灵,强调下一个前沿属于能在计算、资本、文化和科学上“最大化输出”的团队。行业AnthropicDeepMindAMPGPU数据中心计算效率10 个信源在谈推荐理由:想知道为什么买更多 GPU 不灵了?Anthropic 是怎么靠文化和准备搞定编码的?AMP 创始人讲得特别透,全是内行视角的干货。原文
10:43arXiv cs.AI@Depen Morwani, Alexandru Meterez, Pranav Nair, Sham Kakade精选该论文研究了随机重球法(HB)和加速SGD(ASGD)在一致线性回归中的计算效率与串行运行时间权衡。结果表明HB在任意谱下无法超越SGD的计算效率前沿,但允许在比SGD临界批量大sqrtκ倍的窗口内减少串行运行时间。ASGD在快速衰减幂律谱下可提升小批量计算效率,但随着批量增大,牺牲效率换取更优串行时间。合成线性回归实验验证了这些定性规律。论文HBASGDSGD随机动量方法计算效率推荐理由:这篇论文把HB和ASGD在批量大小上的效率权衡讲清楚了,特别是那个sqrtκ倍的窗口,对想用动量方法加速训练的人很有参考价值。原文
09:44arXiv: DeepSeek@Joshua Ong Jun Leang, Zheng Zhao, Mihaela Cătălina Stoian, Qiyuan Xu, Haonan Li, Wenda Li, Shay B. Cohen, Eleonora Giunchiglia精选73°Pythagoras-Prover 是一个计算高效的 Lean 定理证明器系列,包含 4B 和 32B 参数的自回归模型,以及首个基于扩散的证明器(4B)。通过课程式监督微调和动态证明过滤,训练效率大幅提升。其 4B 模型在 MiniF2F-Test 上以 86.1% 的 pass@32 超越 DeepSeek-Prover-V2-671B(82.4%),参数减少约 167 倍;32B 模型达到 93.0%,创下开源新纪录。团队还提出了增强型 Lean 形式化方法(ALF),通过扰动已知问题生成变体,减少对表面形式的依赖,并发布了 MiniF2F-ALF 基准。论文定理证明器LeanPythagoras-Prover形式化验证计算效率推荐理由:形式化证明领域终于有了计算高效的实用方案——4B 模型就能超越 671B 巨无霸,做定理证明或形式化验证的团队可以直接用,省下大量算力成本。原文
09:09arXiv cs.AI@Joe Dwyer本研究在固定计算预算下训练了一个4.26百万参数的Llama风格小模型,使用TinyStories语料库和CPU全精度训练,累计约2000万训练Token。通过重复测量设计,在21个间隔收集了验证损失、困惑度、波动性等指标。结果显示,验证损失从初始的8.3552迅速降至约400万Token时的2.7996,但最终回升至3.9010,困惑度也呈现先降后升的非单调模式。研究还发现了验证损失的反复回退现象,且未观察到稳定阶段。这表明在计算受限环境下,仅依赖最终指标评估模型效率可能掩盖训练过程中的不稳定性、退化及收益递减问题。论文训练动力学小模型Token预算验证损失计算效率推荐理由:这篇论文戳破了「更多Token=更好模型」的直觉,做小模型训练或资源受限场景的开发者会看到训练轨迹比终点指标更关键,建议点开看看如何用间隔遥测避免白费算力。原文
10:35arXiv cs.LG@Simon Schug该研究提出了一种名为Sgatlin(稀疏门控线性神经元)的新型网络结构,通过将每个专家缩小为单个神经元并移除非线性激活函数,在保持稀疏性的同时提升了计算效率。在等计算量对比中,用Sgatlin替换Transformer的前馈层可改善语言模型的困惑度。此外,稀疏性和线性结构使得模型更易解释,无需额外训练即可分析前馈电路,发现其形成语义聚类并参与事实回忆。这项工作为构建计算高效且可解释的Transformer前馈层提供了新思路。论文稀疏门控线性专家Transformer可解释性计算效率推荐理由:这项研究用极简设计同时提升了Transformer的计算效率和可解释性,做模型压缩或可解释性研究的团队值得关注,尤其是对MoE稀疏化方向感兴趣的开发者可以看看。原文
12:02arXiv cs.LG@Henry Kasumba, Ronald Katende该研究提出一种混合策略,利用物理信息神经网络(PINN)作为离网残差探针,为有限差分求解器提供自适应网格细化(AMR)指导。PINN在域内采样残差并转换为单元级指示器,引导网格加密,最终由经典有限差分求解器完成近似计算。在一维粘性Burgers方程测试中,PINN阈值细化方法仅用60个自由度即达到0.021067的相对L²误差,而均匀细化需192个自由度才达到0.022617,误差降低约67.5%。在2D和3D代理测试中,PINN残差能组织结构化细化并优于随机细化,但未持续超越梯度指示器。该方法将物理信息诊断能力融入经典求解器,在保持可靠性的同时提升计算效率。论文物理信息神经网络自适应网格细化有限差分求解器计算效率PINN推荐理由:做偏微分方程数值模拟的团队,可以用PINN残差替代传统误差估计器来指导网格自适应,显著节省计算资源——60个自由度就能达到192个自由度的精度,值得在工程仿真中试试。原文
11:05arXiv cs.AI@Lukas Aichberger, Sepp Hochreiter精选论文提出 Reasoning in Memory (RiM) 方法,用固定内存块替代自回归生成推理步骤,让大模型在单次前向传播中完成潜在推理。该方法受人类工作记忆启发,通过两阶段课程训练:先预测显式推理步骤来锚定内存块,再丢弃步骤级监督直接优化最终答案。实验表明,RiM 在多个推理基准上匹配或超越现有潜在推理方法,且计算效率更高。这为提升大模型推理能力提供了新思路,尤其适合需要高效推理的场景。论文推理模型潜在推理工作记忆计算效率RiM推荐理由:RiM 解决了自回归推理计算效率低的问题,做模型推理优化的研究者可以直接参考其两阶段训练方法。原文
09:46arXiv cs.AI@Yan Xia, Zhuangzhuang Pan, Amirrudin Kamsin, Chee Seng Chan精选多方面情感分析(ATSA)中,现有模型要么为每个方面重新编码句子,要么静态使用深层表示,导致计算冗余和适应性不足。DABS 提出单次推理框架,仅对句子编码一次,构建可复用的深度排序基板,每个方面通过查询该基板选择性读取相关 token 和抽象层级,无需重新编码。在四个基准测试中,DABS 在保持竞争性能的同时,将端到端计算量减少高达 60%,尤其在否定和对比等复杂语言场景中优势明显。代码已开源。论文情感分析单次推理深度选择性读取计算效率开源/仓库推荐理由:做情感分析或文本分类的团队,DABS 用单次编码解决了多方面的计算冗余问题,直接复用编码结果能省 60% 算力,建议试试这个轻量方案。原文