精选 AI 资讯 · AI 热点

6月13日

13:28

Together AI@togethercompute

精选

Dan Fu在斯坦福CS336课程中讲解了推理时的KV缓存、prefill/decode分离技术，以及大规模推理的架构。他介绍了Megakernels，通过融合GPU操作实现接近光速的LLM解码。还讨论了Parcae，解释了循环Transformer的扩展问题及其修复方法，并提出了新的缩放定律，暗示现有方法可能未充分利用智能潜力。

论文 KV缓存 Megakernels Parcae 缩放定律推理优化

推荐理由：Dan Fu讲KV缓存和Parcae新缩放定律

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月4日

11:02

arXiv cs.AI@Zhen Yang, Xiaogang Xu, Wen Wang, Cong Chen, Xander Xu, Ying-Cong Chen

精选76°

多智能体推理系统通常采用“先生成再传输”的范式，导致端到端延迟随流水线深度线性增长。StreamMA 提出流式方案，每个推理步骤生成后立即流式传输给下游智能体，实现流水线并行，显著降低延迟。令人意外的是，这种流水线还提升了效果：因为多步推理质量不均匀，早期步骤更可靠，使用早期步骤而非完整链条可防止错误后期步骤误导下游智能体。在数学、科学和代码等八个推理基准上，StreamMA 平均提升 7.3 个百分点，最高提升 22.4 个百分点。研究还发现了“步骤级缩放定律”：增加每个智能体的步骤数能同时提升效果和效率，这是一个与智能体数量缩放正交的新维度。

论文多智能体推理系统流式通信延迟优化缩放定律

推荐理由：做多智能体系统或推理管线的开发者，StreamMA 用流式通信同时解决了延迟和效果问题，值得直接参考实现思路。

原文

6月3日

10:46

arXiv cs.LG@Amil Dravid, Yasaman Bahri, Alexei A. Efros, Yossi Gandelsman

精选

该研究探讨了神经网络中神经元群体是否随模型规模可预测地演化，扩展了缩放定律至损失等宏观可观测指标之外。通过分析高达30B参数的语言模型和5B参数的视觉模型，发现Rosetta神经元（跨独立训练模型激活模式相似的神经元）数量随规模呈亚线性幂律增长，但占总神经元比例缩小。研究还观察到“神经元极化效应”：Rosetta神经元随规模增加变得更选择性、更单语义，而非Rosetta神经元则保持较低选择性。一个平衡特征效用与有限神经元容量的分析模型解释了这种亚线性缩放和极化效应。结果表明存在可解释的、共享的神经元级结构缩放定律，将模型大小与神经元普遍性、选择性和专门化的系统性变化联系起来。

论文缩放定律神经元可解释性 Rosetta神经元模型规模单语义性

推荐理由：这项研究揭示了模型规模如何影响神经元的可解释性和专门化，对理解大模型内部机制和设计更高效架构的AI研究者有直接参考价值，建议关注其缩放定律的实践意义。

原文

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

5月27日

10:30

arXiv cs.AI@Yanbei Chen, Hanxian Huang, Ernie Chang, Jacob Szwejbka, Digant Desai, Zechun Liu, Vikas Chandra, Raghuraman Krishnamoorthi

精选76°

MobileMoE 是一系列专为移动设备设计的混合专家（MoE）语言模型，活跃参数在0.3B到0.9B之间，总参数1.3B到5.3B。研究团队首次提出了面向设备端的MoE缩放定律，在内存和计算约束下优化架构，找到了中等稀疏度与细粒度共享专家的最佳平衡点。模型采用四阶段训练流程（预训练、中训练、指令微调、量化感知训练），全部基于开源数据集。在14个基准测试中，MobileMoE以2-4倍更少的推理FLOPs匹配或超越领先的密集模型，并以最多60%更少的参数超越SOTA MoE模型OLMoE-1B-7B。在商用智能手机上，MobileMoE-S在INT4权重内存下比密集基线MobileLLM-Pro实现1.8-3.8倍更快的预填充和2.2-3.4倍更快的解码。

论文 MoE 移动端部署缩放定律量化训练 MobileMoE

推荐理由：MobileMoE解决了移动端大模型部署的算力与内存瓶颈，做端侧AI应用或手机端推理的开发者可以直接参考其架构和训练方案，实测性能提升显著。

原文

5月25日

11:12

arXiv cs.AI@Xu Ouyang, Deyi Liu, Yuhang Cai, Jing Liu, Yuan Yang, Chen Zheng, Thomas Hartvigsen, Yiyuan Ma

精选

现有的大语言模型缩放定律（如单调幂律）无法解释灾难性过训练和量化退化等非单调现象。研究者提出香农缩放定律，将LLM训练建模为噪声信道上的信息传输，基于香农-哈特利定理，将模型参数映射为信道带宽，训练token映射为信号功率。该理论揭示了LLM的香农容量：若缩放模型或数据时未保持足够信噪比，噪声放大将导致性能从单调提升转为U形退化。在Pythia和OLMo2上的实验验证了该定律，其预测准确率优于经典缩放定律，并能外推到未见模型。

论文缩放定律香农容量噪声信道 LLM训练理论框架

推荐理由：香农缩放定律统一解释了LLM训练中的非单调退化现象，做模型缩放和训练优化的研究者可以直接用这个框架预测性能拐点，避免盲目增加计算量。

原文

5月19日

14:27

arXiv cs.AI@Matthew L. Smith, Jonathan P. Shock, Samuel T. Segun, Iyiola E. Olatunji, Tegawendé F. Bissyandé

精选

该研究揭示了大型语言模型（LLM）的事实回忆能力与模型参数数量和训练数据中主题频率之间存在可预测的缩放规律。研究团队评估了38个模型在超过8900个学术参考文献上的表现，发现回忆质量遵循模型参数与主题表示的对数线性组合的S形曲线。这两个变量单独解释了16个密集模型（来自四个模型家族）中60%的方差，在单个家族内解释力升至74-94%。该规律符合一种基于信号噪声比的解释：信号强度随概念频率增加，噪声基底随模型容量增加。

论文缩放定律事实回忆模型大小训练数据频率学术引用

推荐理由：这项研究为LLM的事实回忆能力提供了可预测的缩放规律，做模型评估或训练数据设计的团队可以直接用这个规律来预估模型表现，值得关注。

原文

5月16日

14:05

Clement Delangue@ClementDelangue

精选73°

Datadog 发布了 Toto 2.0 系列时间序列基础模型，参数规模从 4M 到 2.5B，采用 Apache 2.0 开源协议。该系列模型在 BOOM、GIFT-Eval 和 TIME 等主流基准测试中均取得领先成绩，且每个更大规模的模型性能都优于较小的模型。这是时间序列领域首次出现清晰的缩放定律曲线，意味着研究人员可以像语言和视觉模型那样，通过增加数据和计算量来可靠地提升模型性能。2.5B 和 4M 参数的模型权重已在 Hugging Face 上开源。

AI模型时间序列基础模型缩放定律开源/仓库 Datadog Toto 2.0

推荐理由：时间序列领域终于有了可预测的缩放定律，做时序预测的团队可以像训练语言模型一样放心堆数据和算力，建议直接下载权重试试。

原文

5月14日

18:29

Meta AI@AIatMeta

精选

Meta 宣布其新模型 Muse Spark 在预训练、强化学习和测试时推理三个维度上实现了可预测且高效的扩展。通过重建预训练栈，包括改进模型架构、优化和数据整理，Muse Spark 在达到相同能力水平时所需的计算量比前代 Llama 4 Maverick 减少了一个数量级。Meta 分享了其缩放定律研究方法，展示了 Muse Spark 在效率上的显著提升，旨在构建个人超级智能。

AI模型 Muse Spark Llama 4 预训练缩放定律效率优化

推荐理由：Meta 用实际数据证明了 Muse Spark 的预训练效率比 Llama 4 提升 10 倍以上，做模型训练或资源优化的团队值得关注其缩放定律方法，可以直接借鉴来评估自己的模型效率。

原文