13:28Together AI@togethercompute精选Dan Fu在斯坦福CS336课程中讲解了推理时的KV缓存、prefill/decode分离技术,以及大规模推理的架构。他介绍了Megakernels,通过融合GPU操作实现接近光速的LLM解码。还讨论了Parcae,解释了循环Transformer的扩展问题及其修复方法,并提出了新的缩放定律,暗示现有方法可能未充分利用智能潜力。论文KV缓存MegakernelsParcae缩放定律推理优化推荐理由:Dan Fu讲KV缓存和Parcae新缩放定律原文
14:05Clement Delangue@ClementDelangue精选73°Datadog 发布了 Toto 2.0 系列时间序列基础模型,参数规模从 4M 到 2.5B,采用 Apache 2.0 开源协议。该系列模型在 BOOM、GIFT-Eval 和 TIME 等主流基准测试中均取得领先成绩,且每个更大规模的模型性能都优于较小的模型。这是时间序列领域首次出现清晰的缩放定律曲线,意味着研究人员可以像语言和视觉模型那样,通过增加数据和计算量来可靠地提升模型性能。2.5B 和 4M 参数的模型权重已在 Hugging Face 上开源。AI模型时间序列基础模型缩放定律开源/仓库DatadogToto 2.0推荐理由:时间序列领域终于有了可预测的缩放定律,做时序预测的团队可以像训练语言模型一样放心堆数据和算力,建议直接下载权重试试。原文
08:58Ethan Mollick@emollickEthan Mollick 指出,第二条缩放定律(Second Scaling Law)依然未被打破:只要增加 LLM 的思考 token(thinking tokens),就能在黑客攻击、数学、科学、填字游戏等任务上获得更好表现。目前尚未观察到性能平台期。这一发现对依赖推理能力的 AI 应用开发者有直接指导意义,意味着通过增加计算资源(而非仅扩大模型规模)即可持续提升模型在复杂任务上的表现。论文缩放定律推理模型思考 tokenLLM 性能Ethan Mollick推荐理由:做 LLM 推理优化或复杂任务应用的团队,这条定律意味着你不需要等更大模型——加思考 token 就能直接提升效果,值得在现有模型上试试。原文
18:29Meta AI@AIatMeta精选Meta 宣布其新模型 Muse Spark 在预训练、强化学习和测试时推理三个维度上实现了可预测且高效的扩展。通过重建预训练栈,包括改进模型架构、优化和数据整理,Muse Spark 在达到相同能力水平时所需的计算量比前代 Llama 4 Maverick 减少了一个数量级。Meta 分享了其缩放定律研究方法,展示了 Muse Spark 在效率上的显著提升,旨在构建个人超级智能。AI模型Muse SparkLlama 4预训练缩放定律效率优化推荐理由:Meta 用实际数据证明了 Muse Spark 的预训练效率比 Llama 4 提升 10 倍以上,做模型训练或资源优化的团队值得关注其缩放定律方法,可以直接借鉴来评估自己的模型效率。原文