AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:缩放定律×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月13日
13:28
13:28Together AI@togethercompute
精选
Dan Fu在斯坦福CS336课程中讲解了推理时的KV缓存、prefill/decode分离技术,以及大规模推理的架构。他介绍了Megakernels,通过融合GPU操作实现接近光速的LLM解码。还讨论了Parcae,解释了循环Transformer的扩展问题及其修复方法,并提出了新的缩放定律,暗示现有方法可能未充分利用智能潜力。
论文KV缓存MegakernelsParcae缩放定律推理优化

推荐理由:Dan Fu讲KV缓存和Parcae新缩放定律
原文
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
5月16日
14:05
14:05Clement Delangue@ClementDelangue
精选73°
Datadog 发布了 Toto 2.0 系列时间序列基础模型,参数规模从 4M 到 2.5B,采用 Apache 2.0 开源协议。该系列模型在 BOOM、GIFT-Eval 和 TIME 等主流基准测试中均取得领先成绩,且每个更大规模的模型性能都优于较小的模型。这是时间序列领域首次出现清晰的缩放定律曲线,意味着研究人员可以像语言和视觉模型那样,通过增加数据和计算量来可靠地提升模型性能。2.5B 和 4M 参数的模型权重已在 Hugging Face 上开源。
AI模型时间序列基础模型缩放定律开源/仓库DatadogToto 2.0

推荐理由:时间序列领域终于有了可预测的缩放定律,做时序预测的团队可以像训练语言模型一样放心堆数据和算力,建议直接下载权重试试。
原文
5月15日
08:58
08:58Ethan Mollick@emollick
Ethan Mollick 指出,第二条缩放定律(Second Scaling Law)依然未被打破:只要增加 LLM 的思考 token(thinking tokens),就能在黑客攻击、数学、科学、填字游戏等任务上获得更好表现。目前尚未观察到性能平台期。这一发现对依赖推理能力的 AI 应用开发者有直接指导意义,意味着通过增加计算资源(而非仅扩大模型规模)即可持续提升模型在复杂任务上的表现。
论文缩放定律推理模型思考 tokenLLM 性能Ethan Mollick

推荐理由:做 LLM 推理优化或复杂任务应用的团队,这条定律意味着你不需要等更大模型——加思考 token 就能直接提升效果,值得在现有模型上试试。
原文
5月14日
18:29
18:29Meta AI@AIatMeta
精选
Meta 宣布其新模型 Muse Spark 在预训练、强化学习和测试时推理三个维度上实现了可预测且高效的扩展。通过重建预训练栈,包括改进模型架构、优化和数据整理,Muse Spark 在达到相同能力水平时所需的计算量比前代 Llama 4 Maverick 减少了一个数量级。Meta 分享了其缩放定律研究方法,展示了 Muse Spark 在效率上的显著提升,旨在构建个人超级智能。
AI模型Muse SparkLlama 4预训练缩放定律效率优化

推荐理由:Meta 用实际数据证明了 Muse Spark 的预训练效率比 Llama 4 提升 10 倍以上,做模型训练或资源优化的团队值得关注其缩放定律方法,可以直接借鉴来评估自己的模型效率。
原文
精选全部日报登录