AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:推理部署×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
13:22
13:22Z.ai (智谱国际)@Zai_org
精选
智谱 AI 在最新博客中分享了 GLM-5 模型大规模部署时遇到的 Scaling Pain 问题及解决方案。团队重现并修复了罕见乱码输出、重复生成和稀有字符生成等异常,追踪并消除了 KV Cache 的竞态条件,修复了 HiCache 同步问题。此外,他们引入了 LayerSplit 技术,使吞吐量提升高达 132%。这些经验教训旨在帮助社区避免类似陷阱,构建更稳健的推理基础设施。
行业GLM-5Scaling Pain推理部署KV Cache性能优化

推荐理由:大模型从实验到生产,Scaling Pain 是绕不过的坎。做推理部署的工程师,这篇博客里的 KV Cache 竞态和 HiCache 同步问题很可能你也会遇到,建议直接收藏。
原文
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
5月30日
11:09
11:09Fireworks AI@FireworksAI_HQ
在GTC 2026大会上,英伟达CEO黄仁勋将AI初创公司Fireworks比喻为“AI工厂的台积电”,强调其在AI基础设施中的关键制造角色。Fireworks是一家专注于AI推理和模型部署的云服务商,提供高效的GPU集群和优化服务。黄仁勋的言论凸显了AI产业链中专业基础设施服务的重要性,类似台积电在半导体制造中的核心地位。这一评价也反映了英伟达对生态合作伙伴的重视,以及AI行业从模型训练向推理部署转移的趋势。
行业英伟达FireworksAI基础设施GTC 2026推理部署

推荐理由:黄仁勋的比喻点明了AI基础设施服务正在成为新产业链的关键环节,做AI部署和推理优化的团队值得关注Fireworks的模式。
原文
5月29日
08:37
08:37NVIDIA AI@NVIDIAAI
精选
NVIDIA官方提供了在NVIDIA GPU上运行Step 3.7 Flash的详细指南。该指南包含部署步骤和性能优化建议,适用于开发者快速上手。开发者可通过NVIDIA开发者博客获取具体操作方法和配置参数。
技巧Step 3.7 FlashNVIDIAGPU部署推理部署

推荐理由:教你部署Step 3.7 Flash
原文
精选全部日报登录