16:36Pandaily@contact@pandaily.com (Pandaily)76°北京大学与DeepSeek联合开源了投机解码框架DSpark,该框架无需修改模型即可将LLM推理速度提升60-85%。在严格延迟约束下,吞吐量增益最高达661%。DSpark通过高效的投机解码策略显著降低推理延迟。这一成果已在GitHub上开源。AI模型Peking UniversityDeepSeekDSparkLLM推理优化推荐理由:北大和DeepSeek搞的DSpark,不用改模型就能让推理快80%,吞吐量翻好几倍,适合做部署的试试。原文
11:09IT之家(博客/媒体)72°华为昇腾宣布0 Day支持智谱GLM-5.2,昇腾A3系列已实现单双机及大EP推理部署。优化技术包括MOE大融合算子、通信与计算融合、注意力前处理与多Token预测、高并发调度与预填充延迟机制等。GLM-5.2在Code Arena盲测中取得全球可用模型第一,拥有1M上下文能力,长程任务表现介于Claude Opus 4.7与4.8之间。该模型在主流编程基准上保持开源SOTA,并已适配华为昇腾等国产算力平台。AI模型GLM-5.2华为昇腾推理优化开源模型代码生成推荐理由:华为昇腾0 Day适配智谱GLM-5.2,推理优化让长上下文编程更高效,开源模型性能比肩Claude Opus。原文
05:03AWS Machine Learning Blog@Dan FergusonAWS 宣布 Amazon SageMaker AI 异步推理(Async Inference)现支持在 InvokeEndpointAsync API 的请求体中直接发送推理负载(inline payload),无需预先上传至 S3。这一功能简化了工作流,减少了与 S3 的交互步骤,并降低了延迟。用户可在请求正文中放入不超过 2MB 的数据,适用于轻量级推理场景。AI产品SageMaker异步推理inline payloadInvokeEndpointAsync推理优化1 个信源在谈推荐理由:AWS SageMaker 异步推理现在可以直接在请求里传数据,不用先传 S3 了,省一步操作。原文
04:25AWS Machine Learning Blog@Mona MonaAmazon SageMaker AI 发布容器镜像缓存功能,针对推理场景优化扩展速度。该功能在模型扩缩容时可将端到端延迟最高提升2倍。它专为生成式AI模型设计,减少冷启动时间。现已可在AWS区域使用。AI产品SageMaker AI容器缓存模型扩展AWS推理优化推荐理由:AWS给SageMaker AI加了容器缓存,扩展时延迟直接减半,适合需要快速响应的生成式AI部署。原文
09:43Pandaily@contact@pandaily.com (Pandaily)精选StepFun 最新模型 Step 3.7 Flash 在 Artificial Analysis 基准测试中夺得速度、成本效率和端到端性能三项第一。该模型在 OpenRouter 和 Hugging Face 上获得大量关注,展现出强大的竞争力。这一成绩表明 StepFun 在推理优化和成本控制方面取得了显著突破,为开发者提供了高性价比的 AI 模型选择。AI模型Step 3.7 Flash基准测试推理优化成本效率StepFun推荐理由:做 AI 应用选型或部署推理服务的团队,Step 3.7 Flash 在速度和成本上的优势值得直接对比测试,可能帮你省下不少预算。原文
10:33IT之家(博客/媒体)83°小米 MiMo 官方宣布 MiMo-V2.5 系列 API 永久降价,最高降幅达 99%,且不再区分上下文窗口长度。小米 MiMo 负责人罗福莉在 X 平台发文解释,降价主要得益于推理框架对 SWA 的分层 KV 缓存优化,将缓存 Token 容量提升 5 倍,降低 80% 缓存成本。此外,模型架构的 1:7 Full:SWA 稀疏比使原始推理成本远低于行业平均水平,留有 2 到 3 倍利润空间。降价后,生产推理引擎接近满负载运行,仍能维持收支平衡。罗福莉认为,合理定价的 API 将驱动真实推理需求,拉动 AI 基础设施链发展,形成良性循环。AI产品MiMoAPI降价推理优化KV缓存成本优势推荐理由:小米 MiMo 用架构和推理优化把 API 价格打下来,做 AI 应用开发的团队可以直接用更低成本调用高性能模型,建议关注后续技术博客。原文
05:31marktechpost@Asif Razzaq72°Together AI 开源了 OSCAR,一种面向长上下文 LLM 推理的 INT2 KV 缓存量化方法。与依赖数据无关的 Hadamard 变换不同,OSCAR 通过离线估计注意力感知的协方差结构,为键和值分别推导旋转矩阵。在 Qwen3-4B-Thinking-2507 和 Qwen3-8B 上,OSCAR 以每 KV 元素 2.28 比特的精度,将 BF16 精度差距分别缩小至 3.78 和 1.42 分。该方法可实现约 8 倍的 KV 内存缩减,并在 100K 上下文长度下带来最高 3 倍的解码加速。AI模型量化KV 缓存长上下文Together AI推理优化推荐理由:长上下文 LLM 推理的内存瓶颈终于有了实用解法——OSCAR 在 2-bit 量化下几乎不损失精度,做长文档/多轮对话推理的团队可以直接集成,显著降低硬件成本。原文
13:26爱范儿@Selina中国 AI 公司成功将 600 亿参数的大模型部署到手机上,突破了模型体积与移动端算力的瓶颈。这一进展依赖于国产框架、芯片和模型的闭环生态,实现了从方法论到硬件的完全自主。该技术让手机端运行超大模型成为可能,显著提升本地 AI 能力,减少对云端的依赖。关键细节包括模型压缩和推理优化技术,使得在有限内存和功耗下高效运行。这对移动 AI 应用和国产技术生态具有重要意义。AI产品大模型手机部署国产技术模型压缩推理优化推荐理由:手机端跑 600 亿参数模型不再是梦,做移动端 AI 应用或关注国产技术生态的开发者,值得关注这一突破,它可能改变未来手机 AI 的玩法。原文