全部 AI 动态 · AI 热点

6月28日

16:36

16:36

Pandaily@contact@pandaily.com (Pandaily)

76°

北京大学与DeepSeek联合开源了投机解码框架DSpark，该框架无需修改模型即可将LLM推理速度提升60-85%。在严格延迟约束下，吞吐量增益最高达661%。DSpark通过高效的投机解码策略显著降低推理延迟。这一成果已在GitHub上开源。

AI模型 Peking University DeepSeek DSpark LLM 推理优化

推荐理由：北大和DeepSeek搞的DSpark，不用改模型就能让推理快80%，吞吐量翻好几倍，适合做部署的试试。

6月18日

11:09

11:09IT之家（博客/媒体）

72°

华为昇腾宣布0 Day支持智谱GLM-5.2，昇腾A3系列已实现单双机及大EP推理部署。优化技术包括MOE大融合算子、通信与计算融合、注意力前处理与多Token预测、高并发调度与预填充延迟机制等。GLM-5.2在Code Arena盲测中取得全球可用模型第一，拥有1M上下文能力，长程任务表现介于Claude Opus 4.7与4.8之间。该模型在主流编程基准上保持开源SOTA，并已适配华为昇腾等国产算力平台。

AI模型 GLM-5.2 华为昇腾推理优化开源模型代码生成

推荐理由：华为昇腾0 Day适配智谱GLM-5.2，推理优化让长上下文编程更高效，开源模型性能比肩Claude Opus。

05:03

05:03

AWS Machine Learning Blog@Dan Ferguson

AWS 宣布 Amazon SageMaker AI 异步推理（Async Inference）现支持在 InvokeEndpointAsync API 的请求体中直接发送推理负载（inline payload），无需预先上传至 S3。这一功能简化了工作流，减少了与 S3 的交互步骤，并降低了延迟。用户可在请求正文中放入不超过 2MB 的数据，适用于轻量级推理场景。

AI产品 SageMaker 异步推理 inline payload InvokeEndpointAsync 推理优化

推荐理由：AWS SageMaker 异步推理现在可以直接在请求里传数据，不用先传 S3 了，省一步操作。

6月17日

04:25

04:25

AWS Machine Learning Blog@Mona Mona

Amazon SageMaker AI 发布容器镜像缓存功能，针对推理场景优化扩展速度。该功能在模型扩缩容时可将端到端延迟最高提升2倍。它专为生成式AI模型设计，减少冷启动时间。现已可在AWS区域使用。

AI产品 SageMaker AI 容器缓存模型扩展 AWS 推理优化

推荐理由：AWS给SageMaker AI加了容器缓存，扩展时延迟直接减半，适合需要快速响应的生成式AI部署。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月6日

09:43

09:43

Pandaily@contact@pandaily.com (Pandaily)

精选

StepFun 最新模型 Step 3.7 Flash 在 Artificial Analysis 基准测试中夺得速度、成本效率和端到端性能三项第一。该模型在 OpenRouter 和 Hugging Face 上获得大量关注，展现出强大的竞争力。这一成绩表明 StepFun 在推理优化和成本控制方面取得了显著突破，为开发者提供了高性价比的 AI 模型选择。

AI模型 Step 3.7 Flash 基准测试推理优化成本效率 StepFun

推荐理由：做 AI 应用选型或部署推理服务的团队，Step 3.7 Flash 在速度和成本上的优势值得直接对比测试，可能帮你省下不少预算。

5月28日

10:33

10:33IT之家（博客/媒体）

83°

小米 MiMo 官方宣布 MiMo-V2.5 系列 API 永久降价，最高降幅达 99%，且不再区分上下文窗口长度。小米 MiMo 负责人罗福莉在 X 平台发文解释，降价主要得益于推理框架对 SWA 的分层 KV 缓存优化，将缓存 Token 容量提升 5 倍，降低 80% 缓存成本。此外，模型架构的 1:7 Full:SWA 稀疏比使原始推理成本远低于行业平均水平，留有 2 到 3 倍利润空间。降价后，生产推理引擎接近满负载运行，仍能维持收支平衡。罗福莉认为，合理定价的 API 将驱动真实推理需求，拉动 AI 基础设施链发展，形成良性循环。

AI产品 MiMo API降价推理优化 KV缓存成本优势

推荐理由：小米 MiMo 用架构和推理优化把 API 价格打下来，做 AI 应用开发的团队可以直接用更低成本调用高性能模型，建议关注后续技术博客。

5月26日

05:31

05:31

marktechpost@Asif Razzaq

72°

Together AI 开源了 OSCAR，一种面向长上下文 LLM 推理的 INT2 KV 缓存量化方法。与依赖数据无关的 Hadamard 变换不同，OSCAR 通过离线估计注意力感知的协方差结构，为键和值分别推导旋转矩阵。在 Qwen3-4B-Thinking-2507 和 Qwen3-8B 上，OSCAR 以每 KV 元素 2.28 比特的精度，将 BF16 精度差距分别缩小至 3.78 和 1.42 分。该方法可实现约 8 倍的 KV 内存缩减，并在 100K 上下文长度下带来最高 3 倍的解码加速。

AI模型量化 KV 缓存长上下文 Together AI 推理优化

推荐理由：长上下文 LLM 推理的内存瓶颈终于有了实用解法——OSCAR 在 2-bit 量化下几乎不损失精度，做长文档/多轮对话推理的团队可以直接集成，显著降低硬件成本。

5月25日

13:26

13:26

爱范儿@Selina

中国 AI 公司成功将 600 亿参数的大模型部署到手机上，突破了模型体积与移动端算力的瓶颈。这一进展依赖于国产框架、芯片和模型的闭环生态，实现了从方法论到硬件的完全自主。该技术让手机端运行超大模型成为可能，显著提升本地 AI 能力，减少对云端的依赖。关键细节包括模型压缩和推理优化技术，使得在有限内存和功耗下高效运行。这对移动 AI 应用和国产技术生态具有重要意义。

AI产品大模型手机部署国产技术模型压缩推理优化

推荐理由：手机端跑 600 亿参数模型不再是梦，做移动端 AI 应用或关注国产技术生态的开发者，值得关注这一突破，它可能改变未来手机 AI 的玩法。