全部 AI 动态 · AI 热点

6月19日

18:43

18:43

Together AI@togethercompute

Together AI 在推文中指出，当团队运行数十亿 tokens 时，缓存、吞吐量和服务效率的微小差异会转化为产品级的经济性。以 MiniMax M3 模型为例，该模型在 Together AI 平台上提供前沿品质和开放模型经济学，其服务栈专为规模化设计。这体现了开放模型在生产中的实际成本竞争力。

AI模型 MiniMax M3 Together AI 开放模型推理效率经济性

推荐理由：看看 Together AI 怎么用 MiniMax M3 把开放模型做大，跑几十亿 tokens 还省钱。不是吹概念，是实打实的缓存和吞吐量优化。

01:32

01:32

SiliconFlowAI@siliconflowai

精选

MoonshotAI 基于 K2.6 推出了 Kimi K2.7 Code，参数量为 32B 激活/1T 总参数，支持交错思考与多步工具调用。相比 K2.6，推理 token 使用量降低 30%，在编码与指令遵循上表现提升，接近 GPT-5.5 和 Opus 4.8。定价为缓存输入/输入/输出每百万 token 0.19/0.94/4.00 美元。该模型可在 SiliconFlow 上使用。

AI模型 Kimi K2.7 Code MoonshotAI 编码模型推理效率 VLM

推荐理由：想少想多做？K2.7 Code 编码专用，推理开销比 K2.6 低三成，还能对标 GPT-5.5，适合写代码时不用纠结。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

21:33

21:33

kimi_moonshot@kimi_moonshot

月之暗面发布并开源了最新编程模型 Kimi-K2.7-Code，相比 K2.6 在 Kimi Code Bench v2 上提升 21.8%，在 Program Bench 上提升 11.0%，在 MLS Bench Lite 上提升 31.5%。该模型减少了过度思考，推理 token 使用量降低 30%，同时改进了长时编程任务中的指令遵循和成功率。模型已通过 Kimi API 和 Kimi Code 可用，即将推出 6 倍高速模式。

AI模型编程模型开源/仓库推理效率智能体 Kimi

推荐理由：Kimi-K2.7-Code 在编程和智能体任务上显著超越前代，且推理更高效，做 AI 编程或智能体开发的团队可以直接通过 API 或 Kimi Code 试用，值得关注。

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月4日

12:49

12:49

Fireworks AI@FireworksAI_HQ

精选72°

Step 3.7 Flash 是阶跃星辰（StepFun）发布的 198B 稀疏 MoE 视觉语言模型，专为推理效率从头设计。该模型包含 196B 语言骨干和 1.8B 视觉编码器，支持原生多模态理解和行动，可靠工具使用，以及增强的网页和视觉搜索。在真实智能体工作负载下，推理速度可达 400 tok/sec，并采用 Apache 2.0 开源许可。Fireworks AI 已提供在线试用。

AI模型视觉语言模型稀疏MoE 推理效率智能体 StepFun

推荐理由：多数实验室事后才考虑推理效率，而 Step 3.7 Flash 从设计之初就为推理优化，做智能体应用和视觉语言模型的开发者可以直接试用，感受 400 tok/sec 的流畅体验。

6月2日

07:56

07:56

Fireworks AI@FireworksAI_HQ

精选76°

StepFun 发布 Step 3.7 Flash，一个 196B 参数的 MoE 模型，从设计之初就针对推理效率进行优化。它采用多矩阵分解注意力（MFA）技术，KV-cache 仅为 DeepSeek 的约 22%，并通过注意力-FFN 解耦（AFD）实现硬件优化的服务。模型在 ClawEval-1.1、SimpleVQA Search 等基准测试中排名第一，支持 400 TPS 的推理速度，256K 上下文窗口，并具备三种推理级别。它专为智能体、编程、搜索和多模态工作流设计，支持本地运行（如 Mac Studio M4 Max），并采用 Apache 2.0 许可证开放权重。

AI模型 Step 3.7 Flash MoE 推理效率 MFA Apache 2.0

推荐理由：Step 3.7 Flash 把推理效率从模型设计阶段就考虑进去，做智能体或搜索应用的团队可以直接在 Fireworks 上试用，成本可能比 DeepSeek 低很多。

5月22日

02:11

02:11

rohanpaul_ai@rohanpaul_ai

Nvidia的Shruti Koparkar提出，并非所有token都等价，其价值由嵌入的智能密度和生成速度共同决定。慢速token即使计算成本低，也可能因延迟破坏产品体验；快速token若推理浅薄或输出冗余，同样浪费。不同场景（如医疗分诊、编程助手、购物聊天）对token的需求截然不同，token经济应从用户对不确定性、延迟和成本的容忍度出发，而非仅看模型菜单。

行业 token经济 AI产品设计延迟优化推理效率 Nvidia

推荐理由：做AI产品定价和优化的团队，这篇能帮你重新理解token的「价值」——不是算力便宜就划算，用户等不起的token再便宜也是浪费。建议结合自己的场景算算账。