18:43Together AI@togethercomputeTogether AI 在推文中指出,当团队运行数十亿 tokens 时,缓存、吞吐量和服务效率的微小差异会转化为产品级的经济性。以 MiniMax M3 模型为例,该模型在 Together AI 平台上提供前沿品质和开放模型经济学,其服务栈专为规模化设计。这体现了开放模型在生产中的实际成本竞争力。AI模型MiniMax M3Together AI开放模型推理效率经济性2 个信源在谈推荐理由:看看 Together AI 怎么用 MiniMax M3 把开放模型做大,跑几十亿 tokens 还省钱。不是吹概念,是实打实的缓存和吞吐量优化。原文
01:32SiliconFlowAI@siliconflowai精选MoonshotAI 基于 K2.6 推出了 Kimi K2.7 Code,参数量为 32B 激活/1T 总参数,支持交错思考与多步工具调用。相比 K2.6,推理 token 使用量降低 30%,在编码与指令遵循上表现提升,接近 GPT-5.5 和 Opus 4.8。定价为缓存输入/输入/输出每百万 token 0.19/0.94/4.00 美元。该模型可在 SiliconFlow 上使用。AI模型Kimi K2.7 CodeMoonshotAI编码模型推理效率VLM5 个信源在谈推荐理由:想少想多做?K2.7 Code 编码专用,推理开销比 K2.6 低三成,还能对标 GPT-5.5,适合写代码时不用纠结。原文
21:33kimi_moonshot@kimi_moonshot月之暗面发布并开源了最新编程模型 Kimi-K2.7-Code,相比 K2.6 在 Kimi Code Bench v2 上提升 21.8%,在 Program Bench 上提升 11.0%,在 MLS Bench Lite 上提升 31.5%。该模型减少了过度思考,推理 token 使用量降低 30%,同时改进了长时编程任务中的指令遵循和成功率。模型已通过 Kimi API 和 Kimi Code 可用,即将推出 6 倍高速模式。AI模型编程模型开源/仓库推理效率智能体Kimi推荐理由:Kimi-K2.7-Code 在编程和智能体任务上显著超越前代,且推理更高效,做 AI 编程或智能体开发的团队可以直接通过 API 或 Kimi Code 试用,值得关注。原文
12:49Fireworks AI@FireworksAI_HQ精选72°Step 3.7 Flash 是阶跃星辰(StepFun)发布的 198B 稀疏 MoE 视觉语言模型,专为推理效率从头设计。该模型包含 196B 语言骨干和 1.8B 视觉编码器,支持原生多模态理解和行动,可靠工具使用,以及增强的网页和视觉搜索。在真实智能体工作负载下,推理速度可达 400 tok/sec,并采用 Apache 2.0 开源许可。Fireworks AI 已提供在线试用。AI模型视觉语言模型稀疏MoE推理效率智能体StepFun1 个信源在谈推荐理由:多数实验室事后才考虑推理效率,而 Step 3.7 Flash 从设计之初就为推理优化,做智能体应用和视觉语言模型的开发者可以直接试用,感受 400 tok/sec 的流畅体验。原文
07:56Fireworks AI@FireworksAI_HQ精选76°StepFun 发布 Step 3.7 Flash,一个 196B 参数的 MoE 模型,从设计之初就针对推理效率进行优化。它采用多矩阵分解注意力(MFA)技术,KV-cache 仅为 DeepSeek 的约 22%,并通过注意力-FFN 解耦(AFD)实现硬件优化的服务。模型在 ClawEval-1.1、SimpleVQA Search 等基准测试中排名第一,支持 400 TPS 的推理速度,256K 上下文窗口,并具备三种推理级别。它专为智能体、编程、搜索和多模态工作流设计,支持本地运行(如 Mac Studio M4 Max),并采用 Apache 2.0 许可证开放权重。AI模型Step 3.7 FlashMoE推理效率MFAApache 2.0推荐理由:Step 3.7 Flash 把推理效率从模型设计阶段就考虑进去,做智能体或搜索应用的团队可以直接在 Fireworks 上试用,成本可能比 DeepSeek 低很多。原文
02:11rohanpaul_ai@rohanpaul_aiNvidia的Shruti Koparkar提出,并非所有token都等价,其价值由嵌入的智能密度和生成速度共同决定。慢速token即使计算成本低,也可能因延迟破坏产品体验;快速token若推理浅薄或输出冗余,同样浪费。不同场景(如医疗分诊、编程助手、购物聊天)对token的需求截然不同,token经济应从用户对不确定性、延迟和成本的容忍度出发,而非仅看模型菜单。行业token经济AI产品设计延迟优化推理效率Nvidia3 个信源在谈推荐理由:做AI产品定价和优化的团队,这篇能帮你重新理解token的「价值」——不是算力便宜就划算,用户等不起的token再便宜也是浪费。建议结合自己的场景算算账。原文