23:00techcrunch@Russell Brandom73°OpenAI携手博通推出其首款定制芯片Jalapeño。该芯片专门为OpenAI的推理系统需求设计。Jalapeño由博通制造,旨在优化推理性能。AI产品OpenAIBroadcomJalapeño芯片推理系统10 个信源在谈推荐理由:OpenAI自己搞了个推理芯片叫Jalapeño,博通代工,以后推理速度可能更快。原文
11:02arXiv cs.AI@Zhen Yang, Xiaogang Xu, Wen Wang, Cong Chen, Xander Xu, Ying-Cong Chen精选76°多智能体推理系统通常采用“先生成再传输”的范式,导致端到端延迟随流水线深度线性增长。StreamMA 提出流式方案,每个推理步骤生成后立即流式传输给下游智能体,实现流水线并行,显著降低延迟。令人意外的是,这种流水线还提升了效果:因为多步推理质量不均匀,早期步骤更可靠,使用早期步骤而非完整链条可防止错误后期步骤误导下游智能体。在数学、科学和代码等八个推理基准上,StreamMA 平均提升 7.3 个百分点,最高提升 22.4 个百分点。研究还发现了“步骤级缩放定律”:增加每个智能体的步骤数能同时提升效果和效率,这是一个与智能体数量缩放正交的新维度。论文多智能体推理系统流式通信延迟优化缩放定律推荐理由:做多智能体系统或推理管线的开发者,StreamMA 用流式通信同时解决了延迟和效果问题,值得直接参考实现思路。原文
10:52Google AI Developers@googleaidevs在 Google I/O 大会后,Cerebral Valley 社区与 Google DeepMind 在旧金山举办了一场周末黑客松,开发者们利用最新的 Gemini 和 Gemma 能力,将多模态智能体、语音界面和长时推理系统等前沿概念转化为实际产品。获奖团队展示了 Gemini 3.5 Flash 在构建复杂 AI 应用中的潜力。此次活动体现了从技术发布到社区落地的快速转化,激励更多开发者探索 AI 的实用边界。AI产品Gemini 3.5 Flash黑客松多模态智能体语音接口推理系统推荐理由:想看看 Gemini 3.5 Flash 在真实场景中能跑多远?这场黑客松的获奖项目就是最好的参考——做多模态应用或语音交互的开发者值得关注这些实战案例。原文
00:04IT之家(博客/媒体)精选76°小米 MiMo-V2.5 系列 API 完成永久降价,最高降幅达 99%,并首次公开推理系统全链路优化方案。该方案围绕 Hybrid SWA + MoE + 多模态架构,重构了 KVCache 管理、分级缓存、前缀缓存及调度策略,将 KVCache 存储压缩至同级方案的约 1/7,显著降低长序列场景下的推理成本。这是业内首篇全面覆盖该组合架构的大规模工程落地方案,模型能力未缩减,但推理效率大幅提升。核心优化包括双池分治的 KVCache 系统、前缀缓存树重构、GCache 三级缓存以及 KVCache 亲和调度,使缓存命中率达 93% 以上,TTFT P90 降低 30%。AI产品推理系统KVCacheMiMo-V2.5模型优化小米推荐理由:小米公开的推理系统优化方案直接解释了 MiMo-V2.5 降价 99% 的技术基础,做模型推理部署的团队可以借鉴其 Hybrid SWA 和缓存管理思路,看完会明白长序列推理成本如何真正降下来。原文