12:04arXiv: DeepSeek@Haifeng Wu, Srinivasan Manoharan, Fangbo Tu, Junhua Zhao, Jian Wan精选RLM-Cascade是一个代理层投机解码系统,在响应级别优化LLM API调用。它使用DeepSeek作为草稿模型、Opus作为验证模型,并通过轻量复杂度路由器选择路径。在Claude Code生产环境中,系统达到88.8%的草稿使用率,API成本相比直接使用Opus降低45.8%。P50延迟从3698毫秒降至2026毫秒,实现1.83倍加速。在20个Code/Math/Instruct任务基准上,RLM-Cascade通过率达100%,高于Opus的95%。AI模型RLM-CascadeDeepSeekOpus投机解码智能体推荐理由:这个系统把DeepSeek和Opus组合起来,用投机解码省了近一半API成本,还快了一倍,质量也有提升,而且开源可部署。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……