03:03vLLM@vllm_project精选vLLM社区宣布,通过对DeepSeek V4模型的推理优化,一个月内将token成本降低5倍。优化工作从day-zero食谱起步,涉及内核、调度和服务层的改进。社区每个PR都对成本下降有贡献。AI产品DeepSeek V4vLLM推理优化开源模型推荐理由:vLLM社区一个月让DeepSeek V4的token成本降了5倍,优化方法值得做推理的同行参考。原文
00:09LMSYS Org (SGLang)@lmsysorg精选73°LMSYS 发文感谢 NVIDIA 在其最新推理软件经济学报告中提及 SGLang。SGLang 推出针对 Blackwell 架构的 day-0 优化方案,将 DeepSeek V4 的推理性能提升最高 5 倍。该优化通过 CUDA 原生推理路径实现,显著降低了每 token 成本。NVIDIA AI 团队与 SGLang 合作的具体技术细节已在博客中公开。AI模型SGLangNVIDIADeepSeek V4Blackwell推理模型8 个信源在谈推荐理由:SGLang 和 NVIDIA 联手让 DeepSeek V4 在 Blackwell 上跑得快了 5 倍,开源推理引擎的效率又上了一个台阶。原文
21:24Geek@geekbb精选DAO-C是基于DeepSeek V4的终端编码agent,在7个真实开源bug-fix任务上总成本仅¥1.07。相比Claude Opus,费用降低约30倍。其成本优势源于前缀缓存聚合,命中率达95.8%。该工具在编码效率上媲美Claude Code。AI产品DeepSeek V4Claude CodeClaude Opus编程助手低成本推荐理由:这个基于DeepSeek V4的终端agent超省钱,修7个bug才1块零7分,比Claude Opus便宜30倍,编码体验还接近Claude Code。原文
10:30shao__meng@shao__meng精选73°微软宣布 Copilot Cowork 正式全面可用,支持多模型和长期运行代理。为应对 Agent 场景下 token 消耗剧增的问题,计划引入 Azure 托管的 DeepSeek V4 作为低成本选项,按算力/用量计费,取代包月无限用模式。正在测试微调版 DeepSeek V4,作为 Anthropic/OpenAI 模型的替代,预计数周内公布最终选择。该模型可选非强制,数据不出微软云,符合现有安全与合规体系。AI产品CopilotDeepSeek V4Azure智能体按用量计费10 个信源在谈推荐理由:Copilot Cowork 终于上线了,微软还打算用 DeepSeek V4 当廉价模型,按用量收费,做 Agent 的可以看看怎么降本。原文
15:43Pandaily@contact@pandaily.com (Pandaily)精选83°普林斯顿大学语言与智能实验室(PLI)发布了一篇关于 Goedel-Architect 的突破性论文,这是一个用于形式定理证明的智能体框架。该框架基于 DeepSeek V4 模型,在多个基准测试中取得了最先进的结果,同时成本仅为现有系统的 1/500。Goedel-Architect 通过将推理任务分解为可管理的子任务,并利用 DeepSeek V4 的高效推理能力,显著降低了形式验证的计算开销。这一成果有望推动数学证明和软件验证领域的自动化进程,使形式化方法更易于被学术界和工业界采用。论文形式定理证明DeepSeek V4智能体框架成本优化普林斯顿大学1 个信源在谈推荐理由:形式定理证明的成本一直是阻碍其大规模应用的瓶颈,Goedel-Architect 用 DeepSeek V4 把成本砍到原来的 1/500,做数学验证和软件安全的团队可以直接关注这个新范式。原文
13:13Geek@geekbb精选一款新工具让 macOS 用户直接在菜单栏管理本机 DeepSeek V4 模型,无需终端操作。它支持一键启动/停止模型服务器,实时显示 CPU/内存占用,并快速打开聊天或编码助手界面。对于经常在本地运行大模型的开发者,这大幅降低了操作门槛,提升了效率。该工具已在 GitHub 开源,适合 macOS 上的 AI 爱好者。AI产品DeepSeek V4macOS 工具本地模型管理菜单栏开源/仓库3 个信源在谈推荐理由:本地跑 DeepSeek V4 的 macOS 用户终于不用切终端了——菜单栏一键启停、看资源、开聊天,省掉繁琐操作,建议直接装来试试。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……
10:20pandaily@contact@pandaily.com (Pandaily)精选76°DeepSeek V4 已全面适配华为昇腾芯片,标志着中国 AI 基础设施在推理负载上减少对海外芯片依赖的重要进展。该适配覆盖了从训练到推理的全流程,使得国内企业可以在国产硬件上运行 DeepSeek V4 模型。这一突破降低了供应链风险,同时提升了国产 AI 生态的自主可控能力。对于依赖 AI 推理的中国企业和开发者来说,这意味着更稳定的算力供应和更低的合规成本。AI模型DeepSeek V4华为昇腾国产 AI 栈推理模型芯片适配推荐理由:DeepSeek V4 适配华为昇腾解决了中国 AI 推理的芯片依赖问题,做国产化部署的团队可以直接用这套方案,建议关注后续性能评测。原文
01:25berryxia@berryxia精选73°Sebastian Raschka发布《Recent Developments in LLM Architectures》,用可视化方式拆解Gemma 4到DeepSeek V4的硬核优化。文章指出长上下文瓶颈已从“能否支持更多token”转向“如何聪明分配计算”,这些优化已在生产环境落地。正在做长上下文模型、Agent或RAG的团队,这篇文章的视觉图和效率对比特别值得细读。论文长上下文架构优化Gemma 4DeepSeek V4效率对比1 个信源在谈推荐理由:长上下文竞争已从堆token转向架构优化,做Agent或RAG的团队可以从Gemma 4到DeepSeek V4的真实方案中直接借鉴效率提升思路。原文