精选 AI 资讯 · AI 热点

AITOP

7月3日

03:03

vLLM@vllm_project

精选

vLLM社区宣布，通过对DeepSeek V4模型的推理优化，一个月内将token成本降低5倍。优化工作从day-zero食谱起步，涉及内核、调度和服务层的改进。社区每个PR都对成本下降有贡献。

AI产品 DeepSeek V4 vLLM 推理优化开源模型

推荐理由：vLLM社区一个月让DeepSeek V4的token成本降了5倍，优化方法值得做推理的同行参考。

原文

7月2日

00:09

LMSYS Org (SGLang)@lmsysorg

精选73°

LMSYS 发文感谢 NVIDIA 在其最新推理软件经济学报告中提及 SGLang。SGLang 推出针对 Blackwell 架构的 day-0 优化方案，将 DeepSeek V4 的推理性能提升最高 5 倍。该优化通过 CUDA 原生推理路径实现，显著降低了每 token 成本。NVIDIA AI 团队与 SGLang 合作的具体技术细节已在博客中公开。

AI模型 SGLang NVIDIA DeepSeek V4 Blackwell 推理模型

推荐理由：SGLang 和 NVIDIA 联手让 DeepSeek V4 在 Blackwell 上跑得快了 5 倍，开源推理引擎的效率又上了一个台阶。

原文

6月26日

21:24

Geek@geekbb

精选

DAO-C是基于DeepSeek V4的终端编码agent，在7个真实开源bug-fix任务上总成本仅¥1.07。相比Claude Opus，费用降低约30倍。其成本优势源于前缀缓存聚合，命中率达95.8%。该工具在编码效率上媲美Claude Code。

AI产品 DeepSeek V4 Claude Code Claude Opus 编程助手低成本

推荐理由：这个基于DeepSeek V4的终端agent超省钱，修7个bug才1块零7分，比Claude Opus便宜30倍，编码体验还接近Claude Code。

原文

6月17日

10:30

shao__meng@shao__meng

精选73°

微软宣布 Copilot Cowork 正式全面可用，支持多模型和长期运行代理。为应对 Agent 场景下 token 消耗剧增的问题，计划引入 Azure 托管的 DeepSeek V4 作为低成本选项，按算力/用量计费，取代包月无限用模式。正在测试微调版 DeepSeek V4，作为 Anthropic/OpenAI 模型的替代，预计数周内公布最终选择。该模型可选非强制，数据不出微软云，符合现有安全与合规体系。

AI产品 Copilot DeepSeek V4 Azure 智能体按用量计费

推荐理由：Copilot Cowork 终于上线了，微软还打算用 DeepSeek V4 当廉价模型，按用量收费，做 Agent 的可以看看怎么降本。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月6日

15:43

Pandaily@contact@pandaily.com (Pandaily)

精选83°

普林斯顿大学语言与智能实验室（PLI）发布了一篇关于 Goedel-Architect 的突破性论文，这是一个用于形式定理证明的智能体框架。该框架基于 DeepSeek V4 模型，在多个基准测试中取得了最先进的结果，同时成本仅为现有系统的 1/500。Goedel-Architect 通过将推理任务分解为可管理的子任务，并利用 DeepSeek V4 的高效推理能力，显著降低了形式验证的计算开销。这一成果有望推动数学证明和软件验证领域的自动化进程，使形式化方法更易于被学术界和工业界采用。

论文形式定理证明 DeepSeek V4 智能体框架成本优化普林斯顿大学

推荐理由：形式定理证明的成本一直是阻碍其大规模应用的瓶颈，Goedel-Architect 用 DeepSeek V4 把成本砍到原来的 1/500，做数学验证和软件安全的团队可以直接关注这个新范式。

原文

13:13

Geek@geekbb

精选

一款新工具让 macOS 用户直接在菜单栏管理本机 DeepSeek V4 模型，无需终端操作。它支持一键启动/停止模型服务器，实时显示 CPU/内存占用，并快速打开聊天或编码助手界面。对于经常在本地运行大模型的开发者，这大幅降低了操作门槛，提升了效率。该工具已在 GitHub 开源，适合 macOS 上的 AI 爱好者。

AI产品 DeepSeek V4 macOS 工具本地模型管理菜单栏开源/仓库

推荐理由：本地跑 DeepSeek V4 的 macOS 用户终于不用切终端了——菜单栏一键启停、看资源、开聊天，省掉繁琐操作，建议直接装来试试。

原文

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

5月25日

10:20

pandaily@contact@pandaily.com (Pandaily)

精选76°

DeepSeek V4 已全面适配华为昇腾芯片，标志着中国 AI 基础设施在推理负载上减少对海外芯片依赖的重要进展。该适配覆盖了从训练到推理的全流程，使得国内企业可以在国产硬件上运行 DeepSeek V4 模型。这一突破降低了供应链风险，同时提升了国产 AI 生态的自主可控能力。对于依赖 AI 推理的中国企业和开发者来说，这意味着更稳定的算力供应和更低的合规成本。

AI模型 DeepSeek V4 华为昇腾国产 AI 栈推理模型芯片适配

推荐理由：DeepSeek V4 适配华为昇腾解决了中国 AI 推理的芯片依赖问题，做国产化部署的团队可以直接用这套方案，建议关注后续性能评测。

原文

5月17日

01:25

berryxia@berryxia

精选73°

Sebastian Raschka发布《Recent Developments in LLM Architectures》，用可视化方式拆解Gemma 4到DeepSeek V4的硬核优化。文章指出长上下文瓶颈已从“能否支持更多token”转向“如何聪明分配计算”，这些优化已在生产环境落地。正在做长上下文模型、Agent或RAG的团队，这篇文章的视觉图和效率对比特别值得细读。

论文长上下文架构优化 Gemma 4 DeepSeek V4 效率对比

推荐理由：长上下文竞争已从堆token转向架构优化，做Agent或RAG的团队可以从Gemma 4到DeepSeek V4的真实方案中直接借鉴效率提升思路。

原文