全部 AI 动态 · AI 热点

6月1日

01:56

elvis@omarsar0

精选

这篇论文提出了一种部署感知的上下文策略选择方法，将检索、压缩和全上下文等策略统一建模为成本-性能优化问题。通过引入对数效用函数和复用参数 N，揭示了不同策略在不同部署条件下的最优切换点。在 5000 个 HotpotQA 实例上，该方法在相同性能下减少了约 25% 的有效 Token 使用，高性能场景下压缩策略比全上下文便宜 50% 以上。这项工作为 AI 代理的上下文管理提供了理论指导，避免了孤立基准测试的误导。

论文上下文管理效率前沿检索/压缩 AI代理成本优化

推荐理由：做 AI 代理和长上下文应用的团队终于有了选策略的理论依据——不用再盲从基准测试结果，直接按自己的复用频率和成本预算选最优方案，建议点开看看怎么算你的 N 值。

原文

5月30日

04:18

Fireworks AI@FireworksAI_HQ

Ramp Labs 在自家后端部署了 1 万个 AI 智能体进行安全测试，发现开源模型（Kimi K2.6 和 DeepSeek V4 Pro）在 Fireworks 上运行，能以比 GPT 5.5 低约 5 倍的 token 成本，成功发现 7 个高危漏洞。Ramp 表示如果重做，会更依赖开源模型。这为开源权重模型在安全领域的价值提供了有力证据，表明在 GPU 资源稀缺的背景下，成本和效果需要平衡。

行业开源模型安全测试智能体成本优化 Ramp Labs

推荐理由：做安全测试或 AI 落地的团队，这个案例直接告诉你：开源模型在真实生产代码中能低成本挖出高危漏洞，值得在预算有限时优先尝试。

原文

5月29日

22:30

Harrison Chase@hwchase17

LangChain 发布 Deep Agents v0.6，将“Harness Profiles”提升为一等抽象，允许为不同模型定制提示和工具。这一更新解决了模型间性能差异问题，使开发者能以低于封闭前沿 API 20 倍以上的成本，从 Kimi、Qwen 和 DeepSeek 等模型获得生产级性能。LangChain 还提供了调优指南，帮助用户优化模型配置。

AI产品 LangChain Deep Agents Harness Profiles 多模型适配成本优化

推荐理由：做多模型 Agent 的团队终于不用为每个模型手写适配代码了——Harness Profiles 让不同模型自动获得最优提示和工具配置，成本直降 20 倍，建议直接看调优指南。

原文

09:04

rohanpaul_ai@rohanpaul_ai

Claude Opus 4.8 推出快模式，速度提升约 2.5 倍，成本降低 3 倍。AI/ML API 平台已集成该模式，并为部分用户提供免费访问。该平台提供单一 API 接入 500 多个 AI 模型，方便开发者快速切换。这一更新显著提升了 Claude Opus 4.8 的实用性和性价比。

AI产品 Claude Opus 4.8 快模式成本优化 API 平台 AI/ML API

推荐理由：对于高频调用 Claude Opus 的开发者，快模式直接降低 3 倍成本并提升响应速度，AI/ML API 平台还提供免费试用，值得立即体验。

原文

04:44

rohanpaul_ai@rohanpaul_ai

大多数 AI 团队仍像从单一供应商买软件一样购买推理服务：选一个模型、接受固定价格、持续付费，即使更便宜的模型也能完成相同工作。The Grid AI 采用不同方法：用户只需选择任务等级（标准、高级、最大），系统自动将请求路由到符合该等级的最便宜供应商。这意味着应用使用同一 API，但背后的模型可随价格和质量变化。作者在 Ubuntu 上测试了 Hermes Agent 与 The Grid 的集成，用于读取支持工单、应用策略文件并编写分类报告。

AI产品推理路由成本优化 The Grid AI 模型选择 API

推荐理由：做 AI 推理的团队终于有了按需降本的方法——不用改代码就能自动切换更便宜的模型，适合处理大量相似任务的开发者直接试试。

原文

5月27日

18:16

Ate-a-Pi@svpino

Svpino 在视频中展示了推理路由器的概念，它能根据问题复杂度自动选择最合适的 AI 模型，避免大材小用或能力不足。这种方法让开发者不再需要手动为每个任务挑选模型，而是通过一个路由器智能分配。视频演示了实现简单且效果显著，强调未来开发者将不再直接与单个模型对话。这解决了成本与性能的平衡问题，尤其适合需要高效调用多种模型的场景。

AI产品推理路由器模型选择成本优化 Svpino AI 工具

推荐理由：Svpino 的推理路由器解决了模型选择痛点，做 AI 应用开发的团队可以直接参考实现，省去手动调度的麻烦，值得一看。

原文

5月26日

14:24

AI Will@FinanceYF5

路透社报道，DeepSeek 已将其 V4-Pro 模型的 API 价格永久下调至原价的 25%。此前该模型曾推出限时降价，如今转为长期政策。DeepSeek 未确认此次降价是否与华为昇腾 950 芯片供应改善有关。这一举措将大幅降低开发者调用该模型的成本，可能引发更多 AI 应用采用。

AI产品 DeepSeek API 降价 V4-Pro 成本优化华为昇腾

推荐理由：API 价格降至四分之一，调用 DeepSeek V4-Pro 的开发者成本直接砍半以上，做推理或批量任务的团队值得立刻关注。

原文

09:58

Viking@vikingmute

精选

Reasonix 是一个针对 DeepSeek 的 prefix cache 优化工具，近期在开发者社区走红。它通过优化缓存机制，在长会话场景下能将缓存命中率保持在 90% 以上，从而将输入 token 成本降低到原来的五分之一。对于高频使用 DeepSeek 的重度用户，这是一个值得尝试的实用工具，能显著降低 API 调用成本。

AI产品 DeepSeek prefix cache 成本优化开源/仓库 Reasonix

推荐理由：DeepSeek 重度用户每月 API 账单能省一大截——长会话场景下缓存命中率 90%+，输入成本直接砍到 1/5，做对话应用或批量推理的团队建议立刻试试。

原文

5月25日

12:12

Paul Couvert@itsPaulAi

阿里巴巴发布了 Qwen-3.7-Max 模型，性能出色，可轻松接入 Hermes Agent 或 OpenCode，替代 GPT-5.5 或 Opus 4.7。输出成本比 Opus 4.7 低 3.3 倍，比 GPT-5.5 低 4 倍，输入成本也比两者低 2 倍。该模型在多个基准测试中表现优异，为开发者提供了高性价比的替代方案。

AI模型 Qwen-3.7-Max 阿里推理模型成本优化智能体

推荐理由：Qwen-3.7-Max 以极低成本提供接近顶级模型的性能，做 AI 应用开发或智能体集成的团队可以大幅降低推理开销，值得立刻上手试试。

原文

04:36

rohanpaul_ai@rohanpaul_ai

路透社报道，DeepSeek 将其旗舰模型 V4-Pro 的 API 价格永久下调75%，降至原价的25%。虽然 DeepSeek 未确认降价与华为 Ascend 950 芯片供应改善直接相关，但时机表明，随着中国 AI 基础设施从受限的英伟达芯片转向华为硬件，成本曲线正在下移。这一降价将使更多开发者和企业能够以更低成本使用高性能 AI 模型，推动中国 AI 生态的普及。

AI产品 DeepSeek V4-Pro API降价华为芯片成本优化

推荐理由：DeepSeek V4-Pro 永久降价75%意味着调用成本降至原来的四分之一，做 AI 应用开发或依赖 API 的团队可以直接降低运营成本，值得关注这一价格变动对模型选型的影响。

原文

5月24日

15:34

orange.ai@oran_ge

DeepSeek V4 Pro模型在性能上并非最佳，但其缓存技术几乎免费，可大幅降低推理成本。Opus模型应用该技术后成本下降10倍。V4.1版本将使用真实harness数据训练，有望快速提升性能。

AI模型大模型 DeepSeek 缓存成本优化

推荐理由：缓存技术让成本降10倍

原文

5月23日

01:39

Aravind Srinivas@AravSrinivas

开源模型和智能体平台 MiniMax 宣布其 Agent 产品现已接入 Perplexity 的搜索基础设施。在超过 700 个智能体任务的基准测试中，Perplexity 在答案质量和片段密度上表现最佳，相比之前的默认搜索服务 Serper，每次任务工具调用次数从 32.6 次降至 17.8 次（减少 45%），Token 用量从 162.3M 降至 94.6M（减少 42%），通过率提升 2%，总成本降低 27%。这一改进对于依赖搜索循环的智能体工作流意义重大，更好的搜索片段意味着更少的搜索次数和更低的上下文开销。

AI产品智能体搜索增强 MiniMax Perplexity 成本优化

推荐理由：做智能体开发的团队终于有了更高效的搜索方案——Perplexity 的搜索集成让 MiniMax Agent 成本直降 27%，同时保持答案质量，做 RAG 或搜索增强型 Agent 的建议直接试试。

原文

01:06

Geek@geekbb

DeepSeek-V4-pro 模型 API 价格将在 2026年5月31日 23:59 结束 2.5 折优惠活动后，正式调整为原定价的 1/4。这意味着长期使用成本大幅降低，对开发者和大模型应用团队是重大利好。该调整是永久性的，而非短期促销。消息来自社区分享，引发广泛关注。

AI产品 DeepSeek API价格模型调用成本优化开发者

推荐理由：DeepSeek-V4-pro API 价格直接降到原价1/4，做 AI 应用开发和模型调用的团队成本压力骤减，建议关注并提前规划迁移或扩容。

原文

5月22日

11:40

arXiv: OpenAI@Simon Dennis, Rivaan Patil, Kevin Shabahang, Hao Guo

精选76°

当前智能体编排框架（如LangGraph、CrewAI等）已超过29万GitHub星标，但都依赖外部编排器，每次交互都需注入指令和路由决策，消耗上下文窗口且依赖前沿模型。最新研究提出将工作流直接编译进小模型权重，创建“地下智能体”，在旅行预订、Zoom支持、保险理赔三个任务上，以不到前沿模型1%的成本达到接近前沿模型的质量。该方法解决了程序化任务中编排架构的三大痛点：上下文窗口消耗、必须使用前沿模型、专有流程暴露给第三方。研究团队通过实证表明，小模型微调后能完全内化复杂工作流，无需外部编排。

论文智能体工作流编译模型微调编排框架成本优化

推荐理由：做智能体编排的团队终于有了低成本替代方案——把工作流写进模型权重而非上下文，成本降两个数量级，质量不掉。做客服、保险、旅行预订自动化的开发者可以直接看论文里的14节点和55节点案例。

原文

08:05

Notion@NotionHQ

精选

Notion 发布了一款 AI Agent 调试工具，允许用户逐次运行对比不同提示词或模型，以评估成本与智能表现。该工具能定位高成本运行及其模式，并精确指出运行中断的原因，如工具调用失败或连接缺失。这解决了 AI Agent 开发中常见的调试难题，帮助开发者快速修复根本问题。目前该工具已在 X 平台引发关注，获得 855 次查看。

AI产品 AI Agent 调试工具 Notion 成本优化智能评估

推荐理由：做 AI Agent 开发的团队终于有了逐次追踪成本与智能的调试利器，能精准定位运行中断的根因，建议立即试用。

原文

07:26

eric zakariasson@ericzakariasson

83°

Cursor 发布了 Composer 2.5，这是其编程代理模型的最新版本。在 Artificial Analysis 编程代理指数中，Composer 2.5 以 62 分排名第三，仅次于 Claude Opus 4.7 和 GPT-5.5，但成本仅为它们的 1/10 到 1/60。标准版每次任务仅需 0.07 美元，Fast 版 0.44 美元，而竞品高达 4 美元以上。在 SWE-Bench-Pro-Hard-AA 上，Composer 2.5 得分 47%，与 Claude Opus 4.7 相当，比上一代提升 35 个百分点。Fast 模式平均 6.7 分钟完成任务，是第三快的编程代理。该模型基于 Kimi K2.5 继续训练，Cursor 贡献了约 85% 的计算量，仅在 Cursor IDE 和 CLI 中可用。

AI产品 Cursor Composer 2.5 编程代理成本优化 Kimi K2.5

推荐理由：Cursor 用 1/60 的成本实现了接近顶级模型的编程代理性能，做自动化开发或频繁使用 AI 编程的团队可以直接省下大笔费用，建议试试 Fast 模式感受响应速度。

原文

03:05

rohanpaul_ai@rohanpaul_ai

76°

据 The Information 报道，Anthropic 正在与微软进行早期谈判，计划租赁并使用微软自研的 Maia 200 AI 芯片用于推理任务。微软宣称 Maia 200 在某些推理场景下比英伟达芯片更具成本效益。该芯片是微软第二代 AI 加速器，采用台积电 3nm 工艺，配备 216GB HBM3e 显存和 7TB/s 带宽，专为快速处理大模型推理而设计。Anthropic 已承诺向 Azure 投入 300 亿美元，微软可能向 Anthropic 投资 50 亿美元，且 Claude 已深度集成到微软 Copilot 中，因此芯片合作是双方客户-供应商反馈循环的一部分。分析认为，Maia 无需在所有领域击败英伟达，只要在特定高容量推理任务中更便宜，就能将数十亿 token 从 GPU 转移过来。

AI产品 Anthropic 微软 Maia 200 推理芯片成本优化

推荐理由：微软 Maia 芯片若在推理成本上优于英伟达，做大规模 AI 推理的团队将多一个省钱选择，Anthropic 的动向值得关注。

原文

5月21日

21:05

Patrick Loeber@patloeber

76°

Gemini 3.5 Flash (Medium) 在 Zapier 的 AutomationBench 基准测试中夺得第一，得分 14.5%，远超 GPT 5.5 (xhigh) 的 12.9%。值得注意的是，中等推理设置（medium）表现优于高推理（high），因为高推理会过度消耗工具调用限制。该模型还以约 7 倍的成本优势领先，成为目前最持久的自动化模型。Google 已推荐将 medium 作为默认 API 设置，适用于大多数任务。

AI模型 Gemini 3.5 Flash AutomationBench 推理模型成本优化 API 设置

推荐理由：做自动化流程的开发者终于有了性价比之选——Gemini 3.5 Flash 不仅性能领先，成本还低 7 倍，建议直接试试 medium 设置。

原文

07:59

Y Combinator@ycombinator

Andustry 是一家 AI 原生的工业品采购经纪公司，帮助制造商寻找供应商。传统硬件采购流程耗时数月，且团队往往支付过高价格。Andustry 通过 AI 技术优化采购流程，帮助客户节省 30% 的成本，同时将采购时间缩短一半。该公司由 Y Combinator 支持，刚刚正式发布。

AI产品 AI原生工业品采购供应链成本优化 Andustry

推荐理由：做硬件制造或供应链管理的团队，终于有了 AI 来砍掉采购中的隐性成本和时间浪费——直接省 30% 成本、缩短一半周期，值得关注。

原文

5月20日

07:29

Google DeepMind@GoogleDeepMind

83°

Google DeepMind 发布了 Gemini 3.5 Flash 模型，其性能在多项基准测试中与领先模型相当，但成本大幅降低。该模型具备强大的规划和推理能力，能处理大型代码库并部署子代理进行长期并行工作。在 Terminal-Bench 2.1、GDPval-AA 和 MCP Atlas 等编码和智能体基准测试中，它超越了上一代 Gemini 3.1 Pro。这标志着高性能 AI 推理和智能体应用的成本门槛被显著拉低。

AI模型 Gemini 3.5 Flash 推理模型智能体编码成本优化

推荐理由：Gemini 3.5 Flash 以极低价格提供了接近顶级模型的性能，做智能体开发或大规模代码分析的团队可以大幅降低推理成本，值得立即关注。

原文

04:40

Together AI@togethercompute

76°

Together AI 的 VP of Kernels 指出，当前推理基准测试与生产负载不匹配。针对多并发编码智能体（每个上下文 45k-200k token）的真实场景，Together AI 的推理引擎在 KV 缓存、调度器限制和吞吐量方面进行了优化。测试结果显示，其 TPS 比最快的开源引擎高 31%，饱和状态下首 token 时间快 2 倍，每请求成本比 Claude Opus 4.6 低 76%。这为运行大规模 AI 智能体的团队提供了更高效、更低成本的推理方案。

AI产品推理引擎 Together AI KV 缓存成本优化编码智能体

推荐理由：做多智能体编码或高并发推理的团队，终于有基准测试对准真实负载了——Together AI 的引擎在成本和速度上都有明显优势，值得跑一下自己的场景试试。

原文

02:09

Logan Kilpatrick@OfficialLoganK

78°

Google 发布了 Gemini 3.5 Flash，号称迄今为止最强大的模型，在智能、速度和成本方面均达到新高度。团队经过 6 个月优化，使其更适用于实际场景。该模型现已全面可用，旨在为开发者提供更高效、更经济的 AI 解决方案。

AI模型 Gemini 3.5 Flash 推理模型成本优化实际应用 Google

推荐理由：Gemini 3.5 Flash 在性能与成本之间找到了新平衡，做 AI 应用开发的团队可以直接部署，值得关注。

原文

5月19日

12:41

Milvus@milvusio

Zilliz 开发者关系负责人 Jiang Chen 在伦敦非结构化数据 Meetup 上，分享了如何在不牺牲搜索质量的前提下降低向量数据库的 serving 成本。他指出，向量搜索昂贵的主因是索引占用大量 RAM 和 NVMe SSD。RaBitQ 算法通过将 float32 向量压缩到每维度 1 bit，并在量化前加入随机旋转来保留更多信息，从而大幅降低内存和存储开销，同时保持低质量损失。该方法适合需要控制基础设施成本的向量搜索场景。

AI产品向量搜索 RaBitQ Zilliz 成本优化索引压缩

推荐理由：向量搜索成本是很多团队的痛点，RaBitQ 用 1-bit 压缩加随机旋转做到了低成本低损耗，做向量数据库选型或优化成本的开发者值得看看这个方案。

原文

11:21

小互@imxiaohu

83°

Cursor 发布了自研编码模型 Composer 2.5，在性能上与 OpenAI 的 Opus 4.7 相当，评分差距不到 1 分，但价格大幅降低：输入 token 便宜 10 倍，输出 token 便宜 30 倍。相比前代 Composer 2，新模型在长时间任务、复杂指令遵循和协作顺滑度上有明显提升，能稳定处理数十万 token 的长任务。这一突破让开发者以更低成本获得顶级编码能力，尤其适合需要持续迭代的复杂项目。

AI产品 Cursor Composer 2.5 编码模型成本优化编程助手

推荐理由：Cursor 用自研模型把编码成本打到了 Opus 的 1/30，做复杂项目或长任务开发的团队可以直接省下大笔 API 费用，性能还几乎没缩水，值得立刻试。

原文

05:14

claudedevs@claudedevs

精选

Claude Console 现在支持提示缓存诊断功能。当请求未命中缓存时，开发者可以精确查看提示的哪部分发生了变化，以及因此消耗了多少额外 token。这一功能帮助开发者优化提示设计，减少不必要的缓存未命中，从而降低 API 调用成本。对于频繁使用 Claude API 的团队来说，这是一个实用的调试和优化工具。

AI产品 Claude 提示缓存 API 调试成本优化开发者工具

推荐理由：Claude API 重度用户终于能看清缓存失效的代价了——直接定位提示变化点并计算 token 浪费，做提示工程优化的团队建议立刻试试。

原文

5月16日

21:34

小互@imxiaohu

一个名为 OpenSquilla 的开源项目用 Python 重写了小龙虾（Crayfish）框架，实现了智能省钱和智能安全。它通过本地路由器将简单任务分配给便宜模型，复杂任务才调用 Opus 或 GPT 等顶级模型，在测试中得分与 OpenClaw 几乎相同（0.9251 vs 0.9255），但成本从 6 美元降至 0.68 美元，降低近 10 倍。项目还包含四层记忆系统、按需加载的 16 个工具、三档安全沙箱，以及支持网页、命令行、Slack、飞书、钉钉、Discord、Telegram、QQ 等统一入口。它已接入 OpenAI、Claude、Gemini、DeepSeek、Qwen、Kimi、智谱、火山等 20 多家模型。

AI产品开源/仓库智能体 MCP/工具成本优化 OpenSquilla

推荐理由：这个项目解决了复杂任务必须用昂贵顶级模型的痛点，做 AI 应用开发或智能体搭建的团队可以直接用，成本直降 10 倍，建议试试。

原文

5月14日

18:30

TestingCatalog@testingcatalog

OpenSquilla 发布了一款新的开源 AI 智能体，专为执行成本高效、长时间运行的任务而设计。该智能体通过机器学习分类器将简单任务分配给廉价模型，复杂任务分配给更强模型，相比单一固定模型设置可节省 60-80% 的 Token。它采用四层持久化内存（带本地嵌入）和系统调用级沙箱隔离（无需 Docker），并在 Apache-2.0 许可下发布。对于需要运行长期 AI 任务的开发者来说，这是一个值得关注的开源选择。

AI产品智能体开源/仓库成本优化任务路由沙箱隔离

推荐理由：做长期 AI 任务自动化的开发者终于有了一个省 Token 的开源方案——OpenSquilla 通过智能路由和沙箱隔离，直接帮你省下 60-80% 成本，建议试试这个 Apache-2.0 的智能体。

原文

01:10

01:10Moonshot AI: Kimi Blog（资讯）

月之暗面（Moonshot AI）在 Kimi API 中推出了上下文缓存（Context Caching）功能，通过复用重复的上下文内容，大幅降低 API 调用成本。该功能特别适用于需要频繁使用相同系统提示、知识库或对话历史的场景，最高可节省 90% 的费用。开发者只需在请求中指定缓存键，即可自动启用缓存，无需修改现有代码。这为构建长对话、知识问答等应用提供了经济高效的解决方案。

AI产品 Kimi API 上下文缓存成本优化月之暗面

推荐理由：Kimi API 的 Context Caching 让高频调用场景的成本直降 90%，做长对话或知识库应用的开发者可以直接用，省下的预算够再跑一轮实验。

原文

5月11日

11:42

11:42arXiv cs.AI（学术论文）

标准推理时扩展技术自一致性通过多数投票选答案，但加权多数投票（如置信度感知自一致性CISC）虽更准却需额外调用批评模型增加成本。VecCISC提出轻量自适应框架，利用语义相似度过滤冗余、退化或幻觉轨迹，减少需评估的候选数。在数学、化学、生物、常识推理和人文五个数据集上，VecCISC降低47% token用量，同时保持或超越CISC精度。该方法为推理时扩展提供了更经济的平衡方案。

论文推理模型自一致性成本优化语义聚类 LLM评估

推荐理由：VecCISC通过聚类与过滤显著降低计算开销，对工业界部署高精度推理模型具有实际价值，尤其适合长轨迹场景。

原文