当前,'Query' 概念在 AI 领域正经历从传统数据库检索向智能代理交互的转变,同时伴随着成本优化与基础设施创新的并行推进。
- 近期主要进展包括:
- 智能代理的主动交互能力:datasette-agent 0.2a0 版本允许工具在运行中途主动向用户提问,模糊了查询与对话的边界,使用户能动态澄清意图(datasette-agent 0.2a0 发布:工具可中途询问用户)。
- 查询成本制约应用普及:Fable 5 API 单次查询收费 0.5 美元,引发对生成式 AI 查询经济性的讨论——高频使用场景下成本可能成为瓶颈(Fable 5 API 价格不低,一次 Query 0.5 美金)。
- Transformer 架构的 KV 缓存优化:新研究提出移除 Key 和 Value 投影的方法,可减少 50% 缓存,从而加速自回归推理中的查询处理(Transformer 可省去 Key 和 Value 投影?新论文砍掉 50% KV 缓存)。
- 注意力机制的数据移动策略:DeepSeek 团队提出“移动查询而非缓存”的 MLA 注意力方法,通过跨实例共享键值缓存减少数据搬迁开销,适用于大规模推理部署(Move the Query, Not the Cache:跨实例 MLA 注意力新策略)。
- 查询建议模式增强用户体验:Weaviate Query Agent 新增 Suggest Queries Mode,主动提示用户可能的查询方向,降低非专业用户的使用门槛(Weaviate Query Agent 新增 Suggest Queries Mode,帮用户找到该问什么)。
当前焦点集中在:如何平衡查询能力的增强与计算/经济成本;未来需观察 Transformer 架构优化能否显著降低推理开销,以及智能代理的交互式查询模式是否会成为主流 API 设计范式。