Query

§ 01综述

当前，'Query' 概念在 AI 领域正经历从传统数据库检索向智能代理交互的转变，同时伴随着成本优化与基础设施创新的并行推进。

智能代理的主动交互能力：datasette-agent 0.2a0 版本允许工具在运行中途主动向用户提问，模糊了查询与对话的边界，使用户能动态澄清意图（datasette-agent 0.2a0 发布：工具可中途询问用户）。
查询成本制约应用普及：Fable 5 API 单次查询收费 0.5 美元，引发对生成式 AI 查询经济性的讨论——高频使用场景下成本可能成为瓶颈（Fable 5 API 价格不低，一次 Query 0.5 美金）。
Transformer 架构的 KV 缓存优化：新研究提出移除 Key 和 Value 投影的方法，可减少 50% 缓存，从而加速自回归推理中的查询处理（Transformer 可省去 Key 和 Value 投影？新论文砍掉 50% KV 缓存）。
注意力机制的数据移动策略：DeepSeek 团队提出“移动查询而非缓存”的 MLA 注意力方法，通过跨实例共享键值缓存减少数据搬迁开销，适用于大规模推理部署（Move the Query, Not the Cache：跨实例 MLA 注意力新策略）。
查询建议模式增强用户体验：Weaviate Query Agent 新增 Suggest Queries Mode，主动提示用户可能的查询方向，降低非专业用户的使用门槛（Weaviate Query Agent 新增 Suggest Queries Mode，帮用户找到该问什么）。

当前焦点集中在：如何平衡查询能力的增强与计算/经济成本；未来需观察 Transformer 架构优化能否显著降低推理开销，以及智能代理的交互式查询模式是否会成为主流 API 设计范式。

§ 02相关报道05 条在档

§ 03邻近话题