这篇论文戳破了 AGENTS.md 的神话——自动生成不仅没用还更贵,手写提升也有限。做 Coding Agent 工具或维护大型仓库的团队,看完会重新评估是否值得投入 context file。
一篇大规模实证研究评估了仓库级上下文文件(如 AGENTS.md、CLAUDE.md)对编码 Agent 任务完成率的影响。实验覆盖 SWE-bench Lite 和新建 AGENTBENCH 两个基准,测试了 Claude Code、Codex、Qwen Code 等四种 Agent。结果显示,LLM 自动生成的 context file 在多数设置下导致成功率下降(平均 -0.5% 至 -2%),开发者手写的仅提升 +4%,但步数和成本增加 20% 以上。轨迹分析表明 Agent 会过度执行 context file 中的建议性流程,增加复杂度却未提升成功率。当仓库文档齐全时,context file 与现有文档高度冗余,反而可能有害。
一篇大规模实证研究评估了仓库级上下文文件(如 AGENTS.md、CLAUDE.md)对编码 Agent 任务完成率的影响。实验覆盖 SWE-bench Lite 和新建 AGENTBENCH 两个基准,测试了 Claude Code、Codex、Qwen Code 等四种 Agent。结果显示,LLM 自动生成的 context file 在多数设置下导致成功率下降(平均 -0.5% 至 -2%),开发者手写的仅提升 +4%,但步数和成本增加 20% 以上。轨迹分析表明 Agent 会过度执行 context file 中的建议性流程,增加复杂度却未提升成功率。当仓库文档齐全时,context file 与现有文档高度冗余,反而可能有害。
AGENTS.md 在 Coding Agents 中真的有用吗? 这篇论文,大规模实证研究仓库级上下文文件(AGENTS.md、CLAUDE.md 等)对编码 Agent 实际效果的影响,可能有些反直觉!感谢 @rasbt 分享! 论文在这: arxiv.org/abs/2602.11988 研究背景:实践先行,证据滞后 AGENTS.md 已成为行业惯例,GitHub 上已有 6 万+ 仓库采用,Claude Code (CLAUD…