TraceLab:编码Agent工作负载表征与数据集

TraceLab: Characterizing Coding Agent Workloads for LLM Serving

精选理由

想看看编码Agent真实的调用模式?TraceLab用4300个会话告诉你Claude Code和Codex的工作负载细节,还指明了KV缓存优化的具体方向。

AI 摘要

华盛顿大学发布了TraceLab数据集,收录约4,300个编码Agent会话、350,000个LLM步骤和430,000次工具调用,数据来自日常使用的Claude Code和Codex。分析显示,工作负载具有长自主循环、长上下文短输出、多样且长尾的工具调用等特征,前缀缓存命中率虽高但存在不完美之处。基于这些发现,研究者提出了低开销工具调用、追加长度感知的预填充、语义感知工具延迟预测以及改进KV缓存管理四项优化方向。数据集和分析代码已开源在GitHub。

AI 翻译 · 中文

华盛顿大学发布了TraceLab数据集,收录约4,300个编码Agent会话、350,000个LLM步骤和430,000次工具调用,数据来自日常使用的Claude Code和Codex。分析显示,工作负载具有长自主循环、长上下文短输出、多样且长尾的工具调用等特征,前缀缓存命中率虽高但存在不完美之处。基于这些发现,研究者提出了低开销工具调用、追加长度感知的预填充、语义感知工具延迟预测以及改进KV缓存管理四项优化方向。数据集和分析代码已开源在GitHub。

arXiv cs.AICoding agents are rapidly becoming a major application of agentic LLMs, but serving them efficiently remains challenging. Progress on this challenge requires understanding real workload patterns, yet the data needed for