AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:GPU分析×
5月11日
11:45
arXiv cs.AI(学术论文)
65
Dooly是一种新型LLM推理模拟器,解决了传统模拟器因硬编码配置而需重新分析所有操作的高成本问题。它通过单次推理过程,利用污点传播标记输入维度来源,仅分析数据库中缺失的操作,并复用服务引擎初始化代码隔离有状态操作(如注意力机制)。在两种GPU平台、三种注意力后端和多种模型架构上,Dooly实现了TTFT 5%以内、TPOT 8%以内的模拟准确性,同时将12个模型的分析GPU小时数减少56.4%。这项工作降低了探索最优推理配置的计算成本,对部署效率提升有重要意义。
论文推理模拟LLM推理性能优化配置搜索GPU分析

推荐理由:Dooly通过结构感知的冗余消除,显著降低了LLM推理配置探索的开销,对需要评估多种硬件、引擎和模型组合的从业者具有实用价值。