AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
精选
AI 自动挑选的高价值内容
全部模型产品行业论文技巧
标签:工程设计×
5月20日
10:29
arXiv cs.AI@Gioele Molinari, Florian Felten, Soheyl Massoudi, Mark Fuge
精选72
EngiAI 是一个针对大型语言模型(LLM)在工程设计任务中应用的多智能体框架与基准套件。该基准包含三个评估维度:工作流基准(7种提示风格,涵盖直接工具使用、语义消歧、条件分支等)、检索增强生成(RAG)基准(通过门控评分隔离检索对参数选择的贡献)以及高性能计算(HPC)基准(评估SLURM集群上的端到端ML训练编排)。EngiAI 参考实现基于LangGraph,通过监督架构协调7个专业智能体,统一拓扑优化、文档检索、HPC作业编排和3D打印机控制。在Beams2D问题上,专有模型平均任务完成率达96-97%,而开源4B参数模型为55-78%,条件分支任务最具挑战性(Photonics2D上完成率降至20-53%)。RAG门控验证了检索增强评分接近完美(≈1.0),而无检索时接近零,HPC编排中一个模型100%完成所有步骤,另一个仅50%,揭示了多步骤指令遵循在长工作流中会退化。
论文多智能体系统工程设计基准测试LangGraphRAG

推荐理由:做工程设计自动化或LLM多智能体系统的开发者,这个基准能帮你精准定位模型在条件分支、RAG和HPC编排上的短板,建议直接参考EngiAI框架来测试自己的方案。