AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:LangGraph×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
5月20日
10:29
10:29arXiv cs.AI@Gioele Molinari, Florian Felten, Soheyl Massoudi, Mark Fuge
精选72°
EngiAI 是一个针对大型语言模型(LLM)在工程设计任务中应用的多智能体框架与基准套件。该基准包含三个评估维度:工作流基准(7种提示风格,涵盖直接工具使用、语义消歧、条件分支等)、检索增强生成(RAG)基准(通过门控评分隔离检索对参数选择的贡献)以及高性能计算(HPC)基准(评估SLURM集群上的端到端ML训练编排)。EngiAI 参考实现基于LangGraph,通过监督架构协调7个专业智能体,统一拓扑优化、文档检索、HPC作业编排和3D打印机控制。在Beams2D问题上,专有模型平均任务完成率达96-97%,而开源4B参数模型为55-78%,条件分支任务最具挑战性(Photonics2D上完成率降至20-53%)。RAG门控验证了检索增强评分接近完美(≈1.0),而无检索时接近零,HPC编排中一个模型100%完成所有步骤,另一个仅50%,揭示了多步骤指令遵循在长工作流中会退化。
论文多智能体系统工程设计基准测试LangGraphRAG

推荐理由:做工程设计自动化或LLM多智能体系统的开发者,这个基准能帮你精准定位模型在条件分支、RAG和HPC编排上的短板,建议直接参考EngiAI框架来测试自己的方案。
原文
精选全部日报登录