10:43arXiv cs.AI@Md Tawkat Islam Khondaker, Raymond Li, Muhammad Abdul-Mageed, Laks V. S. Lakshmanan, Issam H. LaradjiDRFLOW 是一个用于评估智能体从异构来源预测个性化工作流的新型基准,包含 100 个任务、5 个领域、1,246 个参考步骤,并基于 3,900 多个来源构建。它定义了 7 项诊断指标,涵盖事实基础、步骤恢复、结构排序、条件解析和个性化。作者还提出了 DRFLOW-Agent (DRFA) 作为参考代理,其在平均 F1 分数上比强基线代理提升最多 10.02%,但仍有较大改进空间。AI模型DRFLOW工作流预测基准测试智能体企业任务推荐理由:想测测你家智能体能不能给出真正可执行的步骤?DRFLOW 用 100 个企业任务逼真考核,DRFA 也才比普通基线高 10%,挑战不小。原文