DRFLOW 基准：评估智能体预测个性化工作流的能力

精选理由

想测测你家智能体能不能给出真正可执行的步骤？DRFLOW 用 100 个企业任务逼真考核，DRFA 也才比普通基线高 10%，挑战不小。

AI 摘要

DRFLOW 是一个用于评估智能体从异构来源预测个性化工作流的新型基准，包含 100 个任务、5 个领域、1,246 个参考步骤，并基于 3,900 多个来源构建。它定义了 7 项诊断指标，涵盖事实基础、步骤恢复、结构排序、条件解析和个性化。作者还提出了 DRFLOW-Agent (DRFA) 作为参考代理，其在平均 F1 分数上比强基线代理提升最多 10.02%，但仍有较大改进空间。

AI 翻译 · 中文

arXiv cs.AIDeep research (DR) systems are increasingly used for complex information-seeking tasks, but existing works mainly focus on generating reports and summaries. In contrast, many enterprise tasks instead require an agent to …

阅读原文