DRFLOW 基准:评估智能体预测个性化工作流的能力

DRFLOW: A Deep Research Benchmark for Personalized Workflow Prediction

精选理由

想测测你家智能体能不能给出真正可执行的步骤?DRFLOW 用 100 个企业任务逼真考核,DRFA 也才比普通基线高 10%,挑战不小。

AI 摘要

DRFLOW 是一个用于评估智能体从异构来源预测个性化工作流的新型基准,包含 100 个任务、5 个领域、1,246 个参考步骤,并基于 3,900 多个来源构建。它定义了 7 项诊断指标,涵盖事实基础、步骤恢复、结构排序、条件解析和个性化。作者还提出了 DRFLOW-Agent (DRFA) 作为参考代理,其在平均 F1 分数上比强基线代理提升最多 10.02%,但仍有较大改进空间。

AI 翻译 · 中文

DRFLOW 是一个用于评估智能体从异构来源预测个性化工作流的新型基准,包含 100 个任务、5 个领域、1,246 个参考步骤,并基于 3,900 多个来源构建。它定义了 7 项诊断指标,涵盖事实基础、步骤恢复、结构排序、条件解析和个性化。作者还提出了 DRFLOW-Agent (DRFA) 作为参考代理,其在平均 F1 分数上比强基线代理提升最多 10.02%,但仍有较大改进空间。

arXiv cs.AIDeep research (DR) systems are increasingly used for complex information-seeking tasks, but existing works mainly focus on generating reports and summaries. In contrast, many enterprise tasks instead require an agent to