论文72°

OmniGameArena:统一UE5基准测试,评估VLM游戏智能体改进动态

OmniGameArena: A Unified UE5 Benchmark for VLM Game Agents with Improvement Dynamics

精选理由

做游戏 AI 或 VLM 智能体评估的团队,终于有了一个能同时看冷启动能力和学习改进曲线的统一基准,比单次分数更有参考价值,做智能体训练的值得点开。

AI 摘要

OmniGameArena 是一个基于 Unreal Engine 5 构建的实时游戏基准测试,包含 12 个新游戏,覆盖单人、PvP 和合作模式,并统一了动作接口。它解决了现有基准测试只报告单次尝试分数、缺乏统一协议评估不同 VLM 智能体的问题。该基准引入了改进动态曲线(IDC),通过反射机制让智能体在多轮迭代中自主优化技能提示,从而揭示智能体的学习能力和泛化表现。研究对 12 个 VLM 智能体进行了冷启动排行榜测试,并对 4 个顶级智能体应用了 IDC 分析。这项工作为评估和比较 VLM 游戏智能体的真实能力提供了更全面的框架。

AI 翻译 · 中文

OmniGameArena 是一个基于 Unreal Engine 5 构建的实时游戏基准测试,包含 12 个新游戏,覆盖单人、PvP 和合作模式,并统一了动作接口。它解决了现有基准测试只报告单次尝试分数、缺乏统一协议评估不同 VLM 智能体的问题。该基准引入了改进动态曲线(IDC),通过反射机制让智能体在多轮迭代中自主优化技能提示,从而揭示智能体的学习能力和泛化表现。研究对 12 个 VLM 智能体进行了冷启动排行榜测试,并对 4 个顶级智能体应用了 IDC 分析。这项工作为评估和比较 VLM 游戏智能体的真实能力提供了更全面的框架。

arXiv cs.AIVision-language model (VLM) agents are increasingly deployed in interactive game environments. Yet game benchmarks for VLM agents typically report a single first-attempt score per (agent, game) pair, focus on single-agen