OmniGameArena：统一UE5基准测试，评估VLM游戏智能体改进动态

精选理由

做游戏 AI 或 VLM 智能体评估的团队，终于有了一个能同时看冷启动能力和学习改进曲线的统一基准，比单次分数更有参考价值，做智能体训练的值得点开。

AI 摘要

OmniGameArena 是一个基于 Unreal Engine 5 构建的实时游戏基准测试，包含 12 个新游戏，覆盖单人、PvP 和合作模式，并统一了动作接口。它解决了现有基准测试只报告单次尝试分数、缺乏统一协议评估不同 VLM 智能体的问题。该基准引入了改进动态曲线（IDC），通过反射机制让智能体在多轮迭代中自主优化技能提示，从而揭示智能体的学习能力和泛化表现。研究对 12 个 VLM 智能体进行了冷启动排行榜测试，并对 4 个顶级智能体应用了 IDC 分析。这项工作为评估和比较 VLM 游戏智能体的真实能力提供了更全面的框架。

AI 翻译 · 中文

arXiv cs.AIVision-language model (VLM) agents are increasingly deployed in interactive game environments. Yet game benchmarks for VLM agents typically report a single first-attempt score per (agent, game) pair, focus on single-agen…

阅读原文