arXiv cs.AI@Ruozhen He, Meng Wei, Ziyan Yang, Vicente Ordonez精选58多镜头视频生成面临跨镜头实体(角色、物体、场景)一致性难题,现有评估方法覆盖有限且指标简单。研究者推出 EntityBench 基准,包含 140 个剧集(2491 个镜头),按难易分三档,最长 50 个镜头、13 个跨镜头角色、8 个场景、22 个物体,并设计三支柱评估套件(画质、指令遵循、跨镜头一致性),仅通过保真门控的实体才计入一致性评分。作为基线,提出 EntityMem 记忆增强系统,在生成前将已验证的实体视觉参考存入持久记忆库。实验表明现有方法跨镜头一致性随镜头间隔急剧下降,而 EntityMem 在角色保真度(Cohen's d = +2.33)和出现率上最优。代码和数据已开源。论文视频生成实体一致性基准测试记忆增强多镜头叙事推荐理由:视频生成领域终于有了严肃的实体一致性基准,做多镜头叙事生成的研究者可以直接用这套评估体系,EntityMem 的记忆方案也值得复现试试。
arXiv cs.LG@Tara Bogavelli, Gabrielle Gauthier Melançon, Katrina Stankiewicz, Oluwanifemi Bamgbose, Fanny Riols, Hoang H. Nguyen, Raghav Mehndiratta, Lindsay Devon Brin, Joseph Marinier, Hari Subramani, Anil Madamala, Sridhar Krishna Nemala, Srinivas Sunkara精选65EVA-Bench 是一个全新的端到端评估框架,专门用于测试语音智能体(Voice Agents)在真实对话场景中的表现。它解决了现有基准无法同时模拟动态对话和全面衡量语音特有失败模式的问题。框架包含 213 个企业级场景,并引入两个复合指标:EVA-A(准确性)和 EVA-X(体验),分别评估任务完成度、忠实度、语音保真度以及对话流畅性、简洁性和轮次时机。在 12 个系统上的测试显示,没有系统能同时在两个指标上超过 0.5,且峰值性能与可靠性能差距显著。该框架已开源,为语音智能体的标准化评估提供了新工具。论文语音智能体评估框架基准测试企业应用开源推荐理由:做语音智能体或对话系统的团队终于有了一个能同时测准确性和体验感的基准——EVA-Bench 覆盖了企业场景和噪声鲁棒性,直接帮你对比不同架构的优劣,建议点开看看具体指标设计。
arXiv cs.LG@Seokwon Jung, Alexander Rubinstein, Arnas Uselis, Sangdoo Yun, Seong Joon Oh精选65MEME 是一个针对 LLM 智能体在多会话环境中记忆能力的新基准,覆盖了多实体和演化两个维度的六项任务,其中三项(级联、缺失、删除)是此前工作未评估的。在 100 个受控场景中测试了六种记忆系统,发现所有系统在默认配置下的依赖推理任务上表现极差(级联任务平均准确率 3%,缺失任务 1%),尽管静态检索性能尚可。提示优化、更深层检索、减少填充噪声以及更强的大模型都无法弥补这一差距。只有基于文件的智能体配合 Claude Opus 4.7 能部分改善,但成本是基准方案的约 70 倍,说明当前依赖推理的解决方案不具备可扩展性。论文LLM 智能体记忆系统基准测试依赖推理MEME推荐理由:做 LLM 智能体长期记忆系统的团队会发现,现有方案在依赖推理上几乎失效——MEME 基准暴露了被忽视的盲区,值得点开看看你的系统能否通过级联和缺失任务。
arXiv: OpenAI@Zhun Wang, Nico Schiller, Hongwei Li, Srijiith Sesha Narayana, Milad Nasr, Nicholas Carlini, Xiangyu Qi, Eric Wallace, Elie Bursztein, Luca Invernizzi, Kurt Thomas, Yan Shoshitaishvili, Wenbo Guo, Jingxuan He, Thorsten Holz, Dawn Song精选75ExploitGym 是一个大规模、多样化的基准测试,用于评估 AI 智能体将安全漏洞转化为实际攻击的能力。该基准包含 898 个来自真实世界漏洞的实例,涵盖用户空间程序、Google V8 JavaScript 引擎和 Linux 内核三个领域。评估显示,前沿模型如 Anthropic 的 Claude Mythos Preview 和 OpenAI 的 GPT-5.5 能成功利用 157 和 120 个漏洞实例,即使在启用常见防御措施后仍保持一定成功率。这项工作揭示了 AI 智能体在网络安全中的双重用途风险,为防御和攻击场景提供了重要测试平台。论文安全漏洞AI智能体基准测试漏洞利用Claude Mythos PreviewGPT-5.5推荐理由:安全研究员和红队成员终于有了评估 AI 攻击能力的标准化工具——ExploitGym 覆盖真实漏洞和防御场景,做渗透测试或 AI 安全评估的团队可以直接拿来用。