X+Slides:面向受众条件幻灯片生成的基准

X+Slides: Benchmarking Audience-Conditioned Slide Generation

精选理由

想了解如何科学评估AI做PPT的水平?这篇论文用113个主题和8133个探针,测出NotebookLM能覆盖85%的受众关键信息,比DeepPresenter和SlideTailor强不少。

AI 摘要

X+Slides 是一个评估大语言模型根据受众条件自动生成幻灯片的新基准。它覆盖 113 个主题和 7 种演示场景,使用 8133 个去重、基于源文本的探针,并引入四个互补指标:Audience Coverage、Domain-wise Coverage、Efficiency 和 Correctness。在 DeepPresenter、SlideTailor 和 NotebookLM 上的实验表明,在 τ_A=0.7 阈值下,NotebookLM 消融版达到最高 Audience Coverage 0.853,而 DeepPresenter 为 0.714,SlideTailor 为 0.594。结果显示当前系统仍无法完整恢复受众关键信息,且视觉质量不能替代源文本验证。

AI 翻译 · 中文

X+Slides 是一个评估大语言模型根据受众条件自动生成幻灯片的新基准。它覆盖 113 个主题和 7 种演示场景,使用 8133 个去重、基于源文本的探针,并引入四个互补指标:Audience Coverage、Domain-wise Coverage、Efficiency 和 Correctness。在 DeepPresenter、SlideTailor 和 NotebookLM 上的实验表明,在 τ_A=0.7 阈值下,NotebookLM 消融版达到最高 Audience Coverage 0.853,而 DeepPresenter 为 0.714,SlideTailor 为 0.594。结果显示当前系统仍无法完整恢复受众关键信息,且视觉质量不能替代源文本验证。

arXiv cs.AIAutomatically generating slide decks from source documents is an important application of large language models (LLMs). Existing benchmarks primarily assess slide completeness and technical depth, while overlooking the t