论文精选

Discourse-Role Labels 影响语言模型对上下文的采纳程度

Discourse-Role Labels as Presentation-Time Variables for Context Use in Language Models

精选理由

这篇论文揭示了标签选择能显著改变模型对误导信息的采纳率(最高差 84 个百分点),做 RAG 系统或上下文增强应用的开发者需要警惕:你用的标签可能无意中放大了错误信息的影响。建议点开了解如何控制这一变量。

AI 摘要

本文研究了在上下文增强的语言模型系统中,使用不同话语角色标签(如 Reference:、Evidence:、Instruction:、Note:、Example:)对模型行为的影响。通过设计 500 个 MMLU-Pro 项目的配对固定内容探针,每个项目在相同误导性断言下使用不同标签,测量模型输出错误选项的采纳率。在 GPT-5.5、DeepSeek V4 Pro、Llama-3-8B-Instruct 和 Qwen2.5-7B-Instruct 上,误导采纳率变化达 56-84 个百分点。Instruction: 和 Reference: 等绑定或来源类标签导致高采纳,而 Example: 则持续抑制采纳。边界探针显示算术任务降低采纳率,嵌套标签冲突表明示例性框架可限制采纳范围。结论是上下文利用和 RAG 基准应报告并控制包装标签,因为呈现方式会改变对提供上下文的依赖度量。

AI 翻译 · 中文

本文研究了在上下文增强的语言模型系统中,使用不同话语角色标签(如 Reference:、Evidence:、Instruction:、Note:、Example:)对模型行为的影响。通过设计 500 个 MMLU-Pro 项目的配对固定内容探针,每个项目在相同误导性断言下使用不同标签,测量模型输出错误选项的采纳率。在 GPT-5.5、DeepSeek V4 Pro、Llama-3-8B-Instruct 和 Qwen2.5-7B-Instruct 上,误导采纳率变化达 56-84 个百分点。Instruction: 和 Reference: 等绑定或来源类标签导致高采纳,而 Example: 则持续抑制采纳。边界探针显示算术任务降低采纳率,嵌套标签冲突表明示例性框架可限制采纳范围。结论是上下文利用和 RAG 基准应报告并控制包装标签,因为呈现方式会改变对提供上下文的依赖度量。

arXiv: DeepSeekContext-augmented language model systems often wrap supplied content with labels such as Reference:, Evidence:, Instruction:, Note:, or Example:, but the effect of these labels on reader-model behavior remains underexplo