多轮对话 · AI 话题观测

§ 01综述

多轮对话指用户与AI之间连续多次交互的对话形式，它要求模型理解上下文、保持话题一致性，并能处理信息积累和意图演化。当前，多轮对话正从单纯追求流畅性转向关注安全性、一致性以及评估方法的可靠性。

多轮对话近期进展

评估新指标：信息增益衡量语义进展：传统评测依赖大模型（LLM）评判，但arXiv上的一篇论文提出用信息增益（Information Gain）作为无需LLM参与的新指标，通过计算每轮对话带来的语义信息增量，客观量化多轮对话的进展程度。该指标在多个数据集上表现出与人类判断的高相关性，为自动评估提供了低成本方案。信息增益衡量多轮对话语义进展：无需LLM评判的新指标

安全风险凸显：操纵与危害放大：多轮对话的长期交互特性也成为安全隐患。CogManip基准测试揭示了多轮对话中模型容易被操纵的风险，而HarmAmp & TrajSafe则专门研究危害放大问题——在连续对话中，看似无害的小输出可能累积成严重危害。两项研究均指出，现有安全机制在长程对话中效果衰减。CogManip 基准测试：多轮对话中大模型的操纵行为风险；HarmAmp & TrajSafe：应对LLM多轮对话中的危害放大

语言与资源差异：在低资源语言场景下，多轮对话的安全防线更容易被攻破。一项研究测试了低资源非洲语言，发现即便使用主流大模型，攻击成功率最高可达83.6%，远高于英语同等实验。这提示多轮对话的鲁棒性在不同语言环境下存在显著差异。低资源非洲语言多轮对话可越狱主流LLM，成功率最高83.6%

提升一致性与工程实践：自召回思维（Self-Recall Thinking）技术通过让模型在对话中主动回顾先前推理过程，使多轮对话的实体识别F1值提升4.7%。同时，小米MiMo模型在实践中发现，多轮对话必须保留推理上下文内容，否则会引发400错误，凸显了工程设计中对上下文管理的严格要求。Self-Recall Thinking 提升多轮对话一致性，F1 提升 4.7%；小米MiMo多轮对话需保留推理内容，否则返回400错误

当前焦点与观察点

多轮对话的当前焦点集中在三个方向：第一，评估从主观判断转向可量化指标，如信息增益，但新指标的泛化性仍需验证；第二，安全性成为核心议题，操纵、危害放大和低资源语言攻击暴露了现有防御的不足；第三，一致性问题虽有小幅提升，但长程对话中的推理保留仍是工程难点。整体来看，多轮对话正从“能对话”向“安全且一致地对话”过渡，跨语言和跨场景的鲁棒性将成为未来竞争的关键。

§ 02相关报道07 条在档

§ 03邻近话题