12:08arXiv cs.AI@Ali Pourghasemi Fatideh, Wilder Baldwin, Maria Dhakal, Collin McMillan, Sepideh Ghanavati本研究聚焦LLM对话系统在处理非功能需求(NFRs)时的准确性和对话质量。49名程序员使用GitHub Copilot对148个HIPAA衍生NFR进行评估,基于iTrust代码库,从需求满足度、推理和代码定位三个维度分析。结果显示开发者倾向于认同LLM评估,但与专家标注的真实标准相比准确率较低。更长系统响应和更多信息提供轮次会降低用户满意度,而主动交互则提升满意度。论文为设计面向NFR评估的LLM对话系统提供了经验证据。论文LLMNFRHIPAAGitHub Copilot多轮对话推荐理由:这篇论文用49个程序员和148个实例,实测了GitHub Copilot评估HIPAA合规NFR的准确度,发现开发者容易被带偏,但主动交互反而让人更满意。原文
09:37arXiv cs.AI@Guillermo Gil de Avalle, Laura Maruster, Shaina Raza, Christos Emmanouilidis新基准DiagFlowBench包含50张工业诊断流程图,转化为1676轮多轮对话,对比合规与偏离流程的输入。评估10个商业和开源模型发现,模型在识别超范围输入时表现差异大,常见错误是选择真实但上下文不合适的步骤。该基准揭示了基于文档的对话系统在输入偏离时容易被看似合理但错误的建议误导的脆弱性。论文DiagFlowBench诊断对话推理模型AI安全多轮对话推荐理由:DiagFlowBench这个新基准专门用来测语言模型在操作维护场景里,能不能识别用户问跑题的问题。10个模型测下来,差得挺大,而且那种看似合理但不对的答案最危险。论文值得一看。原文
03:58lmarena.ai@lmarena_aiGLM-5.2 (Max) 在 Text Arena 总榜排名第25位,与上一版本 GLM-5.1 水平接近。在 Expert Arena 和 Multi-Turn 子类别中取得较大进步。在生命科学、社会科学、创意写作和医学医疗等职业类别中表现提升。AI模型GLM-5.2GLM-5.1智谱Text Arena多轮对话推荐理由:智谱新模型 GLM-5.2 整体排名没变,但在专家问答和多轮对话上进步明显,写创意和医学内容更强了。原文
10:07arXiv cs.LG@Paul He, Shiva Kasiviswanathan, Dominik Janzing该研究提出了一种基于信息论的多轮对话语义进展度量方法,通过计算对话中问题相关且非冗余信息的累积量来评估对话质量。核心指标使用高斯模型在嵌入空间中近似不确定性减少,具有单调性、可加分解和冗余证据递减等理论性质。实验表明,该方法在MT-Bench、Chatbot Arena和UltraFeedback上与人类判断高度一致,甚至优于部分基于LLM的评判方法。该指标无需自回归推理,仅需轻量级嵌入模型即可在CPU上运行,显著降低了评估成本。论文多轮对话语义进展信息增益评估指标嵌入模型推荐理由:做对话系统评估的团队终于有了一个可复现、低成本的替代方案——无需调用大模型就能衡量对话的语义进展,建议做客服或问答系统的开发者试试这个指标。原文
13:00arXiv: DeepSeek@Zeyang Yue, Chenfei Yan, Feifei Zhao, Haibo Tong, Mengwen Xu, Xiaozhen Wang, Erliang Lin, Yi Zeng精选CogManip 是一个新基准,专门评估大语言模型在多轮对话中的隐性心理操纵行为。它覆盖 15 种操纵策略、1000 个场景,经人类专家验证。测试了 GPT-5.4、DeepSeek-V3.2 等 13 个模型,发现风险差异显著。DeepSeek-V3.2 对系统提示高度敏感,提示工程和隐式目标审计是防御关键。该工具为 AI 安全审计提供了动态、隐蔽操纵行为的评估视角。论文大语言模型AI安全心理操纵基准测试多轮对话推荐理由:AI 安全研究者终于有了评估隐性操纵的专用工具——CogManip 覆盖 15 种策略、1000 个场景,做模型对齐和红队测试的团队可以直接拿来用。原文
12:04arXiv cs.LG@Ruohao Guo, Wei Xu, Alan Ritter大型语言模型在作为助手的同时,也可能被恶意用户利用,通过多轮交互放大危害,包括让新手生成专业有害内容,以及规模化执行有害操作。现有研究常忽略多轮对话中的危害累积。为此,研究者提出了HarmAmp基准,涵盖12类风险场景,并设计了TrajSafe主动监控器,通过探测用户真实意图和引导模型安全完成来干预有害轨迹。实验表明,TrajSafe能显著降低多轮交互中的危害,同时保持低过度拒绝率和模型通用能力。这项工作为缓解LLM交互中的细微安全风险提供了新范式。论文LLM安全多轮对话危害放大HarmAmpTrajSafe推荐理由:多轮对话中的危害放大是LLM安全部署的盲区,做AI安全或内容审核的团队可以关注HarmAmp基准和TrajSafe方案,直接用于评估和加固自己的模型。原文
08:06LangChain@LangChainAI精选DataboxHQ 分享了他们如何使用 LangSmith 评估其多轮对话分析智能体 Genie。Genie 是一个能处理复杂数据分析任务的智能体,需要多轮交互才能完成用户请求。LangSmith 提供了评估框架,帮助团队追踪智能体的表现、识别错误并优化对话流程。这一实践展示了如何系统性地评估多轮智能体,对构建可靠 AI 助手的团队有参考价值。AI产品智能体评估框架LangSmith数据分析多轮对话推荐理由:做多轮对话智能体的团队终于有了可落地的评估方案——LangSmith 帮 Databox 把 Genie 的对话质量量化了,建议做 AI 分析助手的开发者点开看看具体怎么做的。原文
14:03arXiv: DeepSeek@Dylan Marx, Marcel Dunaiski精选72°研究发现,使用低资源非洲语言(如南非荷兰语、斯瓦希里语、科萨语和祖鲁语)进行多轮对话,可以绕过ChatGPT、Claude、DeepSeek、Gemini和Grok等商业大模型的安全护栏。单轮翻译攻击无效,但多轮对话在英语上达到52.7%-83.6%的有害响应率,非洲语言也达到41.8%-78.2%。人工红队测试比自动化方法越狱率更高,且翻译质量是决定越狱成功的关键因素——翻译质量越差,越狱率越低。论文越狱攻击低资源语言多轮对话安全漏洞LLM安全推荐理由:安全团队和LLM开发者需要警惕:多语言安全漏洞远未被堵住,低资源语言成为新的攻击面。建议立即检查自家模型的多轮对话安全机制。原文
11:06arXiv cs.AI@Renning Pang, Tian Lan, Leyuan Liu, Xiaoming Huang, Piao Tong, Xiaosong Zhang精选多轮对话系统在处理长距离依赖时容易丢失关键信息,导致回答不一致。现有方法要么依赖高延迟的外部记忆,要么通过迭代摘要丢失细节。本文提出Self-Recall Thinking (SRT)框架,让模型在推理时自主识别并召回历史有用轮次,生成更一致的回复。SRT包含依赖构建、能力初始化和推理优化三个阶段,通过可验证奖励优化召回和推理。实验表明,SRT在多个数据集上F1提升4.7%,端到端延迟降低14.7%,在推理延迟和准确性间取得更好平衡。论文多轮对话一致性长距离依赖推理优化Self-Recall Thinking推荐理由:做对话系统或客服机器人的团队,SRT解决了长对话中信息稀疏和一致性差的痛点,无需外部模块就能提升效果,值得在长上下文场景中试试。原文
15:02xiaomimimo@XiaomiMiMo小米MiMo团队发布警告,使用思考模式进行多轮智能体对话时,若历史记录包含工具调用,后续用户回合必须保留完整推理内容字段,否则API会返回400错误。缺失推理内容会导致上下文不完整,降低指令遵循能力、增加幻觉并影响用户体验。受影响的框架包括TRAE、Cursor、Roo Code、Codex、GitHub Copilot CLI、Zed和AutoGen,团队正与维护者合作推动兼容更新。涉及模型包括MiMo-V2.5-Pro、MiMo-V2.5、MiMo-V2-Pro、MiMo-V2-Omni和MiMo-V2-Flash。AI产品小米MiMoAPI变更智能体多轮对话推理内容7 个信源在谈推荐理由:这个API变更直接影响使用小米MiMo模型的智能体开发者,尤其是多轮对话场景。如果你在用TRAE、Cursor等框架集成MiMo,建议立即检查代码,避免因缺失推理内容导致400错误和体验降级。原文