论文精选

AI内容审核在治疗对话中的局限性研究

AI Content Moderation in Therapy Conversations

精选理由

这项研究戳穿了AI治疗应用的核心矛盾——安全审核反而成了障碍,做心理健康AI产品、设计对话系统的团队值得细读,看完会对审核策略有新的思考。

AI 摘要

大型语言模型(LLM)越来越多地被用于情感支持和正式治疗场景,但像ChatGPT或Llama等模型内置的内容审核机制会阻止它们讨论敏感话题,这可能影响其作为治疗师的能力。本研究对OpenAI、Meta和Google的三种先进审核系统进行了算法审计,评估它们对真实治疗对话内容的标记程度。结果显示,这些系统过度标记了治疗中必要的敏感内容,揭示了LLM在扮演治疗师角色时面临的限制。这对设计用于心理健康的AI系统具有重要启示,表明当前审核机制可能阻碍有效的治疗对话。

AI 翻译 · 中文

大型语言模型(LLM)越来越多地被用于情感支持和正式治疗场景,但像ChatGPT或Llama等模型内置的内容审核机制会阻止它们讨论敏感话题,这可能影响其作为治疗师的能力。本研究对OpenAI、Meta和Google的三种先进审核系统进行了算法审计,评估它们对真实治疗对话内容的标记程度。结果显示,这些系统过度标记了治疗中必要的敏感内容,揭示了LLM在扮演治疗师角色时面临的限制。这对设计用于心理健康的AI系统具有重要启示,表明当前审核机制可能阻碍有效的治疗对话。

arXiv: OpenAILarge language models (LLMs) are increasingly being used for emotional support. They are also being developed for formal therapy purposes. However, LLMs like ChaptGPT or Llama are often developed with content moderation