10:19arXiv cs.LG@Parmitha Vangapandu, Sai Ganesh Mokkapati, Sathwik Narkedimilli, MSVPJ Sathvik, Timothy Liu, Simon See, Johannes C. Eichstaedt研究者发布了RSPC(Relational Stress and Psychiatry Corpus),包含1,799条来自Reddit异地恋版块的帖子,由精神科医生标注了诊断类别(焦虑、抑郁等)、关系压力触发因素和关系阶段。在多项任务中测试了7个微调Transformer模型和5个大语言模型,其中Claude-3-Haiku在障碍分类任务中最佳(Macro-F1=0.538),GPT-4o在关系触发检测任务中最佳(Macro-F1=0.519)。分析发现焦虑障碍与慢性关系不确定性有强关联。RSPC推动心理健康NLP从个体视角转向上下文感知的社会动态建模。论文RSPCRedditClaude-3-HaikuGPT-4o心理健康推荐理由:想了解AI如何从人际关系中识别心理健康问题?这篇论文用Reddit数据建了专门基准,挺实在。原文
10:09arXiv cs.AI@Zoher Kachwala, Bao Tran Truong, Rasika Muralidharan, Haewoon Kwak, Jisun An, Filippo Menczer精选社交媒体正走向多元化,不同社区有各自的规则。研究者提出了PluRule基准,包含来自1989个Reddit社区的13371条规则违规案例,覆盖9种语言。测试发现,即使是GPT-5.2等先进模型,在识别违规内容时表现也仅略优于简单基线。增加模型规模和上下文信息带来的提升有限,而通用规则(如文明用语)更容易被检测。这表明,AI在多元社区的内容审核仍面临根本性挑战。论文内容审核多元社区基准测试Reddit多语言推荐理由:内容审核从业者和社区运营团队会关心:现有AI模型在多元规则下表现堪忧,PluRule为评估和提升审核系统提供了关键基准,值得深入研究。原文