全部 AI 动态 · AI 热点

6月26日

10:19

10:19

arXiv cs.LG@Parmitha Vangapandu, Sai Ganesh Mokkapati, Sathwik Narkedimilli, MSVPJ Sathvik, Timothy Liu, Simon See, Johannes C. Eichstaedt

研究者发布了RSPC（Relational Stress and Psychiatry Corpus），包含1,799条来自Reddit异地恋版块的帖子，由精神科医生标注了诊断类别（焦虑、抑郁等）、关系压力触发因素和关系阶段。在多项任务中测试了7个微调Transformer模型和5个大语言模型，其中Claude-3-Haiku在障碍分类任务中最佳（Macro-F1=0.538），GPT-4o在关系触发检测任务中最佳（Macro-F1=0.519）。分析发现焦虑障碍与慢性关系不确定性有强关联。RSPC推动心理健康NLP从个体视角转向上下文感知的社会动态建模。

论文 RSPC Reddit Claude-3-Haiku GPT-4o 心理健康

推荐理由：想了解AI如何从人际关系中识别心理健康问题？这篇论文用Reddit数据建了专门基准，挺实在。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月19日

10:09

10:09

arXiv cs.AI@Zoher Kachwala, Bao Tran Truong, Rasika Muralidharan, Haewoon Kwak, Jisun An, Filippo Menczer

精选

社交媒体正走向多元化，不同社区有各自的规则。研究者提出了PluRule基准，包含来自1989个Reddit社区的13371条规则违规案例，覆盖9种语言。测试发现，即使是GPT-5.2等先进模型，在识别违规内容时表现也仅略优于简单基线。增加模型规模和上下文信息带来的提升有限，而通用规则（如文明用语）更容易被检测。这表明，AI在多元社区的内容审核仍面临根本性挑战。

论文内容审核多元社区基准测试 Reddit 多语言

推荐理由：内容审核从业者和社区运营团队会关心：现有AI模型在多元规则下表现堪忧，PluRule为评估和提升审核系统提供了关键基准，值得深入研究。