全部 AI 动态 · AI 热点

6月26日

10:19

arXiv cs.LG@Parmitha Vangapandu, Sai Ganesh Mokkapati, Sathwik Narkedimilli, MSVPJ Sathvik, Timothy Liu, Simon See, Johannes C. Eichstaedt

研究者发布了RSPC（Relational Stress and Psychiatry Corpus），包含1,799条来自Reddit异地恋版块的帖子，由精神科医生标注了诊断类别（焦虑、抑郁等）、关系压力触发因素和关系阶段。在多项任务中测试了7个微调Transformer模型和5个大语言模型，其中Claude-3-Haiku在障碍分类任务中最佳（Macro-F1=0.538），GPT-4o在关系触发检测任务中最佳（Macro-F1=0.519）。分析发现焦虑障碍与慢性关系不确定性有强关联。RSPC推动心理健康NLP从个体视角转向上下文感知的社会动态建模。

论文 RSPC Reddit Claude-3-Haiku GPT-4o 心理健康

推荐理由：想了解AI如何从人际关系中识别心理健康问题？这篇论文用Reddit数据建了专门基准，挺实在。

原文

01:37

OpenAI@OpenAI (@OpenAI)

OpenAI 在官方博客发布“How agents work”指南，详细拆解 Agent 的核心组成：模型调用（以 GPT-4o 为例）、工具集成（代码解释器、函数调用等）、持久化记忆（向量数据库）以及编排模式（链式与多步）。指南对比了简单查询与复杂多步骤 Agent 的设计差异，并给出基于 Assistants API 的代码示例。文章未公布新的基准分数，但提供了可立即实现的架构建议。

技巧 Agent OpenAI GPT-4o 工具使用指南

推荐理由：OpenAI 手把手教你做智能体，从原理到代码都有，适合想自己搭 Agent 的同学。

原文

6月23日

12:00

arXiv: DeepSeek@Yuhan jiang, Peng Luo, Liqiu Meng

精选

新基准Lost in Aggregation将迷宫导航分解为Fine（局部通行）、Meso（交叉口拓扑）和Macro（全局方向）三个认知层级。在1050个拓扑标注迷宫（3x3至30x30共7种尺寸、3个难度级别）上评估GPT-4o、DeepSeek-V3和Llama-3.3-70B。结果发现：端到端导航在10x10以上几乎完全失败，但单独测试各层级时模型在30-75%水平。首错分析定位59%失败在Meso层级、39%在Fine层级，全局方向仅1%。层次化规划（仅在交叉口查询LLM、配合显式单元格提示）将GPT-4o在中等尺寸上的成功率提升最多92个百分点，但30x30时又遇到扩展瓶颈。基准代码和迷宫已开源。

AI模型 Lost in Aggregation GPT-4o DeepSeek-V3 Llama-3.3-70B 空间推理

推荐理由：想知道LLM为什么在导航任务中迷路吗？这个基准把问题拆成三个层级，告诉你59%的锅在交叉口选择，39%在局部感知，方向判断几乎不犯错。对做空间推理的开发者非常有用。

原文

6月19日

20:53

20:53IT之家（博客/媒体）

麻省理工学院一项4月发布、持续4周、67人参与的研究发现，过度依赖聊天机器人可能削弱批判性思维。参与者借助基于GPT-4o的AI助手判断新闻真假，准确率提高21%，但第四周无AI帮助时独立判断能力下降15.3%。研究指出，AI直接给出答案而非引导思考，长期会削弱用户识别错误信息的能力。约四分之一参与者误以为能力提高，实际表现已变差。

论文麻省理工学院 GPT-4o ChatGPT 批判性思维 AI伦理

推荐理由：麻省理工用67人做了4周实验，发现依赖ChatGPT越久，你自己辨别假新闻的能力反而下降15%——别把脑子外包给AI。

原文

6月18日

09:24

arXiv: DeepSeek@Serena A. Hoffstedde, Machiko Hirota, Akshara Nadayanur Sathis Kanna, Rihito Kotani, Ujwal Kumar, Gabriele Trovato, Phan Xuan Tan

该研究使用60份日本履歴書格式简历、12个基于语言性别信号的名字对，以及Claude Sonnet 4.6、GPT-4o、DeepSeek-V3、Gemini 2.5 Flash、Llama 3.3 70B五个SOTA模型，进行了43200次API调用。交叉随机效应线性混合模型确认所有五个模型均存在显著亲女性偏见。提示级性别中立指令未能有效减少偏见。移除名字几乎完全消除了女性效应，表明名字是主要性别通道。隐私过滤器与GPT-4o安全过滤器的不兼容导致42%的请求被拒绝。

论文 GPT-4o DeepSeek-V3 Claude Sonnet 4.6 性别偏见招聘

推荐理由：这篇论文用43200次测试发现，五个主流LLM在日文简历上全有亲女性偏见，改提示没用，删名字才行，看清AI招聘的坑。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

19:46

Decoder@Jonathan Kemper

爱沙尼亚语言研究所发布了一项基准测试，用于评估AI语言模型对俄语宣传的抵抗力。测试涵盖了GPT-4o、Claude 3.5 Sonnet、Llama 3.1等8个模型，发现部分模型在30%的测试样本中会生成亲俄内容。Meta的Llama 3.1 70B表现最差，错误生成率高达42%；而OpenAI的GPT-4o错误率最低，仅为12%。该基准测试还包含一个包含1000个样本的俄语宣传语料库，用于衡量模型对政治操纵的脆弱性。

AI模型 GPT-4o Claude 3.5 Sonnet Llama 3.1 AI安全基准测试

推荐理由：想知道你用的AI会不会被俄语宣传带跑偏？爱沙尼亚语言研究所测了8个主流模型，GPT-4o最扛打，Llama 3.1中招率最高。看看你的AI排第几。

原文

11:38

arXiv: OpenAI@Marta Vallejo, Siwen Wang

该研究通过十名参与者观看33张安全风险场景图像的眼动数据，生成人口平均注视热图。使用GPT-4o通过OpenAI Vision API生成视觉注意力显著性图，并与注视数据比较。空间对齐评估采用四个指标：皮尔逊相关系数0.515±0.117、NSS 0.988±0.323、KL散度1.766±0.844、AUC-Judd 0.806±0.076。与Gemini Pro、Gemini Flash和Claude的对比显示，所有模型AUC-Judd超过机会基线0.5且NSS为正。Gemini Pro在三个指标上定位最强，GPT-4o在KL散度上分布匹配最佳。

论文 GPT-4o Gemini Pro Gemini Flash Claude 视觉语言模型注意力安全场景

推荐理由：想知道AI能不能像人一样在危险场景下抓住关键区域？这篇论文用GPT-4o、Gemini Pro等模型做了对比，发现它们不靠眼动训练数据就能大致预测人类注视点。

原文

11:17

arXiv cs.AI@Sanjay Basu

精选

研究者标注313个MedAlign EHR问答对的四层跃点分类，评估301个问题。三个模型（Claude Sonnet 4-6、GPT-4o、GPT-5.4-2026-03-05）准确率随跃点增加单调下降：Claude从30.6%（hop=1）降至17.6%（hop=4），GPT-4o从37.8%降至14.7%，GPT-5.4从37.8%降至23.5%。上下文充分性审计显示高跃点问题并未因EHR截断而更差，准确率下降源于推理难度。扩展思考未明显缓解精度-深度曲线，思考token使用量与跃点正相关（r=0.31）。

论文 Claude Sonnet GPT-4o GPT-5.4 MedAlign 推理深度

推荐理由：这篇论文用实验告诉你，临床AI回答EHR问题时，推理步骤越多越容易翻车。Claude、GPT-4o和GPT-5.4都逃不过，部署前得重点防多步推理。

原文

10:48

arXiv: DeepSeek@Zewen Liu

论文发现，当AI智能体使用语言模型在反馈循环中自我评估时，会产生系统性偏好偏差。在多模态环境中，评估者偏好崩溃（EPC）被显著放大：用GPT-4o评估DeepSeek-chat时，单一策略step_by_step吸收48.4%权重，是纯文本自评估崩溃程度的3.2倍，而三个视觉域策略合计仅占9.1%。跨模态传染现象揭示：在一个模态获得的评估者偏好会转移到另一个模态并扭曲策略选择。四阶段隔离训练实验测量了传染系数，并发现跨模态暴露后最优策略发生反转。在53次独立重复、15,592次API调用统计中，跨模型评估产生强对称双向传染（均值γ_{T->V}=1.176, γ_{V->T}=1.089），而自评估（DeepSeek-chat）97%运行传染为零。

论文 GPT-4o DeepSeek-chat 多模态评估者偏好崩溃跨模态传染

推荐理由：这篇论文用GPT-4o和DeepSeek-chat做实验，发现AI自我评估时策略偏好会崩坏，还跨模态传染，数字很硬核，搞多模态和智能体的值得看。

原文

6月12日