全部 AI 动态 · AI 热点

6月30日

10:26

arXiv: DeepSeek@Liu Zewen

论文提出EPC诊断框架，包含多模态偏好崩溃指数(MPCI)、评估器耦合矩阵和JS散度(JSD)。在8种实验条件下（N=122次重复）发现耦合系数均值范围0.00-1.18，其中GPT-4o May、GPT-4o-mini、Qwen3.7-plus和DashScope 30r四个条件显示强耦合（N=36），而GPT-4o June、qwen-plus N=30等四个条件崩溃到近零。特别地，GPT-4o从5月到6月的版本漂移（N=8重复实验）导致结论反转，自评估条件97%为零（JSD=0.003）。

论文 GPT-4o DeepSeek Qwen3.7-plus EPC 评估器漂移

推荐理由：这篇论文告诉你，你以为可靠的GPT-4o评估器可能几周后就失效了，它还给了你一个EPC框架来自己检查。

原文

10:04

arXiv cs.LG@Craig Atkinson

研究在Open University Learning Analytics数据集（N=800，4个时间截点）上发现干预偏差：第56天，oracle标记70.1%学生无需干预，但零样本GPT-4o对73%学生推荐行动，误报率43个百分点。商业RAG和SQL增强检索校准同样差，在10000学生规模下每周期约4300次不必要接触。监督学习方法（ONNX Decision Transformer和XGBoost）校准误差接近零，Decision Transformer达到macro-F1 0.79、macro-recall 0.85，决策延迟低于5毫秒。LLM-as-judge评估（DeepEval G-Eval）无法捕捉干预偏差，反而奖励流畅的过度干预。

论文 GPT-4o Decision Transformer XGBoost 干预偏差教育顾问

推荐理由：零样本GPT-4o当教育顾问爱多管闲事？实测误报率43%，换成Decision Transformer或XGBoost就能准到几乎零误报。

原文

6月26日

10:19

arXiv cs.LG@Parmitha Vangapandu, Sai Ganesh Mokkapati, Sathwik Narkedimilli, MSVPJ Sathvik, Timothy Liu, Simon See, Johannes C. Eichstaedt

研究者发布了RSPC（Relational Stress and Psychiatry Corpus），包含1,799条来自Reddit异地恋版块的帖子，由精神科医生标注了诊断类别（焦虑、抑郁等）、关系压力触发因素和关系阶段。在多项任务中测试了7个微调Transformer模型和5个大语言模型，其中Claude-3-Haiku在障碍分类任务中最佳（Macro-F1=0.538），GPT-4o在关系触发检测任务中最佳（Macro-F1=0.519）。分析发现焦虑障碍与慢性关系不确定性有强关联。RSPC推动心理健康NLP从个体视角转向上下文感知的社会动态建模。

论文 RSPC Reddit Claude-3-Haiku GPT-4o 心理健康

推荐理由：想了解AI如何从人际关系中识别心理健康问题？这篇论文用Reddit数据建了专门基准，挺实在。

原文

6月23日

12:00

arXiv: DeepSeek@Yuhan jiang, Peng Luo, Liqiu Meng

精选

新基准Lost in Aggregation将迷宫导航分解为Fine（局部通行）、Meso（交叉口拓扑）和Macro（全局方向）三个认知层级。在1050个拓扑标注迷宫（3x3至30x30共7种尺寸、3个难度级别）上评估GPT-4o、DeepSeek-V3和Llama-3.3-70B。结果发现：端到端导航在10x10以上几乎完全失败，但单独测试各层级时模型在30-75%水平。首错分析定位59%失败在Meso层级、39%在Fine层级，全局方向仅1%。层次化规划（仅在交叉口查询LLM、配合显式单元格提示）将GPT-4o在中等尺寸上的成功率提升最多92个百分点，但30x30时又遇到扩展瓶颈。基准代码和迷宫已开源。

AI模型 Lost in Aggregation GPT-4o DeepSeek-V3 Llama-3.3-70B 空间推理

推荐理由：想知道LLM为什么在导航任务中迷路吗？这个基准把问题拆成三个层级，告诉你59%的锅在交叉口选择，39%在局部感知，方向判断几乎不犯错。对做空间推理的开发者非常有用。

原文

6月18日

09:24

arXiv: DeepSeek@Serena A. Hoffstedde, Machiko Hirota, Akshara Nadayanur Sathis Kanna, Rihito Kotani, Ujwal Kumar, Gabriele Trovato, Phan Xuan Tan

该研究使用60份日本履歴書格式简历、12个基于语言性别信号的名字对，以及Claude Sonnet 4.6、GPT-4o、DeepSeek-V3、Gemini 2.5 Flash、Llama 3.3 70B五个SOTA模型，进行了43200次API调用。交叉随机效应线性混合模型确认所有五个模型均存在显著亲女性偏见。提示级性别中立指令未能有效减少偏见。移除名字几乎完全消除了女性效应，表明名字是主要性别通道。隐私过滤器与GPT-4o安全过滤器的不兼容导致42%的请求被拒绝。

论文 GPT-4o DeepSeek-V3 Claude Sonnet 4.6 性别偏见招聘

推荐理由：这篇论文用43200次测试发现，五个主流LLM在日文简历上全有亲女性偏见，改提示没用，删名字才行，看清AI招聘的坑。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

11:38

arXiv: OpenAI@Marta Vallejo, Siwen Wang

该研究通过十名参与者观看33张安全风险场景图像的眼动数据，生成人口平均注视热图。使用GPT-4o通过OpenAI Vision API生成视觉注意力显著性图，并与注视数据比较。空间对齐评估采用四个指标：皮尔逊相关系数0.515±0.117、NSS 0.988±0.323、KL散度1.766±0.844、AUC-Judd 0.806±0.076。与Gemini Pro、Gemini Flash和Claude的对比显示，所有模型AUC-Judd超过机会基线0.5且NSS为正。Gemini Pro在三个指标上定位最强，GPT-4o在KL散度上分布匹配最佳。

论文 GPT-4o Gemini Pro Gemini Flash Claude 视觉语言模型注意力安全场景

推荐理由：想知道AI能不能像人一样在危险场景下抓住关键区域？这篇论文用GPT-4o、Gemini Pro等模型做了对比，发现它们不靠眼动训练数据就能大致预测人类注视点。

原文

11:17

arXiv cs.AI@Sanjay Basu

精选

研究者标注313个MedAlign EHR问答对的四层跃点分类，评估301个问题。三个模型（Claude Sonnet 4-6、GPT-4o、GPT-5.4-2026-03-05）准确率随跃点增加单调下降：Claude从30.6%（hop=1）降至17.6%（hop=4），GPT-4o从37.8%降至14.7%，GPT-5.4从37.8%降至23.5%。上下文充分性审计显示高跃点问题并未因EHR截断而更差，准确率下降源于推理难度。扩展思考未明显缓解精度-深度曲线，思考token使用量与跃点正相关（r=0.31）。

论文 Claude Sonnet GPT-4o GPT-5.4 MedAlign 推理深度

推荐理由：这篇论文用实验告诉你，临床AI回答EHR问题时，推理步骤越多越容易翻车。Claude、GPT-4o和GPT-5.4都逃不过，部署前得重点防多步推理。

原文

10:48

arXiv: DeepSeek@Zewen Liu

论文发现，当AI智能体使用语言模型在反馈循环中自我评估时，会产生系统性偏好偏差。在多模态环境中，评估者偏好崩溃（EPC）被显著放大：用GPT-4o评估DeepSeek-chat时，单一策略step_by_step吸收48.4%权重，是纯文本自评估崩溃程度的3.2倍，而三个视觉域策略合计仅占9.1%。跨模态传染现象揭示：在一个模态获得的评估者偏好会转移到另一个模态并扭曲策略选择。四阶段隔离训练实验测量了传染系数，并发现跨模态暴露后最优策略发生反转。在53次独立重复、15,592次API调用统计中，跨模型评估产生强对称双向传染（均值γ_{T->V}=1.176, γ_{V->T}=1.089），而自评估（DeepSeek-chat）97%运行传染为零。

论文 GPT-4o DeepSeek-chat 多模态评估者偏好崩溃跨模态传染

推荐理由：这篇论文用GPT-4o和DeepSeek-chat做实验，发现AI自我评估时策略偏好会崩坏，还跨模态传染，数字很硬核，搞多模态和智能体的值得看。

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？