10:26arXiv: DeepSeek@Liu Zewen论文提出EPC诊断框架,包含多模态偏好崩溃指数(MPCI)、评估器耦合矩阵和JS散度(JSD)。在8种实验条件下(N=122次重复)发现耦合系数均值范围0.00-1.18,其中GPT-4o May、GPT-4o-mini、Qwen3.7-plus和DashScope 30r四个条件显示强耦合(N=36),而GPT-4o June、qwen-plus N=30等四个条件崩溃到近零。特别地,GPT-4o从5月到6月的版本漂移(N=8重复实验)导致结论反转,自评估条件97%为零(JSD=0.003)。论文GPT-4oDeepSeekQwen3.7-plusEPC评估器漂移推荐理由:这篇论文告诉你,你以为可靠的GPT-4o评估器可能几周后就失效了,它还给了你一个EPC框架来自己检查。原文
10:04arXiv cs.LG@Craig Atkinson研究在Open University Learning Analytics数据集(N=800,4个时间截点)上发现干预偏差:第56天,oracle标记70.1%学生无需干预,但零样本GPT-4o对73%学生推荐行动,误报率43个百分点。商业RAG和SQL增强检索校准同样差,在10000学生规模下每周期约4300次不必要接触。监督学习方法(ONNX Decision Transformer和XGBoost)校准误差接近零,Decision Transformer达到macro-F1 0.79、macro-recall 0.85,决策延迟低于5毫秒。LLM-as-judge评估(DeepEval G-Eval)无法捕捉干预偏差,反而奖励流畅的过度干预。论文GPT-4oDecision TransformerXGBoost干预偏差教育顾问推荐理由:零样本GPT-4o当教育顾问爱多管闲事?实测误报率43%,换成Decision Transformer或XGBoost就能准到几乎零误报。原文
10:19arXiv cs.LG@Parmitha Vangapandu, Sai Ganesh Mokkapati, Sathwik Narkedimilli, MSVPJ Sathvik, Timothy Liu, Simon See, Johannes C. Eichstaedt研究者发布了RSPC(Relational Stress and Psychiatry Corpus),包含1,799条来自Reddit异地恋版块的帖子,由精神科医生标注了诊断类别(焦虑、抑郁等)、关系压力触发因素和关系阶段。在多项任务中测试了7个微调Transformer模型和5个大语言模型,其中Claude-3-Haiku在障碍分类任务中最佳(Macro-F1=0.538),GPT-4o在关系触发检测任务中最佳(Macro-F1=0.519)。分析发现焦虑障碍与慢性关系不确定性有强关联。RSPC推动心理健康NLP从个体视角转向上下文感知的社会动态建模。论文RSPCRedditClaude-3-HaikuGPT-4o心理健康推荐理由:想了解AI如何从人际关系中识别心理健康问题?这篇论文用Reddit数据建了专门基准,挺实在。原文
12:00arXiv: DeepSeek@Yuhan jiang, Peng Luo, Liqiu Meng精选新基准Lost in Aggregation将迷宫导航分解为Fine(局部通行)、Meso(交叉口拓扑)和Macro(全局方向)三个认知层级。在1050个拓扑标注迷宫(3x3至30x30共7种尺寸、3个难度级别)上评估GPT-4o、DeepSeek-V3和Llama-3.3-70B。结果发现:端到端导航在10x10以上几乎完全失败,但单独测试各层级时模型在30-75%水平。首错分析定位59%失败在Meso层级、39%在Fine层级,全局方向仅1%。层次化规划(仅在交叉口查询LLM、配合显式单元格提示)将GPT-4o在中等尺寸上的成功率提升最多92个百分点,但30x30时又遇到扩展瓶颈。基准代码和迷宫已开源。AI模型Lost in AggregationGPT-4oDeepSeek-V3Llama-3.3-70B空间推理推荐理由:想知道LLM为什么在导航任务中迷路吗?这个基准把问题拆成三个层级,告诉你59%的锅在交叉口选择,39%在局部感知,方向判断几乎不犯错。对做空间推理的开发者非常有用。原文
09:24arXiv: DeepSeek@Serena A. Hoffstedde, Machiko Hirota, Akshara Nadayanur Sathis Kanna, Rihito Kotani, Ujwal Kumar, Gabriele Trovato, Phan Xuan Tan该研究使用60份日本履歴書格式简历、12个基于语言性别信号的名字对,以及Claude Sonnet 4.6、GPT-4o、DeepSeek-V3、Gemini 2.5 Flash、Llama 3.3 70B五个SOTA模型,进行了43200次API调用。交叉随机效应线性混合模型确认所有五个模型均存在显著亲女性偏见。提示级性别中立指令未能有效减少偏见。移除名字几乎完全消除了女性效应,表明名字是主要性别通道。隐私过滤器与GPT-4o安全过滤器的不兼容导致42%的请求被拒绝。论文GPT-4oDeepSeek-V3Claude Sonnet 4.6性别偏见招聘推荐理由:这篇论文用43200次测试发现,五个主流LLM在日文简历上全有亲女性偏见,改提示没用,删名字才行,看清AI招聘的坑。原文
11:38arXiv: OpenAI@Marta Vallejo, Siwen Wang该研究通过十名参与者观看33张安全风险场景图像的眼动数据,生成人口平均注视热图。使用GPT-4o通过OpenAI Vision API生成视觉注意力显著性图,并与注视数据比较。空间对齐评估采用四个指标:皮尔逊相关系数0.515±0.117、NSS 0.988±0.323、KL散度1.766±0.844、AUC-Judd 0.806±0.076。与Gemini Pro、Gemini Flash和Claude的对比显示,所有模型AUC-Judd超过机会基线0.5且NSS为正。Gemini Pro在三个指标上定位最强,GPT-4o在KL散度上分布匹配最佳。论文GPT-4oGemini ProGemini FlashClaude视觉语言模型注意力安全场景10 个信源在谈推荐理由:想知道AI能不能像人一样在危险场景下抓住关键区域?这篇论文用GPT-4o、Gemini Pro等模型做了对比,发现它们不靠眼动训练数据就能大致预测人类注视点。原文
11:17arXiv cs.AI@Sanjay Basu精选研究者标注313个MedAlign EHR问答对的四层跃点分类,评估301个问题。三个模型(Claude Sonnet 4-6、GPT-4o、GPT-5.4-2026-03-05)准确率随跃点增加单调下降:Claude从30.6%(hop=1)降至17.6%(hop=4),GPT-4o从37.8%降至14.7%,GPT-5.4从37.8%降至23.5%。上下文充分性审计显示高跃点问题并未因EHR截断而更差,准确率下降源于推理难度。扩展思考未明显缓解精度-深度曲线,思考token使用量与跃点正相关(r=0.31)。论文Claude SonnetGPT-4oGPT-5.4MedAlign推理深度1 个信源在谈推荐理由:这篇论文用实验告诉你,临床AI回答EHR问题时,推理步骤越多越容易翻车。Claude、GPT-4o和GPT-5.4都逃不过,部署前得重点防多步推理。原文
10:48arXiv: DeepSeek@Zewen Liu论文发现,当AI智能体使用语言模型在反馈循环中自我评估时,会产生系统性偏好偏差。在多模态环境中,评估者偏好崩溃(EPC)被显著放大:用GPT-4o评估DeepSeek-chat时,单一策略step_by_step吸收48.4%权重,是纯文本自评估崩溃程度的3.2倍,而三个视觉域策略合计仅占9.1%。跨模态传染现象揭示:在一个模态获得的评估者偏好会转移到另一个模态并扭曲策略选择。四阶段隔离训练实验测量了传染系数,并发现跨模态暴露后最优策略发生反转。在53次独立重复、15,592次API调用统计中,跨模型评估产生强对称双向传染(均值γ_{T->V}=1.176, γ_{V->T}=1.089),而自评估(DeepSeek-chat)97%运行传染为零。论文GPT-4oDeepSeek-chat多模态评估者偏好崩溃跨模态传染推荐理由:这篇论文用GPT-4o和DeepSeek-chat做实验,发现AI自我评估时策略偏好会崩坏,还跨模态传染,数字很硬核,搞多模态和智能体的值得看。原文