10:19arXiv cs.LG@Parmitha Vangapandu, Sai Ganesh Mokkapati, Sathwik Narkedimilli, MSVPJ Sathvik, Timothy Liu, Simon See, Johannes C. Eichstaedt研究者发布了RSPC(Relational Stress and Psychiatry Corpus),包含1,799条来自Reddit异地恋版块的帖子,由精神科医生标注了诊断类别(焦虑、抑郁等)、关系压力触发因素和关系阶段。在多项任务中测试了7个微调Transformer模型和5个大语言模型,其中Claude-3-Haiku在障碍分类任务中最佳(Macro-F1=0.538),GPT-4o在关系触发检测任务中最佳(Macro-F1=0.519)。分析发现焦虑障碍与慢性关系不确定性有强关联。RSPC推动心理健康NLP从个体视角转向上下文感知的社会动态建模。论文RSPCRedditClaude-3-HaikuGPT-4o心理健康推荐理由:想了解AI如何从人际关系中识别心理健康问题?这篇论文用Reddit数据建了专门基准,挺实在。原文
01:37OpenAI@OpenAI (@OpenAI)OpenAI 在官方博客发布“How agents work”指南,详细拆解 Agent 的核心组成:模型调用(以 GPT-4o 为例)、工具集成(代码解释器、函数调用等)、持久化记忆(向量数据库)以及编排模式(链式与多步)。指南对比了简单查询与复杂多步骤 Agent 的设计差异,并给出基于 Assistants API 的代码示例。文章未公布新的基准分数,但提供了可立即实现的架构建议。技巧AgentOpenAIGPT-4o工具使用指南10 个信源在谈推荐理由:OpenAI 手把手教你做智能体,从原理到代码都有,适合想自己搭 Agent 的同学。原文
12:00arXiv: DeepSeek@Yuhan jiang, Peng Luo, Liqiu Meng精选新基准Lost in Aggregation将迷宫导航分解为Fine(局部通行)、Meso(交叉口拓扑)和Macro(全局方向)三个认知层级。在1050个拓扑标注迷宫(3x3至30x30共7种尺寸、3个难度级别)上评估GPT-4o、DeepSeek-V3和Llama-3.3-70B。结果发现:端到端导航在10x10以上几乎完全失败,但单独测试各层级时模型在30-75%水平。首错分析定位59%失败在Meso层级、39%在Fine层级,全局方向仅1%。层次化规划(仅在交叉口查询LLM、配合显式单元格提示)将GPT-4o在中等尺寸上的成功率提升最多92个百分点,但30x30时又遇到扩展瓶颈。基准代码和迷宫已开源。AI模型Lost in AggregationGPT-4oDeepSeek-V3Llama-3.3-70B空间推理推荐理由:想知道LLM为什么在导航任务中迷路吗?这个基准把问题拆成三个层级,告诉你59%的锅在交叉口选择,39%在局部感知,方向判断几乎不犯错。对做空间推理的开发者非常有用。原文
20:53IT之家(博客/媒体)麻省理工学院一项4月发布、持续4周、67人参与的研究发现,过度依赖聊天机器人可能削弱批判性思维。参与者借助基于GPT-4o的AI助手判断新闻真假,准确率提高21%,但第四周无AI帮助时独立判断能力下降15.3%。研究指出,AI直接给出答案而非引导思考,长期会削弱用户识别错误信息的能力。约四分之一参与者误以为能力提高,实际表现已变差。论文麻省理工学院GPT-4oChatGPT批判性思维AI伦理推荐理由:麻省理工用67人做了4周实验,发现依赖ChatGPT越久,你自己辨别假新闻的能力反而下降15%——别把脑子外包给AI。原文
09:24arXiv: DeepSeek@Serena A. Hoffstedde, Machiko Hirota, Akshara Nadayanur Sathis Kanna, Rihito Kotani, Ujwal Kumar, Gabriele Trovato, Phan Xuan Tan该研究使用60份日本履歴書格式简历、12个基于语言性别信号的名字对,以及Claude Sonnet 4.6、GPT-4o、DeepSeek-V3、Gemini 2.5 Flash、Llama 3.3 70B五个SOTA模型,进行了43200次API调用。交叉随机效应线性混合模型确认所有五个模型均存在显著亲女性偏见。提示级性别中立指令未能有效减少偏见。移除名字几乎完全消除了女性效应,表明名字是主要性别通道。隐私过滤器与GPT-4o安全过滤器的不兼容导致42%的请求被拒绝。论文GPT-4oDeepSeek-V3Claude Sonnet 4.6性别偏见招聘推荐理由:这篇论文用43200次测试发现,五个主流LLM在日文简历上全有亲女性偏见,改提示没用,删名字才行,看清AI招聘的坑。原文
19:46Decoder@Jonathan Kemper爱沙尼亚语言研究所发布了一项基准测试,用于评估AI语言模型对俄语宣传的抵抗力。测试涵盖了GPT-4o、Claude 3.5 Sonnet、Llama 3.1等8个模型,发现部分模型在30%的测试样本中会生成亲俄内容。Meta的Llama 3.1 70B表现最差,错误生成率高达42%;而OpenAI的GPT-4o错误率最低,仅为12%。该基准测试还包含一个包含1000个样本的俄语宣传语料库,用于衡量模型对政治操纵的脆弱性。AI模型GPT-4oClaude 3.5 SonnetLlama 3.1AI安全基准测试10 个信源在谈推荐理由:想知道你用的AI会不会被俄语宣传带跑偏?爱沙尼亚语言研究所测了8个主流模型,GPT-4o最扛打,Llama 3.1中招率最高。看看你的AI排第几。原文
11:38arXiv: OpenAI@Marta Vallejo, Siwen Wang该研究通过十名参与者观看33张安全风险场景图像的眼动数据,生成人口平均注视热图。使用GPT-4o通过OpenAI Vision API生成视觉注意力显著性图,并与注视数据比较。空间对齐评估采用四个指标:皮尔逊相关系数0.515±0.117、NSS 0.988±0.323、KL散度1.766±0.844、AUC-Judd 0.806±0.076。与Gemini Pro、Gemini Flash和Claude的对比显示,所有模型AUC-Judd超过机会基线0.5且NSS为正。Gemini Pro在三个指标上定位最强,GPT-4o在KL散度上分布匹配最佳。论文GPT-4oGemini ProGemini FlashClaude视觉语言模型注意力安全场景10 个信源在谈推荐理由:想知道AI能不能像人一样在危险场景下抓住关键区域?这篇论文用GPT-4o、Gemini Pro等模型做了对比,发现它们不靠眼动训练数据就能大致预测人类注视点。原文
11:17arXiv cs.AI@Sanjay Basu精选研究者标注313个MedAlign EHR问答对的四层跃点分类,评估301个问题。三个模型(Claude Sonnet 4-6、GPT-4o、GPT-5.4-2026-03-05)准确率随跃点增加单调下降:Claude从30.6%(hop=1)降至17.6%(hop=4),GPT-4o从37.8%降至14.7%,GPT-5.4从37.8%降至23.5%。上下文充分性审计显示高跃点问题并未因EHR截断而更差,准确率下降源于推理难度。扩展思考未明显缓解精度-深度曲线,思考token使用量与跃点正相关(r=0.31)。论文Claude SonnetGPT-4oGPT-5.4MedAlign推理深度1 个信源在谈推荐理由:这篇论文用实验告诉你,临床AI回答EHR问题时,推理步骤越多越容易翻车。Claude、GPT-4o和GPT-5.4都逃不过,部署前得重点防多步推理。原文
10:48arXiv: DeepSeek@Zewen Liu论文发现,当AI智能体使用语言模型在反馈循环中自我评估时,会产生系统性偏好偏差。在多模态环境中,评估者偏好崩溃(EPC)被显著放大:用GPT-4o评估DeepSeek-chat时,单一策略step_by_step吸收48.4%权重,是纯文本自评估崩溃程度的3.2倍,而三个视觉域策略合计仅占9.1%。跨模态传染现象揭示:在一个模态获得的评估者偏好会转移到另一个模态并扭曲策略选择。四阶段隔离训练实验测量了传染系数,并发现跨模态暴露后最优策略发生反转。在53次独立重复、15,592次API调用统计中,跨模型评估产生强对称双向传染(均值γ_{T->V}=1.176, γ_{V->T}=1.089),而自评估(DeepSeek-chat)97%运行传染为零。论文GPT-4oDeepSeek-chat多模态评估者偏好崩溃跨模态传染推荐理由:这篇论文用GPT-4o和DeepSeek-chat做实验,发现AI自我评估时策略偏好会崩坏,还跨模态传染,数字很硬核,搞多模态和智能体的值得看。原文
06:44Ethan Mollick@emollick精选Ethan Mollick在推文中透露,他们的实验使用了GPT-4和GPT-4o的混合模型,因为发表论文需要时间。他指出,如果使用更新的模型,尤其是最新的智能体工具,实验结果可能会更加显著。这表明AI技术的快速迭代对研究结果有重要影响,最新模型和工具能带来更大提升。论文GPT-4GPT-4o实验模型迭代智能体推荐理由:AI研究者或实验设计者注意了:模型版本差异可能显著影响结论,使用最新智能体工具能放大效果,建议在论文中明确标注模型版本。原文
01:06AI Will@FinanceYF5一位开发者用 GPT-4o 和 Gemini 3.1 Pro 快速构建了一款交互式科学应用,UI 设计和星球纹理均由 AI 生成。该实验展示了多模态 AI 在创意编程和科学可视化中的潜力,无需专业设计或编程背景即可快速产出可交互的原型。这一流程大幅降低了科学教育应用的制作门槛,适合教育工作者、科普创作者和前端开发者参考。AI产品GPT-4oGemini 3.1 Pro交互式应用科学可视化AI 编程推荐理由:AI 从设计到代码全包了,做科学可视化或教育应用的开发者可以直接抄作业,省掉 UI 和纹理设计的时间。原文
01:58Sam Altman Blog(资讯)精选OpenAI推出GPT-4o,该模型支持文本、图像和音频输入输出。GPT-4o在推理速度和成本上优于前代GPT-4 Turbo,并向所有ChatGPT用户免费开放。这一发布标志着多模态AI进入新阶段。AI模型GPT-4oOpenAI多模态6 个信源在谈推荐理由:多模态免费模型来了原文