12:35arXiv: DeepSeek@Zewen LiuLLM Agent记忆系统在持续整合中会退化,但现有研究假设记忆来自无偏体验。本研究提出Memory Contagion现象,即有偏评估者导致的偏差会通过记忆跨时间传播。实验显示长度偏好偏差在旧模型DeepSeek V4-Chat上传播(Gamma_A=13.18),而新模型V4-Pro和Claude免疫。权威偏差在全部15个多种子实验中未传播(Gamma_A=0.00)。污染率低至p=0.2时仍能检测到长度偏差传播,未发现安全阈值。论文Memory ContagionDeepSeek V4-ChatClaude偏差传播智能体推荐理由:这篇论文发现用有偏评估者训练智能体,偏差会像病毒一样通过记忆传染给后来者。旧模型DeepSeek V4-Chat中招,Claude和V4-Pro没事,权威偏见传不出去。原文
10:34arXiv cs.LG@Mingguang Chen, Bo QuInvestPhilBench基准包含118个投资原则卡、25个决策框架卡和243个QA问题(197开发/46测试)。它引入BASP评分管道(五个指标)和GRA门级准确率。在四个模型上的开发集测试显示BASP复合分饱和(Claude L4=0.932),但GRA暴露了程序缺陷(前沿L4 GRA约0.77,L7 GRA 0.57-0.62)。在100个专家标注黄金集上,自动化BASP与人类参考相关性Pearson r=0.72。复合评分奖励流畅文本,隐藏了程序差距。AI模型InvestPhilBenchClaude程序推理投资哲学AI评估基准推荐理由:InvestPhilBench揭示了AI在投资程序推理上的真实水平:Claude虽高分,但程序推理准确率仅0.77。别只看总分。原文
11:39arXiv cs.AI@Liran Tal, Johannes Kloos, Arsenii Rudich, Stephen Thoemmes, Manoj Nair该论文通过300次重复漏洞扫描,测量了LLM在JavaScript代码安全审查中的可重复性。在250次模型运行中,80个唯一不匹配发现仅出现在一次重复中,22个出现在全部五次。相比之下,Claude匹配Snyk Code参考发现时更稳定:134个唯一匹配发现出现在全部五次。Snyk Code SAST是确定性的,能系统枚举重复数据流汇点。结果表明,将agentic LLM审查与确定性SAST结合比单独使用任一方法更好。论文SnykVulnBenchClaudeLLMAI安全代码审计推荐理由:这篇论文测试了LLM重复找漏洞的稳定性,发现Claude匹配结果很稳,但自己新发现的漏洞随机性高。建议和安全工具搭配用,别靠它单干。原文
11:38arXiv: OpenAI@Marta Vallejo, Siwen Wang该研究通过十名参与者观看33张安全风险场景图像的眼动数据,生成人口平均注视热图。使用GPT-4o通过OpenAI Vision API生成视觉注意力显著性图,并与注视数据比较。空间对齐评估采用四个指标:皮尔逊相关系数0.515±0.117、NSS 0.988±0.323、KL散度1.766±0.844、AUC-Judd 0.806±0.076。与Gemini Pro、Gemini Flash和Claude的对比显示,所有模型AUC-Judd超过机会基线0.5且NSS为正。Gemini Pro在三个指标上定位最强,GPT-4o在KL散度上分布匹配最佳。论文GPT-4oGemini ProGemini FlashClaude视觉语言模型注意力安全场景10 个信源在谈推荐理由:想知道AI能不能像人一样在危险场景下抓住关键区域?这篇论文用GPT-4o、Gemini Pro等模型做了对比,发现它们不靠眼动训练数据就能大致预测人类注视点。原文
10:03arXiv: Anthropic@Christian Seto, Jacqueline Nguyen, Jiayi Hong, Ross Maciejewski最新研究测试了Anthropic Claude Opus 4.5、OpenAI GPT 5.2 Pro和Google Gemini 3 Flash在可视化评估上的能力。使用修改后的VLAT测试,发现这三款模型的可视化素养均超过人类平均水平。但在指令遵循方面,few-shot和chain-of-thought提示技术对提升可视化素养已无明显效果。在识别误导性可视化时,无专门提示下模型准确率偏低。结论认为LLM作为可视化评估者的能力仍需重新审视。论文ClaudeGPTGeminiLLM可视化素养10 个信源在谈推荐理由:这篇论文测了Claude、GPT和Gemini最新版,看图能力比人强,但让它们判断图表有没有骗人,还是不行。有意思的发现。原文
11:07arXiv: Anthropic@Matthew Stone, Una Stojnić本文探讨AI聊天机器人(如Claude)输出的语言是否具有意义。尽管普通用户和工程师通常认为答案是肯定的,但许多认知科学家和语言哲学家基于意向性理论持相反观点。作者提出,不需要假设AI具有心理状态或意图,现有的人类语言理论已足以解释LLM输出的意义。然而,承认输出有意义并不等同于认可其内容或技术价值,这对批判性使用AI生成文本有重要启示。论文AI哲学语言模型意义理论ClaudeLLM输出推荐理由:这篇论文为AI语言哲学提供了新视角,做AI伦理、语言模型研究的学者或开发者值得一读,能帮你跳出“AI是否有意识”的争论,重新理解输出文本的本质。原文
10:52arXiv: DeepSeek@Jiwoo Choi, Seonwoo Ahn, Tongxin Zhang, Seohyon Jung精选一项研究对六种大语言模型(Claude、GPT、Gemini、DeepSeek、Syn-Pro、HyperCLOVA X)在英语、韩语、中文和日语中的性别刻板印象进行了审计。研究使用HEXACO-100人格量表,并以48国人类数据为基准,发现模型的性别偏见幅度比人类跨国家差异范围宽约2.5倍。例如,一个以英语为中心的模型在用韩语提示时,偏见水平达到当地人类基准的5倍,即使提示中明确候选人已被录用(这通常会减弱人类的刻板印象)。研究提出了一个四模式框架(一致、抑制、重组、放大)来描述24个(模型×语言)单元的行为,并发现翻译不仅会缩放刻板印象,还会改变与之关联的属性。结论是,没有单一的偏见消除流程能跨语言边界均匀地解决偏见问题。论文性别偏见跨语言审计HEXACO-100ClaudeGPTGeminiDeepSeekHyperCLOVA X推荐理由:这项研究揭示了AI性别偏见在跨语言环境下的复杂性和放大效应,对多语言AI部署团队和公平性研究者来说,是理解偏见机制、设计针对性缓解策略的关键参考。建议关注其四模式框架和跨语言属性重组发现。原文
12:55arXiv: OpenAI@Tanmay Asthana, Aman Saksena, Divyansh Sahu精选76°研究人员发布了针对深度研究代理(DRA)在管理咨询场景下的评测基准,包含42个专家撰写的任务,每个任务有平均13.8个确定性验证器和五维度0-3分专家评分。评测了Claude Opus 4.6、OpenAI o3-deep-research和Google Gemini 3.1 Pro,三者通过联合阈值(专家评分≥2.5且验证器通过率≥80%)的接受率均很低:Gemini 21.4%,o3和Claude仅9.5%。各模型失败模式不同:Claude输出最可靠但虚构最多,o3推理最清晰但遗漏章节和传播算术错误,Gemini表现两极分化。该基准通过嵌入认知陷阱来惩罚表面模式匹配,揭示了当前前沿DRA在专业分析任务上的严重不足。论文评测基准深度研究代理管理咨询ClaudeOpenAI o3Gemini认知陷阱10 个信源在谈推荐理由:管理咨询团队和依赖AI做深度分析的开发者会震惊——三个最先进的DRA在专家级任务中通过率不到22%,且各有致命短板。想避免被AI的自信输出误导,建议仔细看这篇评测的失败模式分析。原文
19:11arXiv: DeepSeek@Claudia Benavides Cantos, Eduardo C. Garrido-Merchán一项研究对比了Claude、GPT-4o、DeepSeek和Grok四种大型语言模型在西班牙和德国两个国家背景下分配固定社会预算的能力。每个模型在每个国家被询问六次,共生成48次分配结果,并与OECD参考预算进行比较。研究发现,所有模型存在系统性偏差:养老金分配不足近三倍,住房和就业分配过度分别达四倍和两倍。模型间主要差异不在于地缘政治倾向,而在于预算集中与分散策略,只有Claude表现出对国家背景的敏感性。研究认为,语言模型可辅助专家进行预算讨论,但不可替代。论文GPTClaudeDeepSeekGrok公共政策推荐理由:该研究揭示了LLM在公共政策模拟中的系统性偏差,对AI辅助决策的可靠性提出警醒,值得政策制定者和AI开发者关注。原文