19:12arXiv: DeepSeek@Erfan Loweimi, Sofia de la Fuente Garcia, Saturnino Luz精选研究团队利用大语言模型(LLM)从自发语音中零样本预测Ryff心理幸福感(PWB)分数。基于PsyVoiD数据库中111名参与者的几分钟语音录音,评估了12种指令微调LLM(包括Llama-3、Ministral、Mistral、Gemma-2/3、Phi-4、DeepSeek和QwQ-Preview)。与临床心理学和语言学专家合作开发了领域提示词。结果显示,LLM能从语音中提取语义线索,在80%的数据上达到最高0.8的Spearman相关性。研究还通过统计分析解释预测变异性和偏差,并用词云突出驱动预测的语言特征。论文LLM心理幸福感语音分析零样本预测临床心理学推荐理由:这项研究为心理健康评估提供了非侵入式新方法——用几分钟语音就能预测幸福感,做临床心理学或语音分析的团队值得关注,零样本方案降低了部署门槛。原文
19:12arXiv cs.AI@ Gunjan, Sidahmed Benabderrahmane, Talal Rahwan精选该研究从计算社会科学视角,构建了包含178万条帖子的配对语料库,覆盖新冠疫情、国会山骚乱、美国大选等9次危机事件。通过比较真实社交媒体话语与LLM生成的合成话语,发现合成话语在情绪、结构、词汇和事件依赖四个维度上表现出“群体级不真实”:情绪更负面且分散度低、结构更规则、词汇更抽象。这种差异在快速演变的去中心化危机中尤为明显,而在制度性事件中较小。研究提出了“漫画差距”指标,认为合成政治话语的主要问题不是语法或流畅度,而是缺乏群体层面的社会真实性。论文LLM政治话语虚假信息计算社会科学群体审计推荐理由:做AI安全、虚假信息检测或计算社会科学的研究者值得关注——这篇论文把LLM生成文本的检测从句子级提升到群体级,提供了可量化的审计框架,建议做内容审核或舆情分析的团队点开看看。原文
19:12arXiv: DeepSeek@Jinyuan Wang, Ningyuan Deng, Yi Yang精选大型语言模型(LLM)越来越多地被用于社会科学研究,将非结构化文本转换为可进入实证设计的变量。但研究发现,LLM的置信度与真实正确率严重不匹配,导致基于置信度过滤会扭曲下游回归估计。研究对GPT-5-mini、DeepSeek-V3.2等14个社会科学构念进行审计,发现所有模型都存在校准偏差。作为解决方案,提出软标签蒸馏管道,将LLM得分和置信度转化为软目标分布,训练小型判别分类器,平均降低ECE 43.2%和Brier 34.0%。研究呼吁将校准视为测量有效性的组成部分,而非可选的后期处理。论文LLM社会科学校准置信度软标签蒸馏推荐理由:做社会科学量化分析的团队终于有了校准LLM输出的实操方案——软标签蒸馏能显著降低置信度偏差,建议做文本编码和实证研究的点开看看具体方法。原文
19:11arXiv cs.LG@Nikita Kezins, Urbas Ekka, Pascal Berrang, Luca Arnaboldi红队测试在实际中表现良好的护栏分类器无法提供形式化保证,因为“有害行为”缺乏离散输入空间中的自然规范。研究者提出将验证从离散输入空间转移到分类器的预激活空间,通过定义包含已知有害提示表示的有害区域,并利用sigmoid分类头的单调性,能在O(d)时间内给出封闭形式的可靠性证明。该框架应用于三种毒性护栏分类器,所有超矩形配置均返回SAT(即存在安全漏洞),而概率性高斯混合模型证书则揭示了模型表示危害的结构稳定性差异:GPT-2和Llama-3.1-8B保持90%和80%的覆盖率,但BERT的安全保证在最优阈值下覆盖率骤降至55%。这些方法提供了超越传统红队测试的护栏分类器有效性新见解。论文AI安全形式化验证护栏分类器红队测试LLM推荐理由:该研究首次为LLM护栏分类器提供了形式化验证方法,揭示了高经验指标下隐藏的安全漏洞,对AI安全领域具有重要指导意义。原文
17:56AK@_akhaliqSoohak是由数学家精心策划的基准测试,旨在评估大型语言模型(LLM)在科研级别数学问题上的能力。该基准涵盖高等数学的多个领域,包括代数、几何、分析等,要求模型不仅具备计算能力,还需展现推理和创新解题能力。这为评估LLM在专业数学研究中的应用潜力提供了更严格的测试标准。论文推理模型LLM数学评测基准测试Soohak推荐理由:Soohak填补了现有数学评测基准在科研深度上的空白,为AI在数学领域的前沿应用提供了更精确的评估工具,有助于推动模型在数学推理和问题解决上的进步。原文
11:45arXiv cs.AI(学术论文)本文针对当前AI评估中普遍存在的“苹果与橙子”式比较问题,提出了一种可重复的流程,将高层级AI使用用例转化为详细评估场景。该方法通过结构化的AI用例工作表(包含用例、行业、用户、预期结果、预期影响和关键绩效指标六大要素)从领域专家处获取用例,并结合LLM提示与人工审核的三阶段扩展管线,将用例扩展为107个场景。文中以美国金融服务业为例,展示了网络防御、开发者生产力、金融犯罪聚合等用例的转化过程。核心贡献在于通过人工检查点确保场景的操作基础性和人类中心设计原则,为更一致、有意义的AI评估范式提供支持。论文AI评估方法论金融服务业LLM人类中心设计推荐理由:该研究直面AI评估领域的方法论碎片化问题,提出的结构化流程和人类中心设计原则为业界提供了可操作的标准化评估框架,尤其对金融等高风险行业的AI系统评估具有直接参考价值。原文
11:44arXiv cs.AI(学术论文)论文提出PACS(概率常识溯因推理)框架,解决神经符号系统中形式逻辑求解器缺乏常识的问题。传统方法假设常识事实普遍一致,但实际中个体常识存在差异。PACS通过LLM和形式求解器对个体常识信念进行抽样证明,并聚合结论,在多个基准测试中优于思维链、先前神经符号方法和搜索式方法。该工作首次将概率建模引入常识溯因推理,为处理主观常识提供了新思路。论文推理模型常识推理神经符号LLM概率建模推荐理由:通过概率建模处理常识变异,PACS提升了神经符号推理的鲁棒性,对增强LLM在开放世界推理中的常识能力有实际价值。原文