10:34arXiv cs.LG@Mingguang Chen, Bo QuInvestPhilBench基准包含118个投资原则卡、25个决策框架卡和243个QA问题(197开发/46测试)。它引入BASP评分管道(五个指标)和GRA门级准确率。在四个模型上的开发集测试显示BASP复合分饱和(Claude L4=0.932),但GRA暴露了程序缺陷(前沿L4 GRA约0.77,L7 GRA 0.57-0.62)。在100个专家标注黄金集上,自动化BASP与人类参考相关性Pearson r=0.72。复合评分奖励流畅文本,隐藏了程序差距。AI模型InvestPhilBenchClaude程序推理投资哲学AI评估基准推荐理由:InvestPhilBench揭示了AI在投资程序推理上的真实水平:Claude虽高分,但程序推理准确率仅0.77。别只看总分。原文