11:46arXiv cs.AI@Yunhua Pei, Jingyu Hu, Yiwei Shi, Hongnan Ma, Weiru Liu, John Cartlidge精选StakeBench 是一个新的金融 NLP 评估框架,它通过分析 Polymarket 和 Manifold 预测市场上 2,261 个已结算市场的 560,876 条评论,将语言理解与市场承诺(如持仓方向、交易行为、赔率轨迹)挂钩,而非传统的人工标注情感。该框架包含四个诊断任务:检测市场承诺、识别持仓方向、预测未来交易行为以及集体赔率预测。实验发现,15 个 LLM 在方向识别上表现参差不齐(准确率 0.506-0.599),但在未来行动预测和赔率预测上普遍失败,且模型规模与性能无关,金融领域微调也无帮助。StakeBench 的代码和数据集以 CC-BY 4.0 协议开源。论文金融NLP市场承诺评估基准预测市场LLM推荐理由:金融 NLP 从业者终于有了一个基于真实市场行为的评估基准,比传统情感分析更贴近交易决策,做金融 AI 的团队值得关注。原文