论文精选

StakeBench:基于市场承诺的语言理解评估框架

StakeBench: Evaluating Language Understanding Grounded in Market Commitment

精选理由

金融 NLP 从业者终于有了一个基于真实市场行为的评估基准,比传统情感分析更贴近交易决策,做金融 AI 的团队值得关注。

AI 摘要

StakeBench 是一个新的金融 NLP 评估框架,它通过分析 Polymarket 和 Manifold 预测市场上 2,261 个已结算市场的 560,876 条评论,将语言理解与市场承诺(如持仓方向、交易行为、赔率轨迹)挂钩,而非传统的人工标注情感。该框架包含四个诊断任务:检测市场承诺、识别持仓方向、预测未来交易行为以及集体赔率预测。实验发现,15 个 LLM 在方向识别上表现参差不齐(准确率 0.506-0.599),但在未来行动预测和赔率预测上普遍失败,且模型规模与性能无关,金融领域微调也无帮助。StakeBench 的代码和数据集以 CC-BY 4.0 协议开源。

AI 翻译 · 中文

StakeBench 是一个新的金融 NLP 评估框架,它通过分析 Polymarket 和 Manifold 预测市场上 2,261 个已结算市场的 560,876 条评论,将语言理解与市场承诺(如持仓方向、交易行为、赔率轨迹)挂钩,而非传统的人工标注情感。该框架包含四个诊断任务:检测市场承诺、识别持仓方向、预测未来交易行为以及集体赔率预测。实验发现,15 个 LLM 在方向识别上表现参差不齐(准确率 0.506-0.599),但在未来行动预测和赔率预测上普遍失败,且模型规模与性能无关,金融领域微调也无帮助。StakeBench 的代码和数据集以 CC-BY 4.0 协议开源。

arXiv cs.AIExisting financial NLP benchmarks often rely on labels supplied by outside observers, measuring how language is perceived rather than what speakers have committed to in the market. We introduce StakeBench, an evaluation