想测模型做IPO分析的功力?这篇论文搞了新基准,Qwen 3.7最强但贵,小米MiMo性价比炸裂,值得看。
Finance Agent v2仅处理上市公司定期报告(SEC 10-K/10-Q),不适用于IPO尽职调查。新基准IPO Finance Agent扩展了任务领域和检索架构,采用上下文检索处理长文档,如SpaceX的S-1文件。该基准包含1000个IPO尽职调查问题,公开70个SpaceX问题,并引入自动生成评估标准管道。最佳模型Alibaba Qwen 3.7 Max准确率79.4%,成本$0.30/查询;最经济模型Xiaomi MiMo-2.5 Pro准确率76.8%,成本$0.05/查询,均超越Finance Agent v2领先者Google Gemini 3.5 Flash(57.9%,$2.51/查询)。
Finance Agent v2仅处理上市公司定期报告(SEC 10-K/10-Q),不适用于IPO尽职调查。新基准IPO Finance Agent扩展了任务领域和检索架构,采用上下文检索处理长文档,如SpaceX的S-1文件。该基准包含1000个IPO尽职调查问题,公开70个SpaceX问题,并引入自动生成评估标准管道。最佳模型Alibaba Qwen 3.7 Max准确率79.4%,成本$0.30/查询;最经济模型Xiaomi MiMo-2.5 Pro准确率76.8%,成本$0.05/查询,均超越Finance Agent v2领先者Google Gemini 3.5 Flash(57.9%,$2.51/查询)。
Finance Agent v2 (by Vals AI) has emerged as the reference benchmark for evaluating both Anthropic Claude and OpenAI ChatGPT frontier language models on financial tasks. However, it narrowly deals with periodic reporting…
- The Rundown AI06-22 16:33原文