12:35arXiv: OpenAI@Mostapha BenhendaFinance Agent v2仅处理上市公司定期报告(SEC 10-K/10-Q),不适用于IPO尽职调查。新基准IPO Finance Agent扩展了任务领域和检索架构,采用上下文检索处理长文档,如SpaceX的S-1文件。该基准包含1000个IPO尽职调查问题,公开70个SpaceX问题,并引入自动生成评估标准管道。最佳模型Alibaba Qwen 3.7 Max准确率79.4%,成本$0.30/查询;最经济模型Xiaomi MiMo-2.5 Pro准确率76.8%,成本$0.05/查询,均超越Finance Agent v2领先者Google Gemini 3.5 Flash(57.9%,$2.51/查询)。论文IPO Finance AgentSpaceXQwen 3.7MiMo-2.5 Pro基准测试1 个信源在谈推荐理由:想测模型做IPO分析的功力?这篇论文搞了新基准,Qwen 3.7最强但贵,小米MiMo性价比炸裂,值得看。原文