近期 AI 领域的评测与基准测试(Benchmark)呈现爆发式更新,各大模型在速度、成本与特定任务能力上展开激烈竞争。
当前焦点在于:评测指标正从单一的“智能水平”转向融合速度、成本、特定领域性能(如 IT 自动化、长音频)的多维评估。未来值得观察:专用基准(如 ITBench-AA)是否会主导模型发布方向,以及开源模型在中美竞争下的迭代节奏是否进一步加速。
近期 AI 领域的评测与基准测试(Benchmark)呈现爆发式更新,各大模型在速度、成本与特定任务能力上展开激烈竞争。
当前焦点在于:评测指标正从单一的“智能水平”转向融合速度、成本、特定领域性能(如 IT 自动化、长音频)的多维评估。未来值得观察:专用基准(如 ITBench-AA)是否会主导模型发布方向,以及开源模型在中美竞争下的迭代节奏是否进一步加速。