BIRD · AI 话题观测

§ 01综述

BIRD（BiG Bench for text-to-SQL evaluation）是一个大规模、跨领域的文本到SQL基准测试，用于评估大语言模型将自然语言问题转化为数据库查询语句的能力。它包含超过1.2万个实例，覆盖多个真实数据库，因其高难度和实用性成为业界公认的标杆。

BIRD 近期进展：Gemini-SQL2 刷新纪录

Google Research 推出的 Gemini-SQL2 模型在 BIRD 单模型榜单上达到 80.04% 的执行准确率，大幅超越此前的最佳成绩。Google Research 的 Gemini-SQL2 在文本到 SQL 基准测试中大幅领先

该模型基于 Gemini 3.1 Pro 构建，通过增强的推理与中间表征优化，在 BIRD 的复杂查询场景中表现出显著提升。谷歌发布 Gemini-SQL2，文本转 SQL 准确率 80.04% 登顶 BIRD 榜单

研究团队强调，Gemini-SQL2 在 BIRD 上的突破得益于数据增强与后训练策略，使其在多轮、多表关联查询中接近人类水平。Google 发布 Gemini-SQL2，Gemini 3.1 Pro 在 BIRD 上达 80.04%

当前焦点与观察点

BIRD 作为文本到 SQL 任务的核心验证平台，其分数提升直接反映大语言模型在结构化数据交互中的进展。然而，80.04% 的准确率仍意味着约五分之一的查询存在错误，尤其在涉及聚合、嵌套子查询或领域特定别名时。业界关注点已从单纯追求 BIRD 分数转向模型的鲁棒性与可解释性——例如模型能否理解查询意图的细微差别，而非仅仅匹配模板。此外，BIRD 的静态评测方式也引发讨论，真实场景中用户输入可能更模糊或包含拼写错误，如何将实验室成果转化为实际可用工具仍是挑战。

§ 02相关报道04 条在档

§ 03邻近话题