BIRD(BiG Bench for text-to-SQL evaluation)是一个大规模、跨领域的文本到SQL基准测试,用于评估大语言模型将自然语言问题转化为数据库查询语句的能力。它包含超过1.2万个实例,覆盖多个真实数据库,因其高难度和实用性成为业界公认的标杆。
BIRD 近期进展:Gemini-SQL2 刷新纪录
Google Research 推出的 Gemini-SQL2 模型在 BIRD 单模型榜单上达到 80.04% 的执行准确率,大幅超越此前的最佳成绩。Google Research 的 Gemini-SQL2 在文本到 SQL 基准测试中大幅领先
该模型基于 Gemini 3.1 Pro 构建,通过增强的推理与中间表征优化,在 BIRD 的复杂查询场景中表现出显著提升。谷歌发布 Gemini-SQL2,文本转 SQL 准确率 80.04% 登顶 BIRD 榜单
研究团队强调,Gemini-SQL2 在 BIRD 上的突破得益于数据增强与后训练策略,使其在多轮、多表关联查询中接近人类水平。Google 发布 Gemini-SQL2,Gemini 3.1 Pro 在 BIRD 上达 80.04%
当前焦点与观察点
BIRD 作为文本到 SQL 任务的核心验证平台,其分数提升直接反映大语言模型在结构化数据交互中的进展。然而,80.04% 的准确率仍意味着约五分之一的查询存在错误,尤其在涉及聚合、嵌套子查询或领域特定别名时。业界关注点已从单纯追求 BIRD 分数转向模型的鲁棒性与可解释性——例如模型能否理解查询意图的细微差别,而非仅仅匹配模板。此外,BIRD 的静态评测方式也引发讨论,真实场景中用户输入可能更模糊或包含拼写错误,如何将实验室成果转化为实际可用工具仍是挑战。