【Text2SQL】当前在BIRD基准测试集上取得SOTA的论文

news/2024/10/7 16:19:29/

论文《The Death of Schema Linking? Text-to-SQL in the Age of Well-Reasoned Language Models》探讨了在大型语言模型(LLMs)时代,文本到SQL(Text-to-SQL)转换中模式链接(Schema Linking)的作用和重要性。论文没有提出其他新的方法,而是提出了一个观点,即随着语言模型的发展,模式链接在文本到SQL任务中的重要性可能会降低,尤其是在模型的上下文窗口足够大以容纳整个模式时。作者通过3个实验验证了这一观点,并提出了一种不依赖模式链接的文本到SQL管道,该管道在准确性上取得了优异的成绩,在BIRD基准测试中排名第一,准确率达到71.83%。

摘要

目的:模式链接是文本到SQL流程中的关键步骤,目的是检索目标数据库的表格和列,同时忽略不相关的部分。
问题:不完美的模式链接可能会排除生成准确查询所需的列。
研究发现:使用最新的大型语言模型时,即使存在大量不相关的模式元素,新模型也能在生成过程中利用相关的模式元素。
方法:作者提出了一种完全省去模式链接的文本到SQL管道,以最小化过滤所需模式元素的问题。
结果:该方法在BIRD基准测试中排名第一,准确率达到71.83%。

实验

实验设计

实验1:评估了不相关模式元素的包含对SQL生成的影响。作者创建了一个完美模式链接召回的场景,以确保SQL生成问题不是由于缺少所需列造成的。
实验2:评估了实际模式链接技术对所需列的召回率的影响,以及召回率不完美对生成的下游影响。
实验3:评估了在简化管道中加入增强、选择和校正技术对SQL生成准确性的影响。
实验3的方法:
1.增强(Augmentation):通过扩展列描述、添加查询提示和使用链式思考(Chain-of-Thought, CoT)规划来增加上下文信息。
2.校正(Correction):生成候选SQL查询后,基于数据库执行错误、数据库管理员指令和模型反馈进行迭代更正。
3.选择(Selection):使用自洽性(self-consistency)生成多个响应,并选择最一致的结果。

实验细节

实验设置:所有实验中的温度都设置为零,并且尽可能使用结构化输出。
微调GPT-4o:迭代进行微调。在每次迭代中,首先在N个三元组样本上进行微调:自然语言查询、SQL查询和模式元素。然后,在BIRD的开发集上进行评估。
生成提示:图2显示了用于SQL生成的提示结构以及示例模式、输入查询和查询提示。
在这里插入图片描述

实验结果

实验1:发现随着假阳性率的降低,理想化执行准确性(IEX)提高,即包含不相关信息的列越少,SQL生成的准确性越高。
实验2:发现随着模型的SQL生成能力提高,模式链接的好处减少。在某些情况下,由于缺少生成所需的列,模式链接甚至可能导致准确性的净降低。
实验3:发现增强、选择和校正技术对生成准确性有显著的正面影响,而模式链接则没有。


http://www.ppmy.cn/news/1535771.html

相关文章

WPF 设计属性 设计页面时实时显示 页面涉及集合时不显示处理 设计页面时显示集合样式 显示ItemSource TabControl等集合样式

WPF 设计属性 设计页面时实时显示 页面涉及集合时不显示处理 设计页面时显示集合样式 显示ItemSource TabControl等集合样式 1、设计显示属性 1、设计时显示属性依赖以下属性 xmlns:d"http://schemas.microsoft.com/expression/blend/2008"2、在运行时不显示设计属性…

第 21 章 一条记录的多幅面孔——事务的隔离级别与 MVCC

21.1 事前准备 CREATE TABLE hero ( number INT, NAME VARCHAR ( 100 ), country VARCHAR ( 100 ), PRIMARY KEY ( number ) ) ENGINE INNODB CHARSET utf8;INSERT INTO hero VALUES ( 1, 刘备, 蜀 );21.2 事务隔离级别 在保证事务隔离性的前提下,使用不同的隔…

使用Qt实现实时数据动态绘制的折线图示例

基于Qt的 QChartView 和定时器来动态绘制折线图。它通过动画的方式逐步将数据点添加到图表上,并动态更新坐标轴的范围,提供了一个可以实时更新数据的折线图应用。以下是对代码的详细介绍及其功能解析: 代码概述 该程序使用Qt的 QChartView…

CSS实现服务卡片

CSS实现服务卡片 效果展示 CSS 知识点 回顾整体CSS知识点灵活运用CSS知识点 页面整体布局 <div class"container"><div class"card"><div class"box"><div class"icon"><ion-icon name"color-pal…

【PostgreSQL】提高篇——PostgreSQL 对 JSON 和数组的支持及其在数据建模中的应用

数据的多样性和复杂性日益增加&#xff0c;传统的关系型数据库结构往往难以灵活应对这些变化。PostgreSQL 作为一个强大的开源关系数据库管理系统&#xff0c;提供了对 JSON 和数组数据类型的原生支持&#xff0c;使得开发者能够更灵活地进行数据建模和存储。 一、背景与重要性…

银河麒麟,apt 安装软件报错640Unknown Status

今天把银行麒麟的机器恢复出厂了&#xff0c;然后apt install 安装极其不稳定&#xff0c;故障现象如下图所示&#xff1a; 错误提示里面有&#xff1a; 640 Unknown Status [IP: 106.116.184.122 80] E: 无法下载 http://archive.kylinos.cn/kylin/KYLIN-ALL/pool/universe/f…

OpenHarmony(鸿蒙南向开发)——轻量和小型系统三方库移植指南(一)

往期知识点记录&#xff1a; 鸿蒙&#xff08;HarmonyOS&#xff09;应用层开发&#xff08;北向&#xff09;知识点汇总 鸿蒙&#xff08;OpenHarmony&#xff09;南向开发保姆级知识点汇总~ 持续更新中…… 概述 本文为OpenHarmony开发者提供一些组织编译形式比较常见&…

基于YOLOv8-deepsort算法的智能车辆目标检测车辆跟踪和车辆计数

关于深度实战社区 我们是一个深度学习领域的独立工作室。团队成员有&#xff1a;中科大硕士、纽约大学硕士、浙江大学硕士、华东理工博士等&#xff0c;曾在腾讯、百度、德勤等担任算法工程师/产品经理。全网20多万粉丝&#xff0c;拥有2篇国家级人工智能发明专利。 社区特色…