【Text2SQL】PET-SQL：在Spider基准测试中取得了SOTA

解读：PET-SQL: A Prompt-enhanced Two-stage Text-to-SQL Framework with Cross-consistency

这篇论文介绍了一个名为 PET-SQL 的文本到 SQL（Text-to-SQL）框架，旨在通过增强提示（prompt）和利用不同大型语言模型（LLM）之间的交叉一致性来提高性能。PET-SQL 框架在 Spider 基准测试中取得了 87.6% 的执行准确率，这是目前已知的最佳结果。

1. 方法论

在这里插入图片描述

1.1 Prompting（提示）

在指导大型语言模型（LLM）生成 SQL 查询时，提示（prompt）的风格或模板对模型的性能有显著影响。作者提出了一种称为参考增强表示（Reference-enhanced Representation, REp）的提示方法，它在传统的 OpenAI 示范（OpenAI Demonstration, ODp）基础上进行了增强。REp 包括以下几个关键部分：

优化规则（Optimization Rule, OR）：提示中加入了一个多任务约束规则，要求 LLM 在确保正确性的同时最小化 SQL 执行时间。这有助于避免生成冗余字符和操作符，从而减少异常。
单元格值引用（Cell Value References, CV）：在提示中随机采样并插入表中的几行数据，作为参考，帮助 LLM 理解数据库的格式和规范。这有助于解决由于不同表中数据格式不一致而导致的查询条件不明确的问题。
外键声明（Foreign Key Declarations, FK）：在提示中添加了模式中外键关系，帮助 LLM 识别数据库中表之间的连接，从而更好地理解用户的意图并自动选择合适的连接。

1.2 基于问题骨架的 PreSQL 生成

这一模块的目标是从已知数据集中检索与目标问题具有相似意图的领域不可知样本，这些检索到的样本可以作为 LLM 的上下文学习示例。具体步骤如下：

问题去语义化：根据数据库模式，将问题中的域相关标记（如表名、列名和值）用特殊标记 <mask> 替换，得到代表问题意图的问题骨架。
检索示例：使用预训练的句子 Transformer 模型，基于问题骨架的语义嵌入，从示例池中检索与目标问题最相似的 K 个样本。
构建提示：将选定的示例与 REp 结合，作为少量上下文（few-shot context）添加到提示中，然后使用这个提示来生成初步的 SQL（PreSQL）。

1.3 模式链接和 FinSQL 生成

为了减少可能阻碍 LLM 性能的冗长模式信息，作者提出了基于 PreSQL 的模式链接方法，以识别与数据库模式和自然语言问题相关的引用（表/列）。具体步骤包括：

模式链接：直接从 PreSQL 中解析出与问题相关的表/列实体作为链接结果，而不是设计策略让 LLM 输出相关的数据库引用。
简化提示：使用解析出的模式信息简化提示，去除与链接表无关的所有上下文，包括模式属性、数据库引用和外键声明。
生成 FinSQL：将简化后的提示输入 LLM，生成最终的 SQL（FinSQL）。

1.4 交叉一致性

这一部分详细描述了基于数据库引擎执行 SQL 查询结果的一致性模块，包括两种可行的实现策略：

简单投票：使用多个 LLM 生成 SQL，并根据执行结果进行投票，以多数结果作为最终答案。
基于 PreSQL 复杂度的细粒度投票：根据 PreSQL 的复杂度将问题分为不同等级，并由不同的候选 LLM 解决，以进行投票。这种方法可以最大化 LLM 的潜力，并显著减少投票偏差。

2. 实验

在这里插入图片描述

数据集和指标：使用 Spider 基准测试进行评估，主要指标是执行准确率（EX）。
评估的 LLM：包括 CodeLlama、SQLCoder、InternLM、SenseChat 和 GPT4。
实验设置：设置低温（低随机性）以减少 LLM 输出的随机性，输入和输出的最大长度分别为 4096 和 200。
整体性能：PET-SQL 在 Spider 测试集上取得了 87.6% 的执行准确率，超过了其他非学习基础方法。
提示的影响：提出的提示（REp）在零样本设置下表现出色，比现有的提示方法有显著改进。
模式链接的影响：通过模式链接简化提示信息可以提高 LLM 生成 SQL 查询的效率和准确性。
交叉一致性的影响：交叉一致性策略比自我一致性更有效，能够提高整体执行准确率。

3.局限性及未来方向

3.1局限性

模型复杂性和计算成本：PET-SQL 框架涉及多个阶段的处理，包括预 SQL 生成、模式链接和交叉一致性检查，这可能导致较高的计算成本，尤其是在需要多个 LLM 协作时。
数据集依赖性：尽管在 Spider 基准测试中取得了良好的性能，但 PET-SQL 框架可能对数据集的特定特征敏感。在不同的数据库模式或领域特定的数据集上，性能可能会有所不同。
提示设计：尽管论文提出了一种有效的提示设计方法，但提示的设计可能需要针对不同的 LLM 进行调整，以实现最佳性能。
错误处理和异常情况：在处理复杂的用户意图或数据库模式时，PET-SQL 可能在某些情况下无法生成正确的 SQL 查询，尤其是在处理模糊或不明确的自然语言输入时。
模型多样性：虽然交叉一致性利用了不同 LLM 之间的差异，但实际应用中可能需要更多的模型和更广泛的多样性来进一步提高性能。