[论文笔记]SGPT: GPT Sentence Embeddings for Semantic Search

引言

解码器Transformer的规模不断壮大，轻松达到千亿级参数。同时由于该规模，基于提示或微调在各种NLP任务上达到SOTA结果。但目前为止解码器Transformer还无法应用在语义搜索或语句嵌入上。

为了简单，下文中以翻译的口吻记录，比如替换"作者"为"我们"。

作者提出了SGPT方法来解决这一问题，代码开源在 https://github.com/Muennighoff/sgpt 。

1. 总体介绍

现阶段主要依赖于类似BERT的仅编码器Transformer编码句嵌入以提供语义搜索。因为目前尚未清楚如何从解码器中提取语义嵌入。但这种做法的好处是明显的：

性能解码器的参数量巨大，这有可能产生SOTA结果；
节省计算 只需要维护解码器架构，只训练一个大规模解码器并将其重用于搜索可以节省成本；

图1：给定一个查询 $q$ ，文档 $d_{1-3}$ ，SGPT通过分数 $s_{1-3}$ 对文档进行排序。(a)Cross-Encoder拼接查询和文档然后一起编码。分数是对数概率。(b)Bi-Encoder分别对查询和文档进行编码，生成的文档向量 $v_{1-3}$ 可以缓存起来然后可以在新查询进来的时刻 $t_c$ 被访问。分数是预先相似度。

在本篇工作中，我们提出SGPT将仅解码器应用于语义搜索并提取有语义的句子嵌入。区分四种设置：Cross-Encoder、Bi-Encoder、对称以及非对称。

2. 相关工作

Cross-Encoder同时对查询和文档进行编码。

Bi-Encoder分别对查询和文档进行编码。有研究者提出了一个基于GPT的Bi-Encoder cpt-text。

Cross-Encoder往往优于Bi-Encoder，但速度较慢。

非对称搜索意味着查询和文档不可互换。

对称搜索意味着查询和文档可以互换。

3. SGPT Cross-Encoder

3.1 非对称搜索

给定查询 $q$ 和文档语料库 $D$ ，对最有可能的文档 $d^*$ 感兴趣，使用贝叶斯理论可以表示为：
$d^* = \arg \max_{d \in D}P(d|q) = \arg \max_{d\in D} \frac{P(q|d)P(d)}{P(q)} = \arg \max _{d \in D} P(q|d)P(d) \tag 1$
由于文档的长度是可变的且计算 $P (q ∣ d)$ 比 $P (d ∣ q)$ 容易，因此我们给定嵌入提示 $P$ 的文档标记，计算查询标记 $q_{i,\cdots,n}$ 的联合概率为 $p(q_{i},\cdots,q_n|p_1,\cdots,p_{i-1})$ 。因为 $P (d)$ 通常在语料库 $D$ 中不会变化，而忽略 $P (d)$ 。

在实践中使用对数概率——模型输出的softmax的对数。

3.2 对称搜索

表3： Quora上的SGPE-CE(Cross-Encoder)对称搜索结果。来自{query}的对数概率之和作为重排名分数。从{doc}左侧截断过长的标记。重排名前100的文档，分数为nDCG@10。

使用§3.1中相同的方法，但调整对称搜索的提示。如表3所示。

4. SGPT Bi-Encoder

4.1 对称搜索

由于自回归解码器Transformer的因果注意掩码，即每个位置的token只能感知到其之前的信息。因此，只有最后一个token关注了序列中的所有标记。SGPT提出使用位置加权池化方法为后面的标记赋予更高的权重：
$\sum_{i=1}^S w_ih_i \quad \text{where} \quad w_i = \frac{i}{\sum_{i=1}^S i} \tag 2$
$S$ 是序列长度； $h_i$ 是第 $i$ 个隐藏状态； $v$ 是查询或文档嵌入。

我们将加权均值池化与最后一个标记池化进行比较，其中最后一个标记的隐藏状态是嵌入或常规的均值池化。

使用批内负样本进行监督对比学习，给定查询-文档对 ${q^{(i)},d^{(i)}\}_{i=1}^M$ ，优化损失函数：
$J_\text{CL}(\theta) = \frac{1}{M} \sum_{i=1}^M \log \frac{\exp(\tau \cdot \sigma(f_\theta(q^{(i)}), f_\theta(d^{(i)})))}{\sum_{j=1}^M \exp(\tau \cdot \sigma(f_\theta(q^{(i)}), f_\theta(d^{(j)})))} \tag 3$
$f_\theta$ 是SGPT模型，输出固定大小的向量； $\sigma$ 是余弦相似度； $\tau$ 是一个温度参数，设为 $20$ ，相当于除以 $0.05$ 。在训练和推理期间，将序列长度限制为75个标记。