【IR 论文】Google 对通过 prompt LLM 做 Query Expansion 的工作

论文：Query Expansion by Prompting Large Language Models
⭐⭐⭐
Google Research, arxiv:2305.03653

论文速读

之前我在论文笔记 Query2doc 中介绍了信息检索（IR）以及 Query Expansion 的相关背景知识。

本篇文章是 Google 发表的关于对 LLM 进行 prompt 来做 Query Expansion 的论文，所采取的思路与 Query2doc 相似，但侧重点不同。

论文的思路如下：

整体思路

可以看到，也是把 user query 带上 prompt 输入给 LLM，然后拼接 user query 和 LLM 响应得到 Query Expansion 的结果，将其输入给 Retrieval System 来完成检索。

其中“concat”这个拼接过程，也是为了提高 user query 的权重，把 user query 重复了 5 遍再与 LLM response 拼接，做法与 Query2doc 十分相似：

concat 公式

本文工作主要研究 sparse retrieval 的场景，与之前 Query2doc 的工作的区别主要如下：

不同 prompt 的研究：这篇文章研究了多种不同的 prompt 方式，包括 Q2D、Q2D/ZS、Q2D/PRF、Q2E、Q2E/ZS、Q2E/PRF、CoT 和CoT/PRF，而 Query2Doc 论文主要关注单一的少样本提示。（这几种 prompt 方法的具体含义可以参考原论文）
生成查询扩展术语：这篇文章的工作重点是生成 query expansion terms，而不是像 Query2doc 论文那样生成整个 pseudo-document 作为 expansion。
模型大小的多样性：这篇文章在多种不同大小的模型上测试了提示的性能，以更好地理解LLM方法在查询扩展上的实用能力和局限性。而Query2Doc论文使用的是一个更大的模型，且没有详细比较不同模型大小的性能。
开源模型的使用：这篇文章完全使用开源模型进行实验，以促进研究的可复制性和开放性。相比之下，Query2Doc 论文使用的是一种只能通过第三方 API 访问的特定类型的模型。
实验数据集：这篇文章在 MS-MARCO 和 BEIR 数据集上进行了实验，以验证 LLMs 在查询扩展中的有效性，而 Query2Doc 论文可能使用了不同的数据集或实验设置。
性能提升：文章中提到，通过使用CoT提示，尤其是结合PRF文档的CoT/PRF提示，可以在保持召回率的同时，提高排名指标，如MRR@10和NDCG@10，而传统的查询扩展方法可能会牺牲这些排名指标来提高召回率。
模型大小对性能的影响：文章还探讨了不同模型大小对查询扩展性能的影响，并发现CoT方法只需要3B参数的模型就能达到与BM25+Bo1基线相当的效果，而Q2D方法则至少需要11B参数的模型。

实验结果

本论文做了大量的实验，文中展示的实验数据对比值得一看：

实验结果
每个指标的最好结果已经用黑体进行了标注，可以看到，CoT 的 prompt 下可以让 LLM 生成的 expansion 表现更好。原文作者认为，CoT 这种特殊的 prompt 指示模型通过将其答案分解为多个步骤来生成详细的解释，这种详细性的解释可能会导致生成许多潜在的有效关键字，并对查询扩展有用。

总结

文章提出了一种新的查询扩展方法，该方法利用大型语言模型（LLMs）的生成能力。通过不同的提示方式（zero-shot, few-shot, Chain-of-Thought, CoT）来指导 LLM 生成与原始查询相关的新术语，并将其对 query 进行 expansion 从而提高检索的效果。文章做了较多实验，其实验结果值得我们一看，从而让我们对 LLM 生成 Query Expansion 的不同 prompt 有了一个不同表现的认识。

但是文章也指出了该工作的一些局限性，如只研究了稀疏检索系统，未考虑密集检索系统；仅使用了 Flan 系列的LLMs，未来可以扩展到其他模型；提示模板可能还有改进空间；LLMs 的计算成本可能限制了其在实际应用中的部署。