PRewrite: Prompt Rewriting with Reinforcement Learning

基本信息

2024-01谷歌团队提交到arXiv

博客贡献人

徐宁

作者

Weize Kong，Spurthi Amba Hombaiah，Mingyang Zhang

摘要

工程化的启发式编写对于LLM（大型语言模型）应用的发展至关重要。然而，通常这种编写是以“试错”的方式手动进行的，这可能耗时、低效且不够优化。即使对于表现良好的提示，也总会有一个悬而未决的问题：是否可以通过进一步修改使提示更好？
为了解决这些问题，我们在本文中研究了自动化的启发式编写。具体而言，我们提出了PRewrite，一种自动化方法，用于将未优化的提示重写为更有效的提示。我们使用LLM实例化提示重写器。重写器LLM经过强化学习训练，以优化给定下游任务的性能。我们在多样化的基准数据集上进行实验，证明了PRewrite的有效性

目前研究存在问题:

手工编辑prompt
- 该方法是基于试错的，且要编写较好的prompt还受限于对应的指导原则。
自动化设置prompt
- 有基于梯度的搜索方法来迭代编辑prompt，但对语言模型进行梯度访问代价过大。
- 使用强化学习的方法来优化prompt，该方法可能会产生难以解释的胡言乱语的解释；同时这种方法虽然可以允许根据任务输入编辑prompt，但导致其较小的行动空间也会阻碍探索最优prompt的产生。
- 之前的方法采用的语言模型都较小，例如BERT，并不清楚在只通过API访问模型的情况下，上述方法能否有效推广到更大规模的模型上。

本文研究思路:

将prompt的自动化生成视作一个优化问题，通过强化学习的方式训练一个prompt重写器来寻找更有效的提示。
- 人工给定初始的instruction生成prompt
- 通过prompt重写器LLM来重写生成一个prompt
- 重写的prompt通过另一个任务LLM生成最终的输出
- 通过最终输出和真实输出进行比较计算奖励，以此对重写器LLM进行强化学习微调
- 值得注意的是，重写的提示是与特定输入（input）无关的（agnostic）。即所重写的提示是通用的，不是为了响应或适应特定的输入而定制的(泛化性)。

研究方法:

prompts:

在这里插入图片描述

Meta Prompt
- 元提示是用于指导重写器LLM重写初始prompt的重写指令
- 整个训练过程中，元提示不会改变
- 但在训练模型时以及针对不同的数据集会尝试不同的元提示
Instruction
- 上图中的Prompt即由Instruction和Input构成，其中Instruction是由重写器LLM从初始提示生成的最终重写提示。

强化学习

强化学习算法：近端策略优化算法（PPO）

使用不同的奖励函数在数据集上的效果
奖励函数
- EM（精确匹配）
- F1：实际输出与预测输出之间的令牌 F1 分数
- 困惑度（Perplexity）
- 困惑度 + F1：困惑度和 F1 分数的线性组合

重写策略

在重写器LLM训练好之后，对instruction重新进行优化组合时，可采取两种策略
- 设置了一个行动空间，作为提示重写模型词汇表中所有token的集合，这些token可以用来通过添加、删除或修改来编辑/重写提示。
- 推断策略：在生成重写提示时，贪婪的选择每一个最高概率的标记，最终生成一个单一的重写提示，存在局部最优的问题。
- 搜索策略：在生成重写提示时会考虑多种可能性，生成多个重写提示，最终根据重写提示在测试数据集上的表现来选定最终的重写提示。

实验结果:

数据集

在这里插入图片描述

本文一共使用了4个数据集涵盖了分类，问答，算术推理任务。
- 分类：AG News、SST-2
- 问答：NQ（自然问题数据集）
- 算数推理：GSM8K

实验结果

表1.与基线对照图

在这里插入图片描述

本文方法所使用的模型为：PaLM 2-S。
由上表可看出，但强化学习有更大的行动空间之后，强化学习方法的改进效果更加显著。
本文提出的方法在三个任务四个数据集上的效果普遍优于基线模型，但基线模型效果不佳也存在是使用了较小的任务模型RoBERTa-Large导致的。
PRewrite-S持续显示出优于PRewrite-I的改进，表明搜索策略可能更有帮助。

表2.在GSM8K数据集上与强基线任务的对比

在这里插入图片描述

此次实验基于模型PaLM 2-L。
PRewrite-S不仅显著改进了初始提示，而且超过了诸如APE和OPRO之类的强基线，并且与Promptbreeder不相上下。
这几个强基线任务对GSM8K数据有特殊处理，但本文方法只是用了一个通用的元提示用于GSM8K。也可以体现出本方法有效性。

总结

局限

大模型使用的局限性： 本文只是用了PaLM系列的大模型，并未在其他大模型上验证其效果。
元提示： 还可以探究不同的元提示和初始提示的组合对整体任务性能的影响。
**数据集：**目前测试使用的数据集较少，需要在更多不同种类和数量的数据集上持续验证其性能。

优点

本文所使用的方法不再需要开源大模型，仅通过大模型API的方式进行使用，降低了对资源的要求
利用大模型和传统机器学习结合的方式优化prompt是可以尝试的方向。

BibTex

@article{kong2024prewrite,title={PRewrite: Prompt Rewriting with Reinforcement Learning},author={Kong, Weize and Hombaiah, Spurthi Amba and Zhang, Mingyang and Mei, Qiaozhu and Bendersky, Michael},journal={arXiv preprint arXiv:2401.08189},year={2024}
}