基于LoRA微调的预训练大模型在离线RL量化交易中自动学习专家决策，达成47.98%累计收益

“Pretrained LLM Adapted with LoRA as a Decision Transformer for Offline RL in Quantitative Trading”

论文地址：https://arxiv.org/pdf/2411.17900

Github地址：https://github.com/syyunn/finrl-dt

摘要

开发量化交易策略时采用强化学习颇具挑战，尤其是在与实时金融市场互动伴随着高风险的情况下。因此，无需额外探索即可利用历史市场数据的离线强化学习显得尤为重要。然而，现有的离线RL技术往往难以捕捉复杂的时序依赖关系，并且可能过度拟合金融时间序列的历史模式，从而隐含风险。为应对这些问题，我们提出了一种方法，通过使用预训练GPT-2模型的权重初始化并结合LoRA优化的DecisionTransformer（DT）。这种方法旨在充分利用预训练语言模型的泛化能力以及LoRA的高效性来制定有效的交易策略，仅需依赖历史数据以提取专家轨迹。实验结果显示，我们的方法能够有效地从这些专家轨迹中学习，并在某些情况下实现更优的交易回报，这表明了在离线量化交易中整合预训练语言模型和参数高效微调的有效性。

简介

量化交易策略的有效性对于金融机构来说极为关键，但传统方法由于依赖手工特征和规则系统，难以灵活应对市场的变化。虽然强化学习（RL）提供了一种自动优化交易策略的方法，通过与市场环境互动来改进，但在线RL在实际操作中可能带来高成本和风险。离线RL则通过使用历史数据训练代理，避免了直接与市场环境的实时互动，不过这种方法可能会遇到过拟合问题，并且难以捕捉金融时间序列中的复杂依赖关系。尽管Decision Transformer（DT）尝试通过自注意力机制解决这些问题，但它对数据量的需求较大，而在离线RL环境中数据多样性往往有限。

为了解决上述挑战，我们提出了一种新的框架：利用预训练的GPT-2权重结合低秩适应（LoRA）技术对DT进行微调，以增强模型的泛化能力。我们的实验采用了专家RL代理的历史轨迹，在离线RL设置下训练模型，并根据金融指标评估其表现。结果显示，基于GPT-2初始化的DT配合LoRA在特定交易场景中取得了优于传统方法的表现，成功克服了稀疏和延迟奖励带来的挑战。这表明，将预训练语言模型与高效的参数调整策略相结合，在离线量化交易中具有显著潜力。

01预备知识

离线强化学习

离线强化学习（RL）是一种让代理从一个固定的数据库中学习最优策略的框架，而无需进行额外的探索。这个环境被建模为一个马尔可夫决策过程（MDP），包括状态集合S、动作集合A、转移概率P、奖励函数R以及折扣因子γ。在每个时间点，代理会观察当前状态、执行动作、接收奖励并进入下一个状态，其目标是最大化预期的累积折扣奖励。

在离线RL设置中，代理依靠一个由某种行为策略产生的固定数据集D来学习，该数据集包含了一系列的状态、动作、奖励和下一状态的信息。

在量化交易的应用中，环境被视为金融市场，代理的动作代表着具体的交易决定，目的是要从历史数据中学习到有效的交易策略。这种方法使得代理能够在不直接与市场互动的情况下，根据已有的记录改进自己的交易决策能力。

Decision Transformer（DT）

Decision Transformer（DT）将强化学习问题转换为序列建模任务，采用Transformer架构实现。它通过创建包含未来回报、状态和动作的轨迹序列来建模轨迹分布。在每个时间步，模型会考虑最近K个时间步的回报、状态和动作组成的窗口。训练过程中，DT通过最小化预测动作与实际动作间的均方误差（MSE）进行优化。利用自注意力机制，DT能够捕捉复杂的时间模式，从而实现有效的信用分配，而无需依赖显式的时间差分学习方法。这种方法使得DT能够在不明确追踪时间差异的情况下，依然能从序列数据中学习到重要的动态信息。

Low-Rank Adaptation（LoRA）

LoRA是一种高效的参数微调技术，它通过在Transformer架构中引入可训练的低秩分解矩阵，使大规模预训练模型能够适应特定任务。具体来说，原有的权重矩阵被替换为形式为：

其中

= BA，B和A为低秩矩阵。微调时仅更新A和B，保持W0不变，这样可以大幅减少需要训练的参数数量和计算资源的需求。在本研究中，我们将LoRA应用于初始化为预训练GPT-2权重的Decision Transformer，旨在以更少的数据高效地适应量化交易领域，同时降低过拟合的风险，并充分利用预训练模型中蕴含的丰富表征能力。

02方法

本文利用LaMo方法，将预训练语言模型引入金融领域的量化交易中，通过离线强化学习优化交易策略。具体做法是使用预训练的GPT-2权重来初始化Decision Transformer，并调整输入格式以适应金融数据处理。为了更好地与GPT-2的输入格式兼容，同时增强对复杂金融数据的表示学习，我们用包含残差块结构的多层感知机替换了原有的线性嵌入层。在微调阶段，我们冻结了预训练Transformer的权重，仅通过低秩适应（LoRA）技术进行参数高效的微调，以此实现在有限数据条件下对量化交易的有效适应。这种方法不仅减轻了过拟合的风险，还充分利用了预训练模型的强大表征能力。

语言建模和我们的方法之间的相似之处

本方法通过将输入序列设计成与GPT-2相类似的格式，并对齐嵌入层，从而有效地利用了预训练模型的架构优势及其已学习到的表征。这种方法让我们能够充分发挥预训练模型在处理特定任务时的能力和效能。

模型架构

在时间步中定义了几个关键元素：包括回报值 ˆ 、状态、动作以及时间步索引。

为了捕捉复杂的模式，我们使用带有残差结构的多层感知机（MLP）进行嵌入处理，该嵌入函数能够涵盖市场观察、交易操作及时间步长的信息。

此嵌入函数采用了残差块设计，确保原始输入信息得以保留的同时，还能有效地捕捉到数据中的非线性关系。

通过可学习的位置嵌入来编码时间信息，并将这些嵌入与其它信息交错排列，形成与GPT-2格式兼容的输入序列。

随后，这个输入序列被送入Transformer模型中进行处理，生成的输出表示用于预测在时间应采取的动作。具体来说，动作预测是通过一个额外的多层感知机实现的，该感知机负责将Transformer的输出映射到动作空间维度。

使用LoRA训练

我们采用低秩适应（LoRA）技术对预训练的GPT-2模型进行高效调整，通过引入可训练的低秩矩阵，在不改变原始权重的情况下实现这一点，从而大幅减少了需要训练的参数数量。在我们的Decision Transformer模型中，大约有90万个参数是可训练的，这仅占GPT-2小型模型总参数量的0.726%。为了确保与基线方法（包括行为克隆BC、隐式Q学习IQL以及保守Q学习CQL）比较的公平性，我们也相应调整了这些基线模型的架构，使它们拥有大约相同的90万个可训练参数，以便准确评估我们方法的有效性。所有模型的训练目标都是最小化预测动作与实际动作之间的均方误差（MSE），这也是我们损失函数的核心部分：

03实验

本研究旨在评估Decision Transformer（DT）在离线强化学习（RL）环境下，特别是在量化交易领域的有效性。主要目标包括：

通过专家轨迹学习以制定有效的交易策略；
考察预训练语言模型的权重对金融市场中RL代理性能的影响。通过这两个目标，我们希望深入理解DT在量化交易中的实际应用价值及其改进空间。

环境和RL代理

实验环境基于道琼斯工业平均指数（DJIA）及其成分股，利用FinRL框架进行模拟，该框架整合了历史价格数据、技术指标以及交易限制。研究中采用了五种在连续动作空间和金融交易领域广泛应用的强化学习（RL）算法：A2C、PPO、SAC、TD3和DDPG。通过这些算法对Decision Transformer（DT）模型进行评估，以检验其在不同条件下的鲁棒性和通用性。这一过程帮助我们理解DT模型在量化交易中的表现及适应性。

实验工作流

我们的实验遵循一个结构化的流程，分为以下几个关键步骤：

专家RL代理训练：在2009年1月1日至2020年7月1日的时间段内，使用五种不同的强化学习（RL）算法（A2C、PPO、SAC、TD3和DDPG）对专家代理进行训练，以优化交易策略。
轨迹收集：从已训练的专家代理中收集一系列的状态、动作和奖励数据，形成可用于后续分析和模型训练的轨迹。
离线RL模型训练：利用上述收集到的轨迹来训练Decision Transformer（DT）模型及其基线方法（包括CQL、IQL和BC）。此阶段还包括训练两种版本的DT模型——一种基于预训练权重初始化，另一种采用随机初始化。
部署与评估：在2020年7月1日至2021年10月29日的测试期内，将所有训练好的模型应用于实际交易环境中，并通过关键财务指标评估各模型的表现。这一阶段旨在验证不同模型在真实市场条件下的有效性和鲁棒性。

实验设计

评估离线强化学习的性能。通过利用专家RL代理生成的轨迹来训练模型，考察Decision Transformer（DT）在离线设置下学习有效交易策略的能力，这对于高风险的金融交易场景尤为重要。
评估预训练语言模型权重的影响。对比基于预训练GPT-2权重初始化的DT模型与采用随机初始化权重的对照版本，分析预训练语言模型提供的表征如何提升金融交易任务的表现。
确保实验设计的逻辑严谨性。我们的设计旨在精确评估模型在离线强化学习环境中的能力，以及验证预训练语言模型权重对提高金融交易任务效果的具体贡献。这样可以明确各因素对最终模型性能的影响。

评估指标

评估模型性能采用的指标包括：

累计收益率（%）：它展示了模型在整个测试期间的总回报，直接反映了其盈利能力；
最大回撤（MDD）（%）：用于衡量测试期内资产价值从峰值到谷底的最大跌幅，体现了模型的风险管理能力；
夏普比率：作为风险调整后的收益指标，其值越高表明收益与风险之间的平衡越理想。

这些指标共同作用，全面评估了模型的盈利能力和风险管理水平，同时也捕捉到了模型在各种市场条件下的表现。

结果

DT-LoRA-GPT2模型的表现：

在离线强化学习环境中，DT-LoRA-GPT2模型在多个评估指标上展现了卓越的成绩，特别是在与专家交易策略对比时更为突出。

累计收益方面，在TD3和SAC专家代理的数据集上，该模型实现了最高的累计收益；而在A2C数据集中，则取得了第二高的累计收益。
夏普比率显示，在TD3环境下，模型的夏普比率与专家代理持平，并且在SAC环境下达到了最高值。
最大回撤（MDD）指标上，该模型在SAC条件下表现最佳，其回撤值小于专家代理及基线方法；在A2C条件下，尽管其MDD略逊于行为克隆（BC），但仍优于专家代理。

这表明DT-LoRA-GPT2模型在不同指标和环境下均能展现出色的风险管理和收益获取能力。

预训练语言模型权重的影响：

采用预训练的GPT-2权重显著增强了DT模型的表现，相较于随机初始化的版本效果更佳。

累计收益方面，使用DDPG时，DT-LoRA-GPT2模型实现了47.98%的收益，高于随机初始化模型的42.88%。
夏普比率上，在TD3环境下，该模型达到了2.14的比率，超过了随机初始化模型的2.06。
最大回撤（MDD）指标中，在A2C条件下，DT-LoRA-GPT2的MDD为-8.42%，优于随机初始化模型的-9.42%。

这些结果表明，DT-LoRA-GPT2在离线强化学习环境中不仅能有效学习，而且利用预训练权重能够带来显著的性能提升。这强调了在金融交易任务中，预训练模型所提供的良好起点对于提高模型表现的重要性。

未来优化方向

探索多专家轨迹的整合。当前模型依赖于单一专家的轨迹进行训练，未来的研究可以着眼于如何有效结合多个专家的轨迹，以此增加训练数据的多样性。

提升交易决策的可解释性。尚未研究通过自然语言来解释交易决策的方法，未来的工作可以聚焦于增强语言生成与决策行动之间的一致性，以提高模型决策过程的透明度。

拓展至其他市场和资产。目前实验主要针对道琼斯工业平均指数，后续应考虑将此方法应用于其他金融市场和不同类型的资产，以检验其广泛适用性。

评估扩展预训练语言模型规模的效果。探讨增大预训练语言模型对量化交易指标的影响，分析更大规模的模型是否能更精准地捕捉复杂的金融模式，并权衡计算资源需求与性能提升之间的关系。这有助于理解在提升模型表现的同时如何高效利用资源。

04总结

本文介绍了一种通过预训练GPT-2权重初始化并利用低秩适应（LoRA）进行微调的Decision Transformer模型，旨在离线强化学习环境下优化量化交易策略。此方法借助大型语言模型的强大表征能力，解决了复杂时间依赖性的捕捉以及金融时间序列数据过拟合的问题。

实验结果表明，该模型在性能上与传统的离线RL算法（例如CQL、IQL和BC）相比具有竞争力。特别是，基于GPT-2初始化的Decision Transformer在多个专家代理场景中表现优于随机初始化的同类模型，展示了预训练语言模型的独特优势。

研究结论指出，将预训练语言模型与Decision Transformer结合使用，可以显著增强从历史数据中学习有效交易策略的能力。未来的研究方向包括探索如何整合来自多个专家代理的轨迹、开发能够生成可解释交易决策的方法，并将此方法扩展应用于其他金融市场和资产类别。这一系列改进有望进一步提升模型的适用性和效能。

基于LoRA微调的预训练大模型在离线RL量化交易中自动学习专家决策，达成47.98%累计收益

相关文章

协作机器人公司切入人形机器人赛道，大有可为！

C++ List 容器：实现原理深度解析

半导体、芯片、人工智能、智能驾驶汽车的趋势

PyTorch使用教程(13)-一文搞定模型的可视化和训练过程监控

http转化为https生成自签名证书

1.4走向不同：GPT 与 BERT 的选择——两大NLP模型的深度解析

Python毕业设计选题：基于django+vue的二手电子设备交易平台设计与开发

【解锁新技能！Flux.1如何实现远程AI生成图像随时随地创作】