轩辕：首个千亿级中文金融对话模型

背景

目前开源的大语言模型或多或少存在以下痛点：

轩辕(以下内容用XuanYuan表示)基于Bloom-176B开源模型，在该模型基础上，针对金融领域的数据做了pre-training和fine-tune，是国内首个开源的千亿级中文对话大模型，同时也是首个针对中文金融领域优化的千亿级开源对话大模型。

轩辕在BLOOM-176B的基础上针对中文通用领域和金融领域进行了针对性的预训练与微调。

它不仅可以应对通用领域的问题，也可以解答与金融相关的各类问题，为用户提供准确、全面的金融信息和建议。

训练数据集包含以下几个方面：

通用预训练数据+金融预训练数据：来源于互联网抓取的数据。
通用指令数据+金融指令数据：先人工构造种子指令数据(seed instruction data)，然后基于Self-Instruct (Wang et al., 2022)论文里的方法生成通用指令数据。再基于Self-QA (Zhang and Yang, 2023)里的方法对非结构化和结构化的金融数据生成大语言模型需要的金融指令数据。Self-Instruct和Self-QA的论文参考文末的References。

通用数据的意思是不仅有金融领域的数据，还包含众多其他领域的数据。

金融数据集涵盖了金融研报、股票、基金、银行、保险等各个方向的专业知识。

实验结果表明，经过清洗和标注的高质量数据集，不仅在通用性方面与ChatGPT达到持平成为可能，且显著提升了模型在金融垂直领域的性能。

针对垂直领域做大模型训练和微调，要仔细设计训练过程。

如果只是简单的拿垂直领域的一问一答指令数据做fine tune，可能会产生灾难性遗忘(catastrophic forgetting)。

灾难性遗忘的意思是经过训练的模型忘记了模型最开始被训练出来的通用知识，只记住了这个垂直领域相关的内容，就会导致回答质量下降。

参考上图，训练垂直领域的大模型传统方法是分为如下2个阶段：

第一阶段：unsupervised domain-specific pre-training，简单来说就是把垂直领域的数据喂给大模型做预训练，让大模型去预测下一个token。
第二阶段：supervised domain-specific instruction-tuning，构造垂直领域的一问一答指令数据，再基于指令数据做fine-tune。

XuanYuan提出了一种全新的训练方法hybrid-tuning，不再分为以上2个阶段。

首先，把pre-training data(预训练数据)和instruction data(指令数据)合并为一个训练数据集。

然后，基于这个数据集做训练，训练过程中把通用数据的预训练、通用数据的指令微调、金融数据的预训练和金融数据的指令微调顺序打乱。

训练完成后，模型既有了金融领域的知识和对话能力，也保留了通用领域的知识和对话能力，不会有灾难性遗忘的问题。

训练的硬件是NVIDIA A100 80GB GPU，使用DeepSpeed分布式训练框架来提升训练效率，降低训练成本。