paper:Aaron Gokaslan, Vanya Cohen, Pavlick Ellie, and Stefanie Tellex. Openwebtext corpus, 2019.
用于GPT2训练的文本数据,GPT2主要是生成文本的,只有足够多的数据训练的模型才能学会说话,生成的才有可能是通顺的。GPT2文本生成可以采用huggingface中代码直接进行训练,但其中需要再填个坑哈。如下:
python run_clm.py \--model_name_or_path gpt2 \--dataset_name wikitext \--dataset_config_name wikitext-2-raw-v1 \--per_device_train_batch_size 8 \--per_device_eval_batch_size 8 \--do_train \--do_eval \--output_dir /tmp/test-clm#用自己的数据
python run_clm.py \--model_name_or_path gpt2 \--train_file path_to_train_file \--validation_file path_to_validation_file \--per_devic