BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
论文精读 —— BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding - 知乎 (zhihu.com)
pre-training:在一个数据集上训练好一个模型,这个模型主要的目的是用在一个别的任务上面。别的任务如果叫training,那么在大的数据集上训练我这个任务叫做pre-training。
NLP任务中使用没有标号的大量数据训练出的模型效果比在有标号的数据上训练效果好,同样的思想,在CV中,可能使用小的没有标签的数据训练的模型比在imagenet上训练的模型效果好。
英语积累:
analyzing ... holistically 整体分析