深度学习中batch

Batch size调整和epoch/iteration的关系

训练数据集总共有1000个样本。若batch_size=10，那么训练完全体样本集需要100次迭代，1次epoch。
训练样本10000条，batchsize设置为20，将所有的训练样本在同一个模型中训练5遍，则epoch=5,batchsize=20, iteration=10000/20=500（即迭代次数表示有多个个batch会过模型）

分布式训练时的batch_size设置：需要将batch_size/num_process。divide the batch size by the number of replicas in order to maintain the overall batch size of 需要的值.[PyTorch：模型训练-分布式训练]

Batch size设置经验

1 一定条件下，batchsize越大训练效果越好。但是batchsize越大，内存gpu消耗越大。梯度累加则实现了batchsize的变相扩大，如果accumulation_steps为8，则batchsize ‘变相’ 扩大了8倍，是解决显存受限的一个不错的trick。

batch_10">[使用梯度累加的batch训练函数]

2 经验法则是，如果mini-batch size加倍，那么学习率就加倍。
在这里插入图片描述

[神经网络中 warmup 策略为什么有效；有什么理论解释么？ - 知乎]

在前面“如果mini-batch size加倍，那么学习率就加倍"中，我们的假设在什么时候可能不成立呢？两种情况：

1）在训练的开始阶段，模型权重迅速改变
2）mini-batch size较小，样本方差较大

第一种情况很好理解，可以认为，刚开始模型对数据的“分布”理解为零，或者是说“均匀分布”（当然这取决于你的初始化）；在第一轮训练的时候，每个数据点对模型来说都是新的，模型会很快地进行数据分布修正，如果这时候学习率就很大，极有可能导致开始的时候就对该数据“过拟合”，后面要通过多轮训练才能拉回来，浪费时间。当训练了一段时间（比如两轮、三轮）后，模型已经对每个数据点看过几遍了，或者说对当前的batch而言有了一些正确的先验，较大的学习率就不那么容易会使模型学偏，所以可以适当调大学习率。这个过程就可以看做是warmup。那么为什么之后还要decay呢？当模型训到一定阶段后（比如十个epoch），模型的分布就已经比较固定了，或者说能学到的新东西就比较少了。如果还沿用较大的学习率，就会破坏这种稳定性，用我们通常的话说，就是已经接近loss的local optimal了，为了靠近这个point，我们就要慢慢来。

第二种情况其实和第一种情况是紧密联系的。在训练的过程中，如果有mini-batch内的数据分布方差特别大，这就会导致模型学习剧烈波动，使其学得的权重很不稳定，这在训练初期最为明显，最后期较为缓解（所以我们要对数据进行scale也是这个道理）。

说明，在上面两种情况下，我们并不能单纯地成倍增长lr η̂ =kη。要么改变学习率增长方法，要么设法解决上面两个问题。