深度生成模型 - 深度信念网络（DBN）篇

序言

深度信念网络（ $\text{Deep Belief Networks，DBN}$ ）作为深度学习领域的一个重要里程碑，自 $2006$ 年由 $\text{Geoffrey Hinton}$ 及其研究小组提出以来，一直受到广泛的关注和研究。 $\text{DBN}$ 由多层受限玻尔兹曼机（ $\text{Restricted Boltzmann Machines，RBMs}$ ）堆叠而成，旨在通过无监督学习有效地训练多层神经网络。这种网络结构通过逐层训练 $\text{RBMs}$ 来学习数据的层次结构表示，每一层都学习数据中的高级抽象特征。 $\text{DBN}$ 不仅结合了深度神经网络和信念网络的优点，还克服了传统神经网络训练困难的问题，为深度学习的发展奠定了重要基础。

深度信念网络

深度信念网络 ( $\text{deep belief network, DBN}$ ) 是第一批成功应用深度架构训练的非卷积模型之一 ( $\text{Hinton et al., 2006a; Hinton, 2007b}$ )。
- $2006$ 年深度信念网络的引入开始了当前深度学习的复兴。
- 在引入深度信念网络之前，深度模型被认为太难以优化。
- 具有凸目标函数的核机器占据了研究前景。
- 深度信念网络在 $\text{MNIST}$ 数据集上表现超过内核化支持向量机，以此证明深度架构是能够成功的 ( $\text{Hinton et al., 2006a}$ )。
- 尽管现在与其他无监督或生成学习算法相比，深度信念网络大多已经失去了青睐并很少使用，但它们在深度学习历史中的重要作用仍应该得到承认。
深度信念网络是具有若干潜变量层的生成模型。
- 潜变量通常是二值的，而可见单元可以是二值或实数。
- 尽管构造连接比较稀疏的 $\text{DBN}$ 是可能的，但在一般的模型中，每层的每个单元连接到每个相邻层中的每个单元（没有层内连接）。
- 顶部两层之间的连接是无向。
- 而所有其他层之间的连接是有向的，箭头指向最接近数据的层。
- 见深度生成模型 - 受限玻尔兹曼机（RBM）篇 - 图例1-b的例子。
具有 $l$ 个隐藏层的 $\text{DBN}$ 包含 $l$ 个权重矩阵： $\boldsymbol{W}^{(1)},\dots,\boldsymbol{W}^{(l)}$ 。同时也包含 $l + 1$ 个偏置向量： $\boldsymbol{b}^{(0)},\dots,\boldsymbol{b}^{(l)}$ ，其中 $\boldsymbol{b}^{(0)}$ 是可见层的偏置。 $\text{DBN}$ 表示的概率分布由下式给出：
$P(\boldsymbol{h}^{(l),\boldsymbol{h}^{(h-1)}})\propto e^{\big(\boldsymbol{b}^{(l)^\top}\boldsymbol{h}^{(l)}+\boldsymbol{b}^{(l-1)^\top}+\boldsymbol{h}^{(l-1)^\top}\boldsymbol{W}^{(l)}\boldsymbol{h}^{(l)}\big)}$ $\quad\textbf{---\footnotesize{公式1}}$
$P(h_i^{(k)}=1\mid\boldsymbol{h}^{(k+1)})=\sigma(b_i^{(k)}+\boldsymbol{W}_{:,i}^{(k+1)^\top}\boldsymbol{h}^{(k+1)}) \forall_i,\forall_k\in 1,\dots,l-2$ $\quad\textbf{---\footnotesize{公式2}}$
$P(v_i=1\mid\boldsymbol{h}^{(1)})=\sigma(b_i^{(0)}+\boldsymbol{W}_{:,i}^{(1)^\top}\boldsymbol{h}^{(1)})\forall_i$ $\quad\textbf{---\footnotesize{公式3}}$
在实值可见单元的情况下，替换：
$\textbf{v}\sim \mathcal{N}(\boldsymbol{v};\boldsymbol{b}^{(0)}+\boldsymbol{W}^{(1)^\top}\boldsymbol{h}^{(1)},\beta^{-1})$ $\quad\textbf{---\footnotesize{公式4}}$
为便于处理， $\beta$ 为对角形式。至少在理论上，推广到其他指数族的可见单元是直观的。只有一个隐藏层的 $\text{DBN}$ 只是一个 $\text{RBM}$ 。
为了从 $\text{DBN}$ 中生成样本，我们先在顶部的两个隐藏层上运行几个 $\text{Gibbs}$ 采样步骤。这个阶段主要从 $\text{RBM}$ （由顶部两个隐藏层定义）中采一个样本。然后，我们可以对模型的其余部分使用单次原始采样，以从可见单元绘制样本。
深度信念网络引发许多与有向模型和无向模型同时相关的问题。
由于每个有向层内的解释远离效应，并且由于无向连接的两个隐藏层之间的相互作用，深度信念网络中的推断是难解的。评估或最大化对数似然的标准证据下界也是难以处理的，因为证据下界基于大小等于网络宽度的团的期望。
评估或最大化对数似然，不仅需要面对边缘化潜变量时难以处理的推断问题，而且还需要面对顶部两层无向模型内难处理的配分函数问题。
为训练深度信念网络，我们可以先使用对比散度或随机最大似然方法训练 $\text{RBM}$ 以最大化 $\mathbb{E}_{\textbf{v}\sim p_{\text{data}}} \log p(\boldsymbol{v})$ 。 $\text{RBM}$ 的参数定义了 $\text{DBN}$ 第一层的参数。然后，第二个 $\text{RBM}$ 训练为近似最大化：
$\mathbb{E}_{\textbf{v}\sim p_{\text{data}}}\mathbb{E}_{\textbf{h}^{(1)}\sim p^{(1)}(\boldsymbol{h}^{(1)}\mid\boldsymbol{v})}\log p^{(2)}(\boldsymbol{h}^{(1)})$ $\quad\textbf{---\footnotesize{公式5}}$
其中 $p^{(1)}$ 是第一个RBM表示的概率分布， $p^{(2)}$ 是第二个 $\text{RBM}$ 表示的概率分布。
- 换句话说，第二个RBM被训练为模拟由第一个 $\text{RBM}$ 的隐藏单元采样定义的分布，而第一个 $\text{RBM}$ 由数据驱动。
- 这个过程能无限重复，从而向 $\text{DBN}$ 添加任意多层，其中每个新的 $\text{RBM}$ 建模前一个的样本。
- 每个 $\text{RBM}$ 定义 $\text{DBN}$ 的另一层。
- 这个过程可以被视为提高数据在 $\text{DBN}$ 下似然概率的变分下界 ( $\text{Hinton et al., 2006a}$ )。
在大多数应用中，对 $\text{DBN}$ 进行贪婪分层训练后，不需要再花功夫对其进行联合训练。然而，使用 $\text{wake sleep}$ 算法对其进行生成微调是可能的。
训练好的 $\text{DBN}$ 可以直接用作生成模型，但是 $\text{DBN}$ 的大多数兴趣来自于它们改进分类模型的能力。我们可以从 $\text{DBN}$ 获取权重，并使用它们定义 $\text{MLP}$ ：
$\boldsymbol{h}^{(1)}=\sigma(b^{(1)}+\boldsymbol{v}^\top\boldsymbol{W}^{(1)})$ $\quad\textbf{---\footnotesize{公式6}}$
$\boldsymbol{h}^{(l)}=\sigma(b_i^{(l)}+\boldsymbol{h}^{(l-1)^\top}\boldsymbol{W}^{(l)}) \forall_l\in2,\dots,m$ $\quad\textbf{---\footnotesize{公式7}}$
利用 $\text{DBN}$ 的生成训练后获得的权重和偏置初始化该 $\text{MLP}$ 之后，我们可以训练该 $\text{MLP}$ 来执行分类任务。这种 $\text{MLP}$ 的额外训练是判别微调的示例。
与近似推断中从基本原理导出的许多推断方程相比这种特定选择的 $\text{MLP}$ 有些任意。
- 这个 $\text{MLP}$ 是一个启发式选择，似乎在实践中工作良好，并在文献中一贯使用。
- 许多近似推断技术是由它们在一些约束下在对数似然上找到最大紧变分下界的能力所驱动的。
- 我们可以使用 $\text{DBN}$ 中 $\text{MLP}$ 定义的隐藏单元的期望，构造对数似然的变分下界，但这对于隐藏单元上的任何概率分布都是如此，并没有理由相信该 $\text{MLP}$ 提供了一个特别的紧界。
- 特别地， $\text{MLP}$ 忽略了 $\text{DBN}$ 图模型中许多重要的相互作用。
- $\text{MLP}$ 将信息从可见单元向上传播到最深的隐藏单元，但不向下或侧向传播任何信息。
- $\text{DBN}$ 图模型解释了同一层内所有隐藏单元之间的相互作用以及层之间的自顶向下的相互作用。
虽然 $\text{DBN}$ 的对数似然是难处理的，但它可以使用 $\text{AIS}$ 近似 ( $\text{Salakhutdinov and Murray, 2008}$ )。通过近似，可以评估其作为生成模型的质量。
术语 “深度信念网络’’ 通常不正确地用于指代任意种类的深度神经网络，甚至没有潜变量意义的网络。这个术语应特指最深层中具有无向连接，而在所有其他连续层之间存在向下有向连接的模型。
这个术语也可能导致一些混乱，因为术语 ‘‘信念网络’’ 有时指纯粹的有向模型，而深度信念网络包含一个无向层。深度信念网络也与动态贝叶斯网络（ $\text{dynamic Bayesian networks}$ ） ( $\text{Dean and Kanazawa, 1989}$ ) 共享首字母缩写 $\text{DBN}$ ，它们是表示马尔可夫链的贝叶斯网络。

总结

深度信念网络 $\text{DBN}$ 在多个方面展现了其强大的能力和广泛的应用前景。首先， $\text{DBN}$ 通过逐层预训练的方式，使得深层神经网络的训练变得更为稳定和高效。在预训练阶段，每个 $\text{RBM}$ 独立地进行无监督训练，学习数据的分布，为后续的有监督微调提供了良好的初始化参数。这种训练方式不仅提高了模型的泛化能力，还使得 $\text{DBN}$ 在处理高维数据和未标记数据时表现出色。

其次， $\text{DBN}$ 具备生成模型的特性，能够基于学习到的数据表示生成新的数据示例。这一点与纯粹的判别模型如卷积神经网络（ $\text{CNN}$ ）和循环神经网络（ $\text{RNN}$ ）不同，为数据分析和合成提供了更多的可能性。

此外， $\text{DBN}$ 已广泛应用于图像识别、自然语言处理、推荐系统、语音识别等多个领域。随着技术的不断发展， $\text{DBN}$ 有望在更多领域得到应用和发展，为机器学习和人工智能的进步做出更大的贡献。然而， $\text{DBN}$ 也存在一些潜在的缺点，如训练时间长、计算复杂度高以及易过拟合等，这些问题需要在未来的研究中得到进一步的解决和优化。