【机器学习chp14 — 1】生成式模型概述和主要思想（超详细分析，易于理解，推导严谨，一文就够了）

一、生成式模型简介和主要思想

1、从传统神经网络映射到生成式模型

（1）传统映射

（2）生成式模型的映射

2、生成式模型与多样性

（1）模型多样性

（2）神经网络作为生成器

3、生成式模型的目标：极大似然与KL散度

（1）极大似然估计（Maximum Likelihood）

（2）KL 散度的最小化

4、基于能量的模型及其参数学习

（1）能量模型描述

（2）对数似然及其梯度

（3）近似计算与采样问题

5、总结

一、生成式模型简介和主要思想

1、从传统神经网络映射到生成式模型

（1）传统映射

在大多数传统任务中，神经网络被视为一个确定性的映射

$f_\theta: X \rightarrow Y$

例如，在图像分类中，输入图像（例如尺寸为 $H \times W \times 3$ 的RGB图像）经过神经网络映射到一个固定类别集合

$f_\theta: \mathbb{R}^{H\times W\times 3} \rightarrow \{1, 2, \dots, C\}$

这意味着给定一个输入图像，模型输出一个类别标签。

（2）生成式模型的映射

在生成式模型中，我们将神经网络看作一个映射到概率分布的函数（映射到的这个概率分布是什么？什么样的概率分布才能生成我们的目标？）再从分布中采样得到最终的结果。

$f_\theta: X \rightarrow P(Y)$

也就是说，模型输出的不再是一个确定的类别，而是在输出空间 $Y$ 上的一个概率分布。
例子： 对于 softmax 回归模型，其对类别 $c$ 的概率建模为

$P(Y=c\mid X=x)$

并且映射形式为

$f_\theta: \mathbb{R}^{H\times W\times 3} \rightarrow (p_1, p_2, \dots, p_C)$

这里，输出的概率分布可以看作是对输入图像在各个类别上的“信心”或“不确定性”的表达。

2、生成式模型与多样性

（1）模型多样性

生成式模型的一个核心优势在于能够通过概率分布来表达多样性。例如，输入一幅鸟的图像经过分类器输出标签“Bird”是确定的；而输入“Bird”（鸟）的概念到生成器中，则可以生成多种不同样式、角度、颜色的鸟图像。
这种多样性通常通过引入随机变量（例如颜色、角度、背景等）来控制，从而使生成的结果具有“创造力”。

绘画场景： 输入描述“红眼的角色”，模型可以生成多个不同风格或构图的图像。
聊天机器人： 针对作文题目或对话输入，生成的文本可以体现不同的表达风格和细节。

（2）神经网络作为生成器

生成式模型常常采用神经网络作为生成器。模型接收来自简单分布（如正态分布）的随机样本 $z$ 作为输入，然后映射到复杂的生成分布 $P_G$ 。目标是使生成器输出的数据尽可能接近真实数据分布 $P_{\text{data}}$ ：

$z \sim \mathcal{N}(0, I) \quad\rightarrow\quad x = G_\theta(z) \quad\text{or} \quad x \sim P_G \approx P_{\text{data}}$

这正是如生成对抗网络（GAN）和变分自编码器（VAE）中常见的思想。

3、生成式模型的目标：极大似然与KL散度

（1）极大似然估计（Maximum Likelihood）

生成式模型的目标之一是使生成的数据和真实数据“看起来像”。这通常通过极大似然估计（MLE）来实现。给定真实数据样本 $\{x_i\}_{i=1}^N$ ，我们希望最大化对数似然：

$\theta^* = \arg\max_\theta \frac{1}{N}\sum_{i=1}^N \log P_\theta(x_i)$

这意味着在真实数据分布下，生成数据的概率要尽可能高。

（2）KL 散度的最小化

极大似然估计等价于最小化真实数据分布 $P_{\text{data}}$ 与模型分布 $P_\theta$ 之间的 KL 散度：

$\theta^* = \arg\min_\theta \operatorname{KL}(P_{\text{data}} \,\|\, P_\theta) = \arg\min_\theta \mathbb{E}_{x\sim P_{\text{data}}}\left[-\log P_\theta(x)\right]$

直观上，KL 散度衡量了两个分布的“距离”，最小化它可以使模型生成的数据分布尽量接近真实数据分布。

4、基于能量的模型及其参数学习

（1）能量模型描述

在很多情况下，我们不需要直接获得绝对概率，只需要相对概率即可。基于能量的模型给出如下形式：

$P_\theta(x) = \frac{e^{-E_\theta(x)}}{Z_\theta}$

其中：

$E_\theta(x)$ 是能量函数，反映了样本 $x$ 的“能量”或“代价”。
$Z_\theta = \int_x e^{-E_\theta(x)}dx$ 是归一化常数（分区函数），保证 $P_\theta(x)$ 为概率分布。

（2）对数似然及其梯度

在极大似然框架下，对数似然为：

$\log P_\theta(x) = -E_\theta(x) - \log Z_\theta$

对参数 $\theta$ 求梯度得到：

$\nabla_\theta \log P_\theta(x) = -\nabla_\theta E_\theta(x) - \nabla_\theta \log Z_\theta$

其中， $\nabla_\theta \log Z_\theta$ 可进一步推导：

$\nabla_\theta \log Z_\theta = \frac{1}{Z_\theta} \nabla_\theta Z_\theta$

注意到

$Z_\theta = \int_x e^{-E_\theta(x)} dx \quad \Rightarrow \quad \nabla_\theta Z_\theta = -\int_x e^{-E_\theta(x)} \nabla_\theta E_\theta(x) dx$

因此，

$\nabla_\theta \log Z_\theta = -\frac{1}{Z_\theta} \int_x e^{-E_\theta(x)} \nabla_\theta E_\theta(x)dx = -\mathbb{E}_{x\sim P_\theta}[\nabla_\theta E_\theta(x)]$

代回原式，我们得到：

$\nabla_\theta \log P_\theta(x) = -\nabla_\theta E_\theta(x) + \mathbb{E}_{x\sim P_\theta}[\nabla_\theta E_\theta(x)]$

对整个数据分布 $P_{\text{data}}$ 取期望，即参数更新的梯度为：

$\nabla_\theta \mathbb{E}_{x\sim P_{\text{data}}}[\log P_\theta(x)] = -\mathbb{E}_{x\sim P_{\text{data}}}[\nabla_\theta E_\theta(x)] + \mathbb{E}_{x\sim P_\theta}[\nabla_\theta E_\theta(x)]$

这就给出了模型中两个重要的项：

数据项：从真实数据分布中采样，推动能量函数降低，使真实数据的能量更低。
模型项：从当前模型分布中采样，推动能量函数升高，使模型生成的低能量区域不泛滥。（不同的模型比如下面的VAE和GAN的这一项不一样）

（3）近似计算与采样问题

在实际应用中，从 $P_\theta$ 采样往往计算代价较高，因此需要近似方法来计算第二项的梯度。常用的方法包括：

马尔可夫链蒙特卡洛（MCMC）
对比散度（Contrastive Divergence）

近似梯度可以写成：

$\nabla_\theta \mathbb{E}_{x\sim P_{\text{data}}}[\log P_\theta(x)] \approx -\frac{1}{N}\sum_{i=1}^{N} \nabla_\theta E_\theta(x_i) + \frac{1}{N}\sum_{i=1}^{N} \nabla_\theta E_\theta(\hat{x}_i)$

其中 $x_i \sim P_{\text{data}}$ 而 $\hat{x}_i \sim P_\theta$ 通过某种采样方法得到。这种方法能够在一定程度上平衡真实数据和模型生成数据之间的差异，从而不断调整参数，使得 $P_\theta$ 渐进地逼近 $P_{\text{data}}$ 。

5、总结

生成式模型通过以下几个关键步骤构建与学习数据分布：

从确定性映射到概率映射：传统神经网络映射 $X \rightarrow Y$ 被扩展为 $X \rightarrow P(Y)$ ，允许输出多样化结果。
模型多样性与创造性：通过引入随机性（例如随机变量 $z$ ）生成不同样式的输出，从而满足如图像生成、文本生成等任务的“创造力”需求。
极大似然估计与KL散度：利用极大似然原理最大化真实数据的似然，等价于最小化真实分布与模型分布间的 KL 散度。
能量模型的框架：用能量函数 $E_\theta(x)$ 和归一化常数 $Z_\theta$ 定义概率分布，重点关注相对概率关系。
参数学习与梯度推导：推导出对数似然的梯度包含两个项——真实数据项和模型采样项，进而通过近似采样（如 MCMC 或对比散度）进行参数更新。