Soft Actor-Critic (SAC)算法

Kullback-Leibler Divergence (KL divergence)

定义

假设对随机变量 $\xi$ ，存在两个概率分布 $P, Q$ 。如果 $\xi$ 为离散随机变量，定义从 $P$ 到 $Q$ 的KL散度为:

$\mathbb{D}_{\text{KL}}(P\vert \vert Q)=\sum_{i}P(i)\ln(\frac{P(i)}{Q(i)})$

如果 $\xi$ 为连续随机变量，定义从 $P$ 到 $Q$ 的KL散度为:

$\mathbb{D}_{\text{KL}}(P\vert \vert Q)=\int_{-\infty}^{\infty}p(\mathbf{x})\ln(\frac{p(\mathbf{x})}{q(\mathbf{x})})d\mathbf{x}$

KL散度的基本性质

KL 散度是衡量两个概率密度分布差异性的指标，越大则差异性越大，最小值是0，仅在二者完全相同时取到.

非负性

$\mathbb{D}_{\text{KL}}(P\vert \vert Q)\geq 0$

$\mathbb{D}_{\text{KL}}=0$ 当且仅当 $P = Q$ .

我们仅对离散情况进行证明，对于连续随机变量情况，我们将积分视为求和的极限后可以用相同方式证明

我们只需要证明 $\sum_{i}P(i)\ln(\frac{Q(i)}{P(i)})\leq 0$ 。采用不等式 $\ln(\mathbf{x})\leq \mathbf{x}-1,\forall x>0$ ，则:

$\sum_{i}P(i)\ln(\frac{Q(i)}{P(i)})\leq \sum_{i}P(i)(\frac{Q(i)}{P(i)}-1)=0$

等号当且仅当对于任意的 $i$ ， $\frac{Q(i)}{P(i)}=1$ 时取得，此时有 $P = Q$ .

仿射变换不变性

假设 $\mathbf{y}=a\mathbf{x}+b$ ，那么：

$\mathbb{D}_{\text{KL}}(P(\mathbf{x})\Vert Q(\mathbf{x}))=\mathbb{D}_{\text{KL}}(P(\mathbf{y})\Vert Q(\mathbf{y}))$

证明：

利用随机变量的变换公式 $p(\mathbf{y})d\mathbf{y}=p(\mathbf{x})d\mathbf{x}$ ，我们有：

$\mathbb{D}_{\text{KL}}(P(\mathbf{y})\Vert Q(\mathbf{y}))=\int P(\mathbf{y})\log(\frac{P(\mathbf{y})}{Q(\mathbf{y})}) d\mathbf{y}\\= \int P(\mathbf{x})\log(\frac{P(\mathbf{x})}{Q(\mathbf{x})}) d\mathbf{x} =\mathbb{D}_{\text{KL}}(P(\mathbf{x})\Vert Q(\mathbf{x}))$

非对易性

$\mathbb{D}_{\text{KL}}(P\vert \vert Q)\neq \mathbb{D}_{\text{KL}}(Q\vert \vert P)$

值域

$\mathbb{D}_{\text{KL}}(P\vert \vert Q)$ 在一定条件下可以趋向于无穷。

参见关于KL散度（Kullback-Leibler Divergence）的笔记

SAC 算法

SAC 算法是针对stochastic-policy MDP的一种强化学习算法, 下面我们对其原理进行介绍.

SAC 算法研究的MDP和我们上面介绍的MDP并不完全相同, 其修改了Q value function的定义:

$\textcolor{red}{Q^{\pi}(s,a)} \triangleq Q^{\pi}(s,a)-\ln(\pi(a|s))$

假定 V 和 Q 依旧满足 Bellman function, 则 V value function的定义也要相应变化为

$\textcolor{red}{V^{\pi}(s)} \triangleq V^{\pi}(s)-\mathscr{H}(\pi(\cdot|s))$

$\mathscr{H}$ 表示 entropy.

SAC 算法的流程借鉴了 DDPG, 但是由于 V 和 Q 函数的定义发生了变化, 因此相应的 loss function 也要代入新的定义.

V’s loss:

$\mathop{\mathbb{E}}\limits_{(s,a,r,s')\sim \mathcal{D}}\mathrm{se} (V(s), \mathop{\mathbb{E}}\limits_{a'\sim \pi, \atop a'\in \mathcal{A}}Q(s,a')-\pi(s, a'))$

Q’s loss:

$\mathop{\mathbb{E}}\limits_{(s,a,r,s')\sim \mathcal{D}}\mathrm{se} (Q(s,a), r+\gamma \mathop{\mathbb{E}}\limits_{s'\sim p(\cdot|s,a)}(V'(s')))$

policy’s loss:

$\mathop{\mathbb{E}}\limits_{(s,a,r,s')\sim \mathcal{D}}\mathbb{D}_{\text{KL}}(\pi(\cdot|s)\vert \vert \exp Q(s, \cdot))$

让policy取某一个动作的概率和它所对应的Q值成正比.

policy improvement 证明（参见论文Lemma 2）：

由 update rule 可知

$\mathop{\mathbb{E}}\limits_{a\sim \pi_{new}(\cdot|s)}[\ln \pi_{new}(s,a)-Q_{old}(s,a)] < \mathop{\mathbb{E}}\limits_{a\sim \pi_{old}(\cdot|s)}[\ln \pi_{old}(s,a)-Q_{old}(s,a)] = V_{old}(s)$

证明:

$\begin{aligned} Q_{old}(s_t,a_t) & = r_t + \gamma \mathop{\mathbb{E}}\limits_{s_{t+1}\sim p(\cdot|s_t,a_t)}(V'(s_{t+1})) \\ &\leq r_t + \gamma \mathop{\mathbb{E}}\limits_{s_{t+1}\sim p(\cdot|s_t,a_t)}\{\mathop{\mathbb{E}}\limits_{a_{t+1}\sim \pi_{new}(\cdot|s_{t+1})}[\textcolor{red}{Q_{old}(s_{t+1},a_{t+1})} - \ln \pi_{new}(s,a)]\} \\ & \leq ... \leq \mathop{\mathbb{E}}\limits_{(s_t,a_t,...)\sim \pi_{new}}\{r_{t}+\gamma r_{t+1}+...|s_t, a_t\}=Q_{new}(s_t,a_t) \end{aligned}$