8-4 循环神经网络

请添加图片描述
对于 (8.4.2)中的函数 $f$ ，隐变量模型不是近似值。毕竟 $h_{t}$ 是可以仅仅存储到目前为止观察到的所有数据，然而这样的操作可能会使计算和存储的代价都变得昂贵。

回想一下，我们在前面讨论过的具有隐藏单元的隐藏层。值得注意的是，隐藏层和隐状态指的是两个截然不同的概念。如上所述，隐藏层是在从输入到输出的路径上（以观测角度来理解）的隐藏的层，而隐状态则是在给定步骤所做的任何事情（以技术角度来定义）的输入，并且这些状态只能通过先前时间步的数据来计算。

循环神经网络（recurrent neural networks，RNNs）是具有隐状态的神经网络。在介绍循环神经网络模型之前，我们首先回顾 4-1节中介绍的多层感知机模型。

无隐状态的神经网络

请添加图片描述

有隐状态的循环神经网络

请添加图片描述

import torch
from d2l import torch as d2lX, W_xh = torch.normal(0, 1, (3, 1)), torch.normal(0, 1, (1, 4))
H, W_hh = torch.normal(0, 1, (3, 4)), torch.normal(0, 1, (4, 4))
torch.matmul(X, W_xh) + torch.matmul(H, W_hh)

请添加图片描述
现在，我们沿列（轴1）拼接矩阵X和H，沿行（轴0）拼接矩阵W_xh和W_hh。这两个拼接分别产生形状 $(3, 5)$ 和形状 $(5, 4)$ 的矩阵。再将这两个拼接的矩阵相乘，我们得到与上面相同形状 $(3, 4)$ 的输出矩阵。

torch.matmul(torch.cat((X, H), 1), torch.cat((W_xh, W_hh), 0))

请添加图片描述

基于循环神经网络的字符级语言模型

回想一下8-3节中的语言模型，我们的目标是根据过去的和当前的词元预测下一个词元，因此我们将原始序列移位一个词元作为标签。 Bengio等人首先提出使用神经网络进行语言建模 (Bengio et al., 2003)。接下来，我们看一下如何使用循环神经网络来构建语言模型。设小批量大小为1，批量中的文本序列为“machine”。为了简化后续部分的训练，我们考虑使用 字符级语言模型（character-level language model），将文本词元化为字符而不是单词。图8.4.2演示了如何通过基于字符级语言建模的循环神经网络，使用当前的和先前的字符预测下一个字符。
请添加图片描述

困惑度（Perplexity）

最后，让我们讨论如何度量语言模型的质量，这将在后续部分中用于评估基于循环神经网络的模型。 一个好的语言模型能够用高度准确的词元来预测我们接下来会看到什么。考虑一下由不同的语言模型给出的对“It is raining …”（“…下雨了”）的续写：

“It is raining outside”（外面下雨了）；
“It is raining banana tree”（香蕉树下雨了）；
“It is raining piouw;kcj pwepoiut”（piouw;kcj pwepoiut下雨了）。

就质量而言，例 $1$ 显然是最合乎情理、在逻辑上最连贯的。虽然这个模型可能没有很准确地反映出后续词的语义，比如，“It is raining in San Francisco”（旧金山下雨了）和“It is raining in winter”（冬天下雨了）可能才是更完美的合理扩展，但该模型已经能够捕捉到跟在后面的是哪类单词。例 $2$ 则要糟糕得多，因为其产生了一个无意义的续写。尽管如此，至少该模型已经学会了如何拼写单词，以及单词之间的某种程度的相关性。最后，例 $3$ 表明了训练不足的模型是无法正确地拟合数据的。

我们可以通过计算序列的似然概率来度量模型的质量。然而这是一个难以理解、难以比较的数字。毕竟，较短的序列比较长的序列更有可能出现，因此评估模型产生托尔斯泰的巨著《战争与和平》的可能性不可避免地会比产生圣埃克苏佩里的中篇小说《小王子》可能性要小得多。而缺少的可能性值相当于平均数。

在这里，信息论可以派上用场了。我们在引入softmax回归时定义了熵、惊异和交叉熵，并在信息论的在线附录中讨论了更多的信息论知识。如果想要压缩文本，我们可以根据当前词元集预测的下一个词元。一个更好的语言模型应该能让我们更准确地预测下一个词元。因此，它应该允许我们在压缩序列时花费更少的比特。所以我们可以通过一个序列中所有的 $n$ 个词元的交叉熵损失的平均值来衡量：
请添加图片描述
其中 $P$ 由语言模型给出， $x_{t}$ 是在时间步 $t$ 从该序列中观察到的实际词元。这使得不同长度的文档的性能具有了可比性。由于历史原因，自然语言处理的科学家更喜欢使用一个叫做困惑度（perplexity）的量。简而言之，它是 (8.4.7)的指数：
请添加图片描述
困惑度的最好的理解是“下一个词元的实际选择数的调和平均数”。我们看看一些案例。

在最好的情况下，模型总是完美地估计标签词元的概率为1。在这种情况下，模型的困惑度为1。
在最坏的情况下，模型总是预测标签词元的概率为0。在这种情况下，困惑度是正无穷大。
在基线上，该模型的预测是词表的所有可用词元上的均匀分布。在这种情况下，困惑度等于词表中唯一词元的数量。事实上，如果我们在没有任何压缩的情况下存储序列，这将是我们能做的最好的编码方式。因此，这种方式提供了一个重要的上限，而任何实际模型都必须超越这个上限。

在接下来的小节中，我们将基于循环神经网络实现字符级语言模型，并使用困惑度来评估这样的模型。

词元预测与压缩的关系在数据压缩中，我们希望用尽可能少的比特来表示信息。如果我们能准确预测一个序列中的下一个词元，我们就可以更高效地压缩数据。语言模型的任务之一就是基于已知的上下文来预测下一个词元。

准确预测的意义：如果模型能够非常准确地预测下一个词元，那么它只需要很少的信息（即少量的比特）就可以表示这个词元。换句话说，准确的预测使得压缩更加高效。

比特数与信息量信息论中，比特数衡量的是存储或传输信息所需的最小单位。预测得越准确，表示下一个词元所需的比特数就越少，因为模型已经“知道”接下来很可能会是什么。反之，如果预测不准确，那么为了表示所有可能的词元，模型需要使用更多的比特。

语言模型的效果

更好的语言模型：能够更加准确地预测下一个词元，从而减少表示该词元所需的比特数，最终使得整个序列的压缩变得更加高效。

不好的语言模型：由于预测不准确，它需要更多的比特来表示下一个词元，导致压缩效率低下。

压缩示例举个例子，如果模型预测“外面下雨了”的概率很高，那么在压缩时就可以用较少的比特来表示这个句子，因为大部分的信息已经被预测覆盖。如果模型的预测是“香蕉树下雨了”这种不合理的内容，那为了准确传达这个奇怪的句子，可能需要更多的比特来表示。

实际应用在实际应用中，好的语言模型不仅用于自然语言处理，也在数据压缩、信息传输等领域有重要作用。通过提高预测的准确性，可以显著提升压缩效率，从而节省存储空间和带宽。