用TensorFlow实现线性回归

说明

本文采用TensorFlow框架进行讲解，虽然之前的文章都采用mxnet，但是我发现tensorflow提供了免费的gpu可供使用，所以果断开始改为tensorflow，若要实现文章代码，可以使用colaboratory进行运行，当然，如果您已经安装了tensorflow，可以采用python直接运行。

贡献

学习时采取动手学深度学习第二版作为教材，但由于本书通过引入d2l（著者自写库）进行深度学习，我希望将d2l的影响去掉，即不使用d2l，使用tensorflow，这一点通过查询GitHub中d2l库提供的相关函数尝试进行实现。

如果本系列文章具有良好表现，将译为英文版上传至Github。

预备知识

学习本篇文章之前，您最好具有以下基础知识：

回归>线性回归的基础知识
python的基础知识

基本原理

使用一个仿射变换，通过y=wx+b的模型来对数据进行预测（w和x均为矩阵，大小取决于输入规模），反向传播采用随机梯度下降对参数进行更新，参数包括w和b，即权重和偏差。

实现过程

生成数据集

只需要引入tensorflow即可，synthetic_data()函数将初始化X和Y，即通过真实的权重和偏差值生成数据集。

import tensorflow as tfdef synthetic_data(w, b, num_examples):X = tf.zeros((num_examples, w.shape[0]))X += tf.random.normal(shape=X.shape)y = tf.matmul(X, tf.reshape(w, (-1, 1))) + by += tf.random.normal(shape=y.shape, stddev=0.01)y = tf.reshape(y, (-1, 1))return X, ytrue_w = tf.constant([2, -3.4])
true_b = 4.2
features, labels = synthetic_data(true_w, true_b, 1000)

读取数据集

加载刚刚生成的数据集，is_train表示是否进行打乱，默认对数据进行打乱处理，使用load_array函数加载数据集。

def load_array(data_arrays, batch_size, is_train=True):dataset = tf.data.Dataset.from_tensor_slices(data_arrays)if is_train:dataset = dataset.shuffle(buffer_size=1000)dataset = dataset.batch(batch_size)return datasetbatch_size = 10
data_iter = load_array((features, labels), batch_size)

定义模型

模型使用keras API实现，keras是tensorflow中机器学习相关的库。先使用Sequential类定义承载容器，之后添加一个单神经元的全连接层。在TensorFlow中，Sequential表示容器相关的类，layer表示层相关的类。回归>线性回归只需要通过keras中的单神经元的全连接层即可实现，神经元的值即为输出结果。

net = tf.keras.Sequential()
net.add(tf.keras.layers.Dense(1))

示例的回归>线性回归仅有一个输入X，实际在其他回归>线性回归过程中，很有可能有多个x及其对应的w，但keras的代码均不会发生改变，因为keras的Dense类可以自动判断输入的个数。

初始化模型参数

stddev表示标准差，initializer生成一个标准差为1，均值为0的正态分布。在构建全连接层时，使用该正态分布进行初始化。

initializer = tf.initializers.RandomNormal(stddev=0.01)
net = tf.keras.Sequential()
net.add(tf.keras.layers.Dense(1, kernel_initializer=initializer))

定义损失函数和优化算法

损失函数使用平方损失函数进行计算，训练时使用小批量随机梯度下降SGD方法进行训练，学习率为0.03。

loss = tf.keras.losses.MeanSquaredError()
trainer = tf.keras.optimizers.SGD(learning_rate=0.03)

训练

运行以下代码可以观察训练结果。运行轮次为3轮，每一轮对所有训练集数据进行学习。计算w和b的梯度值，使用梯度下降更新权重w和偏差b。每一轮输出损失函数的值，最终显示权重和偏差的估计误差。

num_epochs = 3
for epoch in range(num_epochs):for X, y in data_iter:with tf.GradientTape() as tape:l = loss(net(X, training=True), y)grads = tape.gradient(l, net.trainable_variables)trainer.apply_gradients(zip(grads, net.trainable_variables))l = loss(net(features), labels)print(f'epoch {epoch + 1}, loss {l:f}')
w = net.get_weights()[0]
print('w的估计误差：', true_w - tf.reshape(w, true_w.shape))
b = net.get_weights()[1]
print('b的估计误差：', true_b - b)

运行结果

epoch 1, loss 0.000194

epoch 2, loss 0.000091

epoch 3, loss 0.000091

w的估计误差： tf.Tensor([-0.00026917 0.00094557], shape=(2,), dtype=float32)

b的估计误差： [4.7683716e-06]

改进尝试

更改SGD优化算法为Adam
更改MeanSquaredError为其他损失函数

对于上述改进，损失均有显著增加，表明原有方法已为最好方法。