交替最小二乘法（ALS）的工作原理

假设我们有一个评分矩阵，我们希望通过交替优化用户矩阵和物品矩阵来最小化误差。

我们有一个评分矩阵 ( R )，它的维度是 ( m \times n )，即 ( m ) 个用户和 ( n ) 个物品（比如电影、商品等）。
矩阵分解目标：我们想将这个矩阵分解成两个较小的矩阵：
- 用户特征矩阵 ( U )（维度为 ( m \times k )，每个用户有 ( k ) 个特征）
- 物品特征矩阵 ( V )（维度为 ( n \times k )，每个物品有 ( k ) 个特征）
目标是找到 ( U ) 和 ( V ) 使得它们的乘积 ( UV^T ) 尽可能接近原始评分矩阵 ( R )。

首先，定义预测矩阵为 ( \hat{R} = UV^T )。我们的目标是最小化这个预测矩阵 ( \hat{R} ) 和实际评分矩阵 ( R ) 之间的误差。

误差可以表示为：
[ E = \sum_{(i,j) \in K} (R_{ij} - U_i V_j^T)2 ]
其中：

我们希望通过优化 ( U ) 和 ( V ) 来最小化这个误差。

首先，我们固定物品特征矩阵 ( V )，然后根据评分矩阵 ( R ) 优化用户特征矩阵 ( U )。

对每个用户 ( i )，我们的目标是通过最小化以下的平方误差来计算 ( U_i )：
[ E = \sum_{j \in K_i} (R_{ij} - U_i V_j^T)2 + \lambda | U_i |^2 ]

其中：

为了最小化这个误差，我们可以用最小二乘法来求解 ( U_i ) 的最优值。实际上，这是一个线性回归问题。我们可以把它写成一个矩阵形式的方程：

[ U_i = (V_{K_i}^T V_{K_i} + \lambda I)^{-1} V_{K_i}^T R_i ]

其中：

通过这一步，我们可以得到所有用户的特征向量 ( U_i )。

接下来，我们固定用户特征矩阵 ( U )，对物品特征矩阵 ( V ) 进行优化。这一步的计算过程与第二步类似，只是换成了物品的特征向量。

对每个物品 ( j )，我们最小化以下误差：
[ E = \sum_{i \in K_j} (R_{ij} - U_i V_j^T)2 + \lambda | V_j |^2 ]

这里的 ( K_j ) 是打过分的用户集合，表示哪些用户对物品 ( j ) 进行了评分。

同样，使用最小二乘法，我们可以得到物品特征矩阵 ( V_j ) 的更新公式：
[ V_j = (U_{K_j}^T U_{K_j} + \lambda I)^{-1} U_{K_j}^T R_j ]

其中：

通过这一步，我们可以得到所有物品的特征向量 ( V_j )。

上述的两个步骤（优化 ( U ) 和优化 ( V )）反复进行。每次更新用户矩阵 ( U ) 后，再更新物品矩阵 ( V )，直到误差不再显著减少，也就是收敛。

通过这些步骤，ALS 可以找到合适的用户和物品的特征向量，从而预测用户对未评分物品的评分。

希望这些计算步骤能帮助你更好地理解 ALS 的计算过程！