白化的原理:
随机向量的“零均值化”和“空间解相关”(也叫白化)是最常用的两个预处理过程,其中“零均值化”比较简单,而“空间解相关”涉及一些矩阵的知识。
设有均值为零的随机信号向量 x ,其自相关矩阵为
Rx=E[xxT] ≠ I
很明显, Rx 是对称矩阵,且是非负定的(所有特征值都大于或等于0)。
现在,寻找一个线性变换 B 对 x 进行变换,即 y = Bx ,使得
Ry= B E[xxT]BT= I
上式的含义是:y的各分量是不相关的,即 E[yi yj]=δ ij 。通常将这个过程称为“空间解相关”、“空间白化”或“球化”。 B称为空间解相关矩阵(空间白化矩阵、球化矩阵)。
由 Rx 的性质可知,其存在特征值分解:
Rx = Q Σ QT
Q是正交矩阵, Σ 是对角矩阵,其对角元素是 Rx 特征值。
令
B = Σ −1/2QT (1)
则有
Ry =(Σ −1/2 QT ) Q Σ QT(Σ −1/2 QT) T = I
因此,通过矩阵 B 线性变换后, y 的各个分量变得不相关了。
对于 Rx 来说,特征值分解和奇异值分解是等价的,而奇异值分解的数值算法比特征值分解的数值算法具有更好的稳定性,因此一般都用奇异值分解来构造白化矩阵 B 。
术语“白”来自于白噪声的能谱在所有频率上是一个常数这一事实,就像含有各种颜色的白光谱一样。白化的本质就是去相关加缩放。从上述原理可以看出,白化的过程跟PCA是一样的