去相关与白化

news/2024/11/28 0:03:00/

去相关与白化

decorrelation and whitening

最近在看NLP对比学习的东西,对比学习生成句嵌入向量表示,然后针对句嵌入向量进行去相关和白化操作,会提高句向量在下游任务上的表现吗

一般我们使用一个embedding表现一个事物时,都可以将其每一个维度数值,看作物体其中一个属性的值,而一般情况下,embedding各维度的attributes是有一定相关性的,所以就导致了信息冗余现象。去相关则是通过embedding相关矩阵,进行对角化得到对角矩阵,使得embedding各维attributes降低相关,可以减少embedding维度,去除信息冗余。

然后进行的方差归一化过程,被称为白化

去相关 decorrelation

数据集X,共m个样本,其中样本x为n维向量,首先将这n个feature减去各自均值得到一个均值为0的数据集,可以得到协方差矩阵C。

在这里插入图片描述

然后对C进行特征值分解
C = U V U T C=UVU^T C=UVUT
其中V为对角矩阵,U为特征矩阵,去相关后数据y表示为
y = U − 1 x y=U^{-1}x y=U1x
到此完成了去相关操作

白化 whitening

去相关后数据集任意两个attributes之间线性无关,但其方差并不相等,将V全部置于1的过程就是白化。
W = V 1 / 2 U − 1 x W=V^{1/2}U^{-1}x W=V1/2U1x
白化后,可以去掉最后几个几乎无信息的attribute,去除冗余信息。

参考

  1. 去相关与白化(decorrelation and whitening) - 知乎 (zhihu.com)

http://www.ppmy.cn/news/665850.html

相关文章

图像处理中的白化处理

先看下wiki上关于whiten transformation的介绍,简言之就是:把具有协方差的变量转换为协方差为单位矩阵的变量,即转换后,变量间不相关,且方差为1。之所以称之为whiten,是由于该处理将输入向量转换为白噪声向…

数据白化讲解--防迷路,通过博客收藏 内藏代码

在CC的系统芯片中都有数据白化功能.whiting的中文件直译为白化,真实的意思应该是数据加噪. 白化处理主要是为了避免在传输过程中出现过长的连续0或1的位流模式。基带处理器需要从接收到的模拟数据信号中判断数据是0还是1,但过长的连续0或1位流会造成问题。因为在接收…

矩阵白化原理及推导

在看CSP算法时,发现用到了矩阵白化,所以在这里记录一下。 以下内容来自:【数学】矩阵白化原理及推导; 矩阵白化 矩阵白化 矩阵白化目的矩阵白化推导示意代码秩亏缺矩阵的白化白化与PCA参考文章 矩阵白化目的 如对于任意一个矩阵 …

图像白化处理

1.白化处理的作用 图像白化(whitening)可用于对过度曝光或低曝光的图片进行处理,减少光线对数据的动态影响,下图所示,左图是过分曝光,右图是白化后的结果; 2.白化处理的原理 处理的方式就是将图…

matlab 矩阵白化,白化(预处理步骤)【转】

介绍 我们已经了解了如何使用PCA降低数据维度。在一些算法中还需要一个与之相关的预处理步骤,这个预处理过程称为白化。举例来说,假设训练数据是图像,由于图像中相邻像素之间具有很强的相关性,所以用于训练时输入是冗余的。白化的…

白化滤波器 matlab,白化滤波器-matlab-程序.doc

随机信号分析实验 PAGE 3 - 白化滤波器 原理 在统计信号处理中,往往会遇到等待处理的随机信号是非白色的,例如云雨、海浪、地物反射的杂乱回波等,它们的功率谱即使在信号通带内也非均匀分布。这样会给问题的解决带来困难。克服这一困难的措施之一是对色噪声进行白化处理。主…

PCA白化

直接上代码! % pca和白化 function features_pca_white pca_and_whiting(feature,a)featureszscore(feature);[~,score,~] pca(features);features_pca score(:,1:a);xfeatures_pca;sigma(x*x)/size(x,2);[u,s,~]svd(sigma);xRot zeros(size(x));xRotu*x;epsi…

白化操作

白化whitening 原文地址: http://blog.csdn.net/hjimce/article/details/50864602 一、相关理论 白化这个词,可能在深度学习领域比较常遇到,挺起来就是高大上的名词,然而其实白化是一个比PCA稍微高级一点的算法而已,所以如果熟悉PCA,那么其实会发现这是一个非常简单…