PCA算法原理：为什么用协方差矩阵原创手记|为什么叫算法_在线学习

PCA是主成分分析(PrincipalComponentsAnalysis)的简称。这是一种数据降维技术，用于数据预处理。一般我们获取的原始数据维度都很高，那么我们可以运用PCA算法降低特征维度。这样不仅可以去除无用的噪声，还能减少很大的计算量。

不过在图像处理上，K-L变换即是PCA变换，两者可以说是没有区别的。(待考证)

1、输入样本矩阵，大小：m*n。每一行为一个n维样本，共m个，如下图：

取第一行为例，它的下标含义是行表示样本序号，列表示样本维度。

2、对样本矩阵进行中心化(取均值)；

3、计算样本的协方差矩阵；

4、计算协方差矩阵的特征值并取出最大的k个特征值所对应的特征向量，构成一个新的矩阵；

若使用matlab的话直接利用函数eig即可求得，若是用python3的话，借助numpy.linalg.eig函数即可。

5、这个矩阵就是我们要求的特征矩阵(也称特征脸)，里面每一列就为样本的一维主成分。把样本矩阵投影到以该矩阵为基的新空间中，便可以将n维数据降低成k维数据。

为了让大家对特征脸有个直观印象，下面将展示提取出来的特征脸结果，略恐怖，注意！（：P）

使用的是ORL人脸库中的实例：共40个人的人脸图片，每人有10张。

从上面PCA的实现步骤可以发现，它的关键步骤便是求出样本协方差矩阵C的特征向量矩阵。可是，为什么要这么做呢？为什么这么做就可以把人脸特征提取出来呢？这是我在学习PCA算法过程中一直思考的问题，经过多方查找资料，对比分析、思考，终于有了一个初步的理解。下面就让我们来一探究竟吧。

上文中提到过，PCA变换其实就是一种降维技术。

什么是降维？降维就是指通过矩阵乘法运算后，把原来的矩阵维度减少。比如

维数减少了，虽然可以大大减少算法的计算量，但是若对基矩阵P选择不当的话就很有可能会导致信息量的缺失。

因此我们要选择哪K个基(这里还不知道是特征向量)才能保证降维后能最大程度保留原有的信息，是进行设计的主方向。

举个例子：假如你有3个人的人脸特征数据，他们均有3个维度：眼睛、鼻子、嘴巴。如果他们鼻子这一维度的数据都是一样的，如下图中，三个人都是大鼻子(方差=0)。那么我们从鼻子这一维度获得的信息量就是为零，因为无法从该维度得知该人脸图像到底属于谁的。

那如果他们鼻子这一维度的数据各不相同，如下图中，三个人分别是大、中、小鼻子(方差很大)。那么我们从鼻子这一维度获得的信息量就很大了，甚至直接用这一个维度就可以识别出是谁的人脸图像。

综上，我们就可以很容易联想到第一个优化目标：降维后各维度的方差尽可能大。

综上所述，

PCA算法的优化目标就是:①降维后同一纬度的方差最大

如下图，根据矩阵的迹的定义：

可以知道优化目标一便是令Cy矩阵的对角线元素之和最大。即maxtr(Cy)

-------------------------------------------------------------------------------------------------------------

知道了目标，接下来就好办，我们要做的就是想尽一切办法去达到我们的优化目标。

下面便是推导过程：

PS：拉格朗日乘子法定义如下

根据：

可以看到，最终求得的结果满足特征向量的关系式，因此由样本矩阵特征向量基矩阵，就是我们要求的变换矩阵。

由该矩阵降维得到的新样本矩阵可以最大程度保留原样本的信息。

至此，问题都已经解决了：信息量保存能力最大的基向量一定是样本矩阵X的协方差矩阵的特征向量，并且这个特征向量保存的信息量就是它对应的特征值的绝对值。这个推导过程就解释了为什么PCA算法要利用样本协方差的特征向量矩阵来降维。我觉得这正是理解PCA算法的关键点，只要理解了这一点，对PCA算法也就基本掌握了，之后要自己编程实现PCA

THE END

PCA算法原理：为什么用协方差矩阵原创手记

社会语境下的算法呈现与公众期待

编程为什么叫算法技术?Worktile社区

什么叫结构化的算法为什么要提倡结构化的算法

算法究竟从何而来？

为什么算法工程师工资那么高？什么是算法？题库

刘东亮：技术性正当程序：人工智能时代程序法和算法的双重变奏

为什么有些算法岗位，需要用C++而不是python？

计算机网络知识点总结20230703.pdf

Resnet图像识别入门——Softmax分类是如何工作的

效率优化三千万倍！快速幂为什么是神？快速幂算法原理和模板

PCA算法原理：为什么用协方差矩阵原创手记