发霉的被子长小红点，发霉的被子洗不干净还能用吗-鹊肤霖去鸡皮肤方法

许多机械学习算法的重大度和数据的维数有着亲近关系，甚至与维数呈指数级关联，因此数据降维是数据挖掘绕不开的步骤。

降维一样平常可能会导致信息的丢失，不外鉴于现实数据自己经常存在的相关性，我们可以想措施在降维的同时将信息的损失只管降低。一样平常使用两种要领：

1.特征选择是从特征中选择其中的一个子集来作为新的特征。最佳子集是以最少的维孝顺最大的准确率，扬弃不主要的维度。

2.特征提取是指将高纬度的特征经由某个函数映射至低纬度作为新的特征。

常用的特征抽取要领就是PCA（主因素剖析）。

1，PCA的作用

PCA 用于对一组一连正交分量中的多变量数据集举行方差最大偏向的剖析。是一种常用的线性降维数据剖析要领，着实质是在能尽可能好的代表原特征的情形下，将原特征举行线性变换、映射至低纬度空间中。也就是将n维特征映射到k维空间上kn，这k维特征是线性无关的。

注重：这是重新结构出来的k维特征，而不是简朴地从n维特征中去除其余n−k维特征，由于有可能是某些新特征可能是几个原特征经由变换而来的；这也是特征选择和特征提取的基础区别。

2，PCA的数学原理

数据降维使用到矩阵变换，若是要想搞清晰，可能需要回去翻高等代数了，可是课本上讲的又艰涩难明，不太友好。幸好，无意间发现了一篇文章以精练的形式表述了矩阵变换背后的数学原理。

参考如下：http://blog.codinglabs.org/articles/pca-tutorial.html

2.1我们先从向量提及

2.1.1內积和投影

在高中的时间我们就学过向量的內积，界说如下：

(a1,a2,a3,…,an)*( b1,b2,b3,…,bn)= a1b1+a2b2+……+anbn

内积运算将两个向量映射为一个实数, 我们剖析内积的几何意义。假设A和B是两个n维向量，我们知道n维向量可以等价体现为n维空间中的一条从原点发射的有向线段，为了简朴起见我们假设A和B均为二维向量，则

则在二维平面上A和B可以用两条发自原点的有向线段体现，见下图：

我们从A点向B所在直线引一条垂线。我们知道垂线与B的交点叫做A在B上的投影，再设A与B的夹角是a，则投影的矢量长度为

，其中

是向量A的模，也就是A线段的标量长度。

注：标量长度总是大于即是0，值就是线段的长度；而矢量长度可能为负，其绝对值是线段长度，而符号取决于其偏向与尺度偏向相同或相反。

到这里照旧看不出内积和这工具有什么关系，不外若是我们将内积体现为另一种我们熟悉的形式：

现在事情似乎是有点眉目了：A与B的内积即是A到B的投影长度乘以B的模。再进一步，若是我们假设B的模为1，即让|B|=1|B|=1，那么就酿成了：

也就是说，设向量B的模为1，则A与B的内积值即是A向B所在直线投影的矢量长度！这就是内积的一种几何诠释

2.1.2基坐标

如上图，我们一样平常说这个向量体现为（3,2），着实这样说也对也差池，更准确的说是，这个向量是以x轴和y轴上正偏向而且长度为1的向量为基准的向量，也就是说，在这个基坐标下，这个向量才体现为（3,2），它在x轴投影为3而y轴的投影为2。注重投影是一个矢量，以是可以为负。

更正式的说，向量(x,y)现实上体现线性组合：x(1,0)+y(0,1)。

此处(1,0)和(0,1)叫做二维空间中的一组基坐标。

以是，要准确形貌向量，首先要确定一组基，然后给出在基所在的各个直线上的投影值，就可以了。只不外我们经常省略第一步，而默认以(1,0)和(0,1)为基。

例如，(1,1)和(-1,1)也可以成为一组基。一样平常来说，我们希望基的模是1，由于从内积的意义可以看到，若是基的模是1，那么就可以利便的用向量点乘基而直接获得其在新基上的坐标了！现实上，对应任何一个向量我们总可以找到其同偏向上模为1的向量，只要让两个分量划分除以模就好了。例如，上面的基可以变为

现在，我们想获得(3,2)在新基上的坐标，即在两个偏向上的投影矢量值，那么凭证内积的几何意义，我们只要划分盘算(3,2)和两个基的内积，不难获得新的坐标为

这里要注重的是，我们枚举的例子中基是正交的（即内积为0，或直观说相互垂直），但可以成为一组基的唯一要求就是线性无关，非正交的基也是可以的。不外由于正交基有较好的性子，以是一样平常使用的基都是正交的。

2.1.3基变换的矩阵体现

下面我们找一种轻盈的方式来体现基变换。照旧拿上面的例子，想一下，将(3,2)变换为新基上的坐标，就是用(3,2)与第一个基做内积运算，作为第一个新的坐标分量，然后用(3,2)与第二个基做内积运算，作为第二个新坐标的分量。现实上，我们可以用矩阵相乘的形式精练的体现这个变换：

其中矩阵的两行划分为两个基，乘以原向量，其效果恰恰为新基的坐标。可以稍微推广一下，若是我们有m个二维向量，只要将二维向量按列排成一个两行m列矩阵，然后用"基矩阵"乘以这个矩阵，就获得了所有这些向量在新基下的值。例如(1,1)，(2,2)，(3,3)，想变换到适才那组基上，则可以这样体现：

于是一组向量的基变换被清洁的体现为矩阵的相乘。

一样平常的，若是我们有M个N维向量，想将其变换为由M个R维向量体现的新空间中（RN），那么首先将R个基按行组成矩阵A，然后将向量按列组成矩阵B，那么两矩阵的乘积AB就是变换效果，其中AB的第m列为A中第m列变换后的效果。

数学体现为：

其中Pi是一个行向量，体现第i个基，aj是一个列向量，体现第j个原始数据纪录。

特殊要注重的是，R决议了变换后数据的维数。也就是说，我们可以将N维数据变换到更低维度的空间中去，变换后的维度取决于基的数目。因此这种矩阵相乘的体现也可以体现降维变换。

最后，上述剖析同时给矩阵相乘找到了一种物明确释：两个矩阵相乘的意义是将右边矩阵中的每一列列向量变换到左边矩阵中每一行行向量为基所体现的空间中去。更抽象的说，一个矩阵可以体现一种线性变换。许多同砚在学线性代数时对矩阵相乘的要领感应希奇，可是若是明确了矩阵相乘的物理意义，其合理性就一目了然了。

2.2 优化目的

上面我们讨论了选择差异的基可以对同样一组数据给出差异的体现，而且若是基的数目少于向量自己的维数，则可以到达降维的效果。可是我们还没有回覆一个最最要害的问题：怎样选择基才是最优的。或者说，若是我们有一组N维向量，现在要将其降到K维（K小于N），那么我们应该怎样选择K个基才气最洪流平保留原有的信息？

要完全数学化这个问题很是繁杂，这里我们用一种非形式化的直观要领来看这个问题。

为了阻止过于抽象的讨论，我们仍以一个详细的例子睁开。假设我们的数据由五条纪录组成，将它们体现成矩阵形式：

其中每一列为一条数据纪录，而一行为一个字段。为了后续处置赏罚利便，我们首先将每个字段内所有值都减去字段均值，其效果是将每个字段都变为均值为0（这样做的原理和利益后面会看到）。

我们看上面的数据，第一个字段均值为2，第二个字段均值为3，以是变换后：

我们可以看下五条数据在平面直角坐标系内的样子：

现在问题来了：若是我们必须使用一维来体现这些数据，又希望只管保留原始的信息，你要怎样选择？

通过上一节对基变换的讨论我们知道，这个问题现实上是要在二维平面中选择一个偏向，将所有数据都投影到这个偏向所在直线上，用投影值体现原始纪录。这是一个现实的二维降到一维的问题。

那么怎样选择这个偏向（或者说基）才气只管保留最多的原始信息呢？一种直观的看法是：希望投影后的投影值尽可能疏散。

以上图为例，可以看出若是向x轴投影，那么最左边的两个点会重叠在一起，中央的两个点也会重叠在一起，于是自己四个各不相同的二维点投影后只剩下两个差异的值了，这是一种严重的信息丢失，同理，若是向y轴投影最上面的两个点和漫衍在x轴上的两个点也会重叠。以是看来x和y轴都不是最好的投影选择。我们直观目测，若是向通过第一象限和第三象限的斜线投影，则五个点在投影后照旧可以区分的。

下面，我们用数学要领表述这个问题。

2.3 方差

上文说到，我们希望投影后投影值尽可能疏散，而这种疏散水平，可以用数学上的方差来表述。此处，一个字段的方差可以看做是每个元素与字段均值的差的平方和的均值，即：

由于上面我们已经将每个字段的均值都化为0了，因此方差可以直接用每个元素的平方和除以元素个数体现：

于是上面的问题被形式化表述为：寻找一个一维基，使得所有数据变换为这个基上的坐标体现后，方差值最大。

2.4 协方差

对于上面二维降成一维的问题来说，找到谁人使得方差最大的偏向就可以了。不外对于更高维，尚有一个问题需要解决。思量三维降到二维问题。与之前相同，首先我们希望找到一个偏向使得投影后方差最大，这样就完成了第一个偏向的选择，继而我们选择第二个投影偏向。

若是我们照旧单纯只选择方差最大的偏向，很显着，这个偏向与第一个偏向应该是"险些重合在一起"，显然这样的维度是没有用的，因此，应该有其他约束条件。从直观上说，让两个字段尽可能体现更多的原始信息，我们是不希望它们之间存在（线性）相关性的，由于相关性意味着两个字段不是完全自力，一定存在重复体现的信息。

数学上可以用两个字段的协方差体现其相关性，由于已经让每个字段均值为0，则：

可以看到，在字段均值为0的情形下，两个字段的协方差精练的体现为其内积除以元素数m。

当协方差为0时，体现两个字段完全自力。为了让协方差为0，我们选择第二个基时只能在与第一个基正交的偏向上选择。因此最终选择的两个偏向一定是正交的。

至此，我们获得了降维问题的优化目的：将一组N维向量降为K维（K大于0，小于N），其目的是选择K个单元（模为1）正交基，使得原始数据变换到这组基上后，各字段两两间协方差为0，而字段的方差则尽可能大（在正交的约束下，取最大的K个方差）。

2.5 协方差矩阵

上面我们导出了优化目的，可是这个目的似乎不能直接作为操作指南（或者说算法），由于它只说要什么，但基础没有说怎么做。以是我们要继续在数学上研究盘算方案。

我们看到，最终要到达的目的与字段内方差及字段间协方差有亲近关系。因此我们希望能将两者统一体现，仔细视察发现，两者均可以体现为内积的形式，而内积又与矩阵相乘亲近相关。于是我们来了灵感：

假设我们只有a和b两个字段，那么我们将它们按行组成矩阵X：

然后我们用X乘以X的转置，并乘上系数1/m：

事业泛起了！这个矩阵对角线上的两个元素划分是两个字段的方差，而其它元素是a和b的协方差。两者被统一到了一个矩阵的。

凭证矩阵相乘的运算规则，这个结论很容易被推广到一样平常情形：

设我们有m个n维数据纪录，将其按列排成n乘m的矩阵X，设

，则C是一个对称矩阵，其对角线划分个各个字段的方差，而第i行j列和j行i列元素相同，体现i和j两个字段的协方差。

2.6 协方差矩阵对角化

凭证上述推导，我们发现要到达优化现在，等价于将协方差矩阵对角化：即除对角线外的其它元素化为0，而且在对角线上将元素按巨细从上到下排列，这样我们就到达了优化目的。这样说可能还不是很明晰，我们进一步看下原矩阵与基变换后矩阵协方差矩阵的关系：

设原始数据矩阵X对应的协方差矩阵为C，而P是一组基按行组成的矩阵，设Y=PX，则Y为X对P做基变换后的数据。设Y的协方差矩阵为D，我们推导一下D与C的关系：

现在事情很明确了！我们要找的P不是此外，而是能让原始协方差矩阵对角化的P。换句话说，优化目的酿成了寻找一个矩阵P，知足

是一个对角矩阵，而且对角元素按从大到小依次排列，那么P的前K行就是要寻找的基，用P的前K行组成的矩阵乘以X就使得X从N维降到了K维并知足上述优化条件

现在所有焦点都聚焦在了协方差矩阵对角化问题上，有时，我们真应该谢谢数学家的先行，由于矩阵对角化在线性代数领域已经属于被玩烂了的工具，以是这在数学上基础不是问题。

由上文知道，协方差矩阵C是一个是对称矩阵，在线性代数上，实对称矩阵有一系列很是好的性子：

1）实对称矩阵差异特征值对应的特征向量一定正交。

2）设特征向量λ重数为r，则一定存在r个线性无关的特征向量对应于λ，因此可以将这r个特征向量单元正交化。

由上面两条可知，一个n行n列的实对称矩阵一定可以找到n个单元正交特征向量，设这n个特征向量为

我们将其按列组成矩阵：

则对协方差矩阵C有如下结论：

其中Λ为对角矩阵，其对角元素为各特征向量对应的特征值（可能有重复）。

以上结论不再给出严酷的数学证实，对质明感兴趣的朋侪可以参考线性代数书籍关于"实对称矩阵对角化"的内容。

到这里，我们发现我们已经找到了需要的矩阵P：

P是协方差矩阵的特征向量单元化后按行排列出的矩阵，其中每一行都是C的一个特征向量。若是设P凭证 Λ中特征值的从大到小，将特征向量从上到下排列，则用P的前K行组成的矩阵乘以原始数据矩阵X，就获得了我们需要的降维后的数据矩阵Y。

2.7 算法历程及实例

总结一下PCA的算法步骤：

设有m条n维数据。

1）将原始数据按列组成n行m列矩阵X

2）将X的每一行（代表一个属性字段）举行零均值化，即减去这一行的均值

3）求出协方差矩阵

4）求出协方差矩阵的特征值及对应的特征向量

5）将特征向量按对应特征值巨细从上到下按行排列成矩阵，取前k行组成矩阵P

6）Y=PX 即为降维到k维后的数据

这里以上文提到的

为例，我们用PCA要领将这组二维数据其降到一维。

由于这个矩阵的每行已经是零均值，这里我们直接求协方差矩阵：

然后求其特征值和特征向量，详细求解要领不再详述，可以参考相关资料。求解后特征值为：

其对应的特征向量划分是：

其中对应的特征向量划分是一个通解，c1和c2可取恣意实数。那么尺度化后的特征向量为：

因此我们的矩阵P是：

可以验证协方差矩阵C的对角化：

最后我们用P的第一行乘以数据矩阵，就获得了降维后的体现：

降维投影效果如下图：

3 进一步讨论

PCA本质上是将方差最大的偏向作为主要特征，而且在各个正交偏向上将数据"离相关"，也就是让它们在差异正交偏向上没有相关性。

它是无监视学习，完全无参数限制的。在PCA的盘算历程中完全不需要人为的设定参数或是凭证任何履历模子对盘算举行干预，最后的效果只与数据相关。

用PCA手艺可以对数据举行降维，同时对求出的主因素向量的主要性举行排序，可以到达降维从而简化模子，同时最洪流平的保持了原有数据的信息。

PCA工具很是有用, 但对大型数据集有一定的限制。最大的限制是PCA仅支持批处置赏罚，这意味着所有要处置赏罚的数据必须适合主内存。当要剖析的数据集太大而无法装入内存时，通常使用增量主因素剖析 (IPCA)取代主因素剖析 (PCA)。

IPC工具使用差异的处置赏罚形式使之允许部门盘算，这一形式险些和以小型批处置赏罚方式处置赏罚数据的要领完全匹配；IPCA使用与输入数据样本数目无关的内存量，为输入数据建设低秩近似。它仍然依赖于输入数据特征，可是更改批处置赏罚巨细允许控制内存使用。这就是为什么内存使用取决于每个批次的样本数，而不是数据集中要处置赏罚的样本数。

云云繁琐的盘算历程，仅仅看一遍就有点眼花缭乱了，不外还好，python已经为我们提供了PCA算法模块，在 scikit-learn中，PCA被实现为一个变换工具，通过 fit要领可以降维成 n 个因素，而且可以将新的数据剖析到这些因素中。