机械学习模子 中常会涉及到盘算两个样本间的距离,常用的盘算距离尺度有欧氏距离和马氏距离。
(1) 欧氏距离
局限性:
(a) 若是 各变量的单元不全相同,则上述欧氏距离是没有意义的。例如,好比第一个分量体现身高,第二个分量体现体重,…,最后一个分量体现年岁 。好比第二个分量单元使用公斤照旧克所起作用完全纷歧样,求出的欧式距离没有现实 意义。
(b) 纵然单元全相同,但若是 各分量的变异性差异很大,则变异性大的分量在欧氏距离的平方和中起着决议 性的作用,而变异性小的分量却险些不起什么作用。
好比下面是各国家和地域男子径赛纪录的数据:

首先把秒和分统一为秒或分单元,再盘算国家之间的平方欧氏距离时,直观上算出的距离值主要取决于马拉松这个变量,由于 马拉松数据特殊 重大 ,这样国家之间算出的差异主要取决于马拉松这个效果 ,显然是不合理的。
一个直观的想法是在盘算平方欧氏距离前,先对这8个变量做一下尺度化的变换,由于 式中平方和中每一项都是随机变量,因而应在平均的意义上来看每一项所起作用巨细,即其数据期望,其数据期望等价为方差,因此在平方和中每一项所起的平均作用巨细取决于其方差,方差越大其所起的平均作用越大。

若是 对各分量都作尺度化变换,则各分量方差同为1且均值为0,于是:平方和中各分量所起的平均作用都一样,若是 各分量的单元不全相同,则尺度化可不受单元差异的影响。尺度化历程如下:

注:对于对角矩阵,所有基向量都是特征向量,对角元素就是所属的特征值。

式可得特征值和特征向量如下:


在现实 应用中,为了消除单元的影响和均等地看待每一分量,我们常须先对各分量作尺度化变换,然后再盘算欧氏距离。例如判断图中两个外点哪个更离群?上边点

增补1:协方差矩阵、相关矩阵和尺度差矩阵知识


对协方差矩阵举行 对角化这个历程可以将相关的随机变量转变为不相关的,而且若是 是高斯的情形 ,还可以将相关的随机变量转换为自力 的。
注:两个自力 的随机向量一定不相关,但两个不相关的随机向量未必自力 。
增补2:线性变换、特征向量和特征值
线性变换的两种明确 方式
将基向量转变 后的位置视为矩阵的列,也就是新的基向量【依赖于坐标系】使用 特征向量和特征值明确 线性变换,不依赖于坐标系的选择。
特征值与特征向量
特征向量:一个向量经由 线性变换,仍留在它所张成的空间中
特征值:形貌 特征向量经由 线性变换后的缩放水平
用线性无关的特征向量来完成这件事情的意义在于:最终变换的矩阵一定是对角矩阵,且对角元就是对应的特征值。这是由于 它处坐标系的基向量在变换中仅仅举行 了缩放。
(2) 马氏距离
欧氏距离经变量的尺度化之后能够消除各变量的单元或方差差异的影响,但不能消除变量之间相关性的影响。



参考文献
[1] 应用多元统计剖析 王学民著
[2] 适用 多元统计剖析 陆璇和叶俊译
[3] 概率、统计与随机历程罗鹏飞译
[4]Pattern Recognition and Machine Learning(PRML)author:Christopher M. Bishop