特征值和特征向量可能是线性代数中最主要 的看法之一。从机械学习、量子盘算、物理到许多数学和工程的问题,都可以通过找到一个矩阵的特征值和特征向量来解决。
凭证 界说(标量λ、向量v是特征值、特征向量A):
视觉上,Av与特征向量v位于统一 直线上。
这里有些例子。
然而,Ax通常不会即是λx。只有一些特殊的向量知足 条件。
应用许多问题可以用线性变换建模,其中解决方案来自特征值和特征向量。让我们先用一个抽象的例子来详细说明这个问题。在许多系统中,我们可以在向量中表达属性,其转变 率线性地取决于当前属性(例如,生齿 增添 率线性地取决于当前生齿 和GDP)。一样平常 等式是
我们来猜一下知足 上面方程的u(t)。由于 一个指数函数的导数即是它自己,我们从一个t的指数函数最先 然后乘以一个向量x,输出就是一个向量。
凭证 上面的盘算,u(t)的解是
接下来,我们将找到它的完全解。一阶导数方程是一个线性函数。
对于线性函数,完全解是特定解的线性组合。若是 u和v是解,则C₁u + C₂v也是解。从我们之前的特征值λ= 4,-2和-2的例子中,完全解将是
在t = 0时,我们可以丈量初始状态u(0),好比说[u₀₁,u₀₂,u₀₃]ᵀ,并求解常数C₁,C₂,C₃。
让我们用谐振子来说明这个想法。我们选择这个例子是由于 谐波振荡器及其近亲(量子谐振子)在研究粒子物理学,量子力学或物理学方面险些无处不在。我们从著名的F=ma方程最先 用特征值和特征向量来解二阶导数。由于我们确实可以自由选择质量单元,物理学家通常设m = 1来简化讨论,即
我们把谐振子问题重新写成矩阵的形式。
阻尼谐振子
这与我们上一个例子的形式相同,因此,我们可以使用A的特征值和特征向量来形成完全解。
这不是一个证实 特征值能力的伶仃例子。著名的定态(time-independent)薛定谔方程用特征值和特征向量体现。所有视察到的属性都是通过量子力学中的特征值建模的。尚有 许多其他的例子,包罗机械学习。
从基础上说,许多系统都可以建模为
让我们再研究时间序列模子 。
首先,我们假设初始状态u 0是A的特征向量。因此,未来状态可以盘算为
简而言之,我们可以通过用标量的幂取代矩阵(Aᵏ)的幂来简化盘算。 接下来,思量 A具有n个线性自力 的特征向量,它们组成Rⁿ的basis 。 我们可以将Rⁿ的任何向量剖析为该basis,并通过再次盘算特征值的幂来简化盘算。
让我们简化讨论,假设整个互联网只包罗三个网页。矩阵A的元素Aᵢⱼ是当用户在页面j上时用户去页面i的概率。
若是 我们总结给定特定页面的下一页的所有可能性,它即是1。因此,A的所有列总和为1.0,这种矩阵称为随机矩阵(转移矩阵或马尔可夫矩阵)。
马尔可夫矩阵具有一些主要 的性子 。Ax或Aᵏx的效果 总是其列相加的和为1。此效果 体现每次点击后划分位于第1,2和3页的可能性。以是 很显着 它的和应该是1。
任何马尔可夫矩阵A的特征值都是1,其他特征值(正或负)的绝对值都小于1。这种行为很是主要 。在我们的例子中,
对于马尔可夫矩阵,我们可以选择λ= 1的特征向量,使元素总和到达1.0。 元素总和为1的向量v也可以使用A的特征向量举行 剖析,其中c 1即是1。
由于u 1,u 2,...和un是特征向量,以是 Aᵏ可以用λᵏ取代。除了特征值λ= 1之外,马尔可夫矩阵的特征值(λᵏ)的幂将减小,由于 这些特征值的绝对值小于1。 因此,无论初始状态怎样 ,系统都到达靠近 特征向量u 1的稳态。 Aᵏ和稳态都可以从特征向量u 1导出,如下所示。
在我们的例子中,我们到达第1、2和3页的概率划分是0.41、0.34和0.44。这个看法有许多潜在的应用。许多问题可以用马尔可夫历程和马尔可夫/转移矩阵来建模。
马尔可夫历程和转移矩阵
PageRank以谷歌团结 首创人拉里佩奇命名的PageRanking算法也有类似的看法。它是第一个谷歌搜索排名算法,纵然它现在经由 大量修改,增添 了排名算法,以改善用户体验并阻止 人们使用 系统。 焦点看法可视化如下。PageRanking通过跟踪到其他页面的Web链接,输出您在随机游走后可能点击页面的概率漫衍。该概率充当网页的排名。当许多页面链接到您的网页时,谷歌会将它排序更高,由于 链接到网页的页面数目 是其受接待水平的指标。 这意味着在随机游走中点击页面的时机。
从看法上讲,我们盘算一个页面排名,它即是链接到这个页面的其他页面排名的总和,除以经由 某种归一化后的出站页面总数。
我们迭代地执行盘算,直到它到达稳态。在数学上,PageRank实验在以下等式中求解PageRank R.
这与我们之前讨论的例子有很大的相似之处,若是 我们忽略阻尼因子d。引入这个因子是由于 随机游走不会永远一连 。
对于Google,他们不直接盘算特征向量。在我们前面的例子中,A的幂收敛得很快,A3的列已经收敛到本征向量u 1 。
PageRank论文证实 ,有3.22亿个页面链接,该解决方案在52次迭代中收敛到一个可容忍的极限。
马尔可夫矩阵使我们获得下面的方程,其中稳态依赖于一个主因素 。
在机械学习中,信息与原始数据纠缠在一起。 在数学上,特征值和特征向量提供了识别它们的要领。 特征向量识别因素 ,特征值量化其主要 性。 下面的等式将A中的信息剖析为因素 。 我们可以基于特征值的平方根对它们举行 优先级排序,并忽略具有小α值的项。 这样可以降低噪声并资助我们在A中提取焦点信息。
希望你现在可以看到Ax =λx的美感。 特征值和特征向量可以通过求解(A-λI)v = 0来盘算。对于Ax =λx,对于v = 0以外的解,矩阵(A-λI)是不行逆的。 即它是单数的。 即它的行列式是零。 det(A - λI)= 0称为特征多项式。 特征值是该多项式的根。
例
特征值是:
应用Av =λv:
让我们通过一个更重大 的例子详细说明这一步骤,
要找到特征值λ,
16的可能因数是1 2 4 8 16。
让我们盘算特征值λ= 4的特征向量,通过镌汰 行。
我们有三个变量,有2个方程。我们将x 3恣意 设置为1并盘算其他两个变量。因此,对于λ= 4,特征向量是:
我们重复盘算λ= -2并获得
通过3个变量和1个方程,我们的解决方案中有2个自由度。让我们在与其他(多个)时间设定为1〜自由之一的一个度为0而设定为X 2 = 1时,X 3 = 0,和X 2 = 0,X 3 = 1脱离 ,所盘算出的特征向量是:
有3个变量和1个方程,解有2个自由度。让我们一次把一个自由度设为1,另一个自由度设为0。 即设置x 2 = 1,x 3 = 0,x 2 = 0,x 3 = 1,盘算出的特征向量为:
请注重 ,特征值和特征向量的解集不是唯一的。我们可以重新缩放特征向量。我们还可以为上面的x 2,x 3设置差异的值。因此,选择我们的特征向量以知足 某些条件是可能的,也是可取的。例如,对于对称矩阵,总是可以选择具有单元长度而且相互正交的特征向量。
在我们的例子中,我们有一个重复的特征值“-2”。它天生 两个差异的特征向量。然而,情形 并非总是云云 - 有些情形 下重复的特征值不具有多个特征向量。
对角化假设矩阵A具有两个特征值和特征向量。
我们可以将它们毗连 在一起并以矩阵形式重写方程式。
我们可以将它推广到恣意 数目 的特征向量:
其中V毗连 所有特征向量,Λ(λ的大写字母)是包罗特征值的对角矩阵。
矩阵A一个是可对角化的(若是 我们可以把它转换成一个对角矩阵),
即
若是 n×n矩阵具有n个线性自力 的特征向量,则它是可对角化的。若是 矩阵是对称的,则它是可对角化的。若是 矩阵没有重复的特征值,它总是天生 足够的特征向量来对向量举行 对角化。若是 没有,则无法保证。
特征剖析若是 A是一个具有N个线性自力 特征向量的矩形矩阵(v 1,v 2,...&vn和响应 的特征值λ1,λ2,...和λn),我们可以重新排列
成
例如,
由于 很难看到凌驾3个维度的任何工具。 此处的示例保留2维。 假设v 1和v 2是2×2矩阵A的线性无关特征向量。任何向量都可以在v 1和v 2偏向上剖析为components 。 当我们将A与特征向量相乘时,效果 在特征向量的统一 条线上。 若是 特征值为正,则它将向量按特征值在相同偏向上缩放。 否则,它会向相反偏向缩放向量。
因此,对于下面红色单元圆上的所有点,都将转换为椭圆上的点。可是 对于非特征向量,它不会在原向量的统一 条直线上。当我们继续将效果 与A相乘时,效果 会更靠近 特征向量。
在这种可视化中有一件很是主要 的事情。变换后的单元向量(Ax)的最大范数(长度)小于或即是最大特征值。另一方面,范数大于或即是最小特征值,即
事实上,这可以很容易地在下面看到。
目的 或成本函数通常以xᵀAx的二次形式体现。假设m×n矩阵A保持n个主体的属性。AAᵀ保持这些属性之间的关系,这个矩阵S是对称的。
特征值和特征向量可以资助我们改变差异偏向的特征。具有最大值的特征向量向我们显示这些属性之间的相关性。这些看法可以在SVD和PCA看到。