对称矩阵是沿对角线对称的矩阵。它是一个自伴算子(self-adjoint operator)(把矩阵看作是一个算子并研究其性子 确实是一件大事)。虽然我们不能直接从对称性中读出几何属性,但我们可以从对称矩阵的特征向量中找到最直观的诠释 ,这将使我们对对称矩阵有更深入的相识 。
常见的例子是单元矩阵。一个主要 的例子是:
对称矩阵的一个例子然而,虽然界说简朴如斯,但却意义特殊。在这篇文章中,我们将看一看它们的主要 属性,直观地诠释 它们,并先容 其应用。
厄米特矩阵(The Hermitian matrix)是对称矩阵的复扩展,这意味着在厄米特矩阵中,所有元素都知足 :
厄米特矩阵的共轭转置与自身相同。因此,它具有对称矩阵所具有的所有性子 。
厄米特矩阵的一个例子在这篇文章中,我主要讨论的是实数情形 ,即对称矩阵,以使剖析 变得简朴一些,同时在数据科学中,我们遇到的也多数是实矩阵,由于 我们要处置赏罚 现实天下 的问题。
对称矩阵的最主要 的性子本节将先容 对称矩阵的三个最主要 的性子 。它们涉及这些矩阵的特征值和特征向量的行为,这是区别对称矩阵和非对称矩阵的基本特征。
性子 1. 对称矩阵有实数特征值
这可以很容易地用代数法证实 (正式的、直接的证实 ,而不是归纳法、矛盾法等)。首先,快速回首一下特征值和特征向量。
矩阵A的特征向量是,在A作用于它之后,偏向稳固 的向量。偏向没有改变,但向量巨细可以改变。实数特征值给我们提供了线性变换中的拉伸或缩放信息,不像复数特征值,它没有 "巨细"。向量被缩放的比例是特征值,我们用λ体现。因此我们有:
式1.1证实 是相当容易的,但有一些主要 的线性代数知识,以是 我们照旧要一步一步地来。
1.1通过x的共轭转置xᴴ获得:
式1.2需要注重 的是,λ是一个标量,这意味着涉及λ的乘法是可交流的。因此,我们可以把它移到xᴴ(x的转置,上标H可能不显示)的左边:
式1.3xᴴx是一个欧几里得范数( Euclidean norm),其界说如下:
公式1.4在二维欧几里得空间中,它是一个坐标为(x_1,...,x_n)的向量的长度。然后我们可以把公式1.3写成:
公式1.5由于共轭转置(算子H)与通俗 转置(算子T)的原理相同,我们可以使用 xᴴA=(Ax)ᴴ的特征 。
公式1.6(Ax)ᴴ即是什么?这里我们将再次使用Ax = λx的关系,但这次(Ax)ᴴ将留给λ的复共轭,在λ上加一横体现共轭。
式1.7我们在式1.3中见过xᴴx,代欧几里得范数后获得:
式1.8这导致了λ和它的复共轭相等:
式1.9只有在一种情形 下,式1.9才有用 ,即λ是实数。这样一来,我们就完成了证实 。
性子 2. 特征值所对应的特征向量是正交的
这个证实 也是一个直接的形式证实 ,但很简朴。首先我们需要清晰 目的 ,即:
式1.10思量 一个对称矩阵A,x_1和x_2是A的特征向量,对应于差异的特征向量(我们需要这个条件的缘故原由 将在稍后诠释 )。凭证 特征值和对称矩阵的界说,我们可以获得以下公式:
式1.11和式1.12现在我们需要证实 式1.10。让我们试着把x_1和x_2放在一起-。在左边用 (Ax₁)ᵀ乘以x₁ᵀ:
式1.13在式1.13中,除了对称矩阵的特征 外,还用到了另外两个事实。
矩阵乘法切合团结 律(可以用团结 律运算)矩阵-标量乘法是可交流的(可以自由移动标量)。然后,由于点积是可交流的,这意味着x₁ᵀx₂和x₂ᵀx₁是等价的,以是 我们有:
式1.14其中x_1∙x_2体现点积。若是 λ_1≠λ_,那么x_1∙x_1=0,这意味着这两个特征向量是正交的。若是 λ_1 = λ_2,则有两个差异的特征向量对应于统一 个特征值。由于特征向量在(A-λI)的零空间(体现为N(A-λI)),当一个特征向量对应于多个特征向量时,N(A-λI)的维数大于1。在这种情形 下,我们对这些特征向量有无限多的选择,我们总是可以选择它们是正交的。
显然,有些情形 下,实数矩阵有复数特征值。这发生在旋转矩阵上。为什么会这样呢?假设Q是一个旋转矩阵。我们知道,特征向量在被Q作用后不会改变偏向。但若是 Q是一个旋转矩阵,若是 x是一个非零向量,x怎么可能不改变偏向呢?结论是,特征向量必须是复数(好好想一想吧)。
二维空间中的旋转矩阵R(θ)如下所示:
旋转矩阵R(θ)将一个向量逆时针旋转一个角度θ,它是一个具有复数特征值和特征向量的实矩阵。
性子 3. 对称矩阵总是可对角化的(谱定理)
这也与对称矩阵的其他两个特征 有关。这个定理的名字可能让人疑心 。事实上,一个矩阵的所有特征值的荟萃被称为谱( spectrum)。另外,我们可以这样想。
特征值-特征向量对告诉我们,在给定的线性变换之后,一个向量在哪个偏向上被扭曲。
如下图所示,经由 变换后,在v_1的偏向上,图形被拉伸了许多,但在v_2的偏向上却没有很大的拉伸。
一个可对角线化的矩阵意味着存在一个对角线矩阵D(对角线以外的所有元素都是零),使得P-¹AP=D,其中P是一个可逆矩阵。我们也可以说,若是 一个矩阵可以写成A=PDP-¹的形式,那么该矩阵就是可对角的。
剖析通常不是唯一的,但只有D中对角线上的元素的排列和P中特征向量的标量乘法才是唯一的。另外我们需要注重 的是,无论矩阵是否对称,对角线化都等同于找到特征向量和特征值。然而,对于非对称矩阵,D纷歧定是正交矩阵。
这两个界说是等价的,但可以有差异的诠释 (这种剖析使得求矩阵的幂很是利便 )。第二个界说,A=PDP-¹,告诉我们A怎样 被剖析,与此同时,第一个界说,P-¹AP=D,是告诉我们A可以被对角化。它告诉我们,有可能将尺度基(由单元矩阵给出)与特征向量对齐(align)。这是由特征向量的正交性决议 的,这在性子 2中显示。
这个 "将尺度基与特征向量对齐 "听起来很是抽象。我们需要思索 这个问题:矩阵变换对单元基做了什么?
由基α = {v_1,…,v_n}组成的矩阵将一个向量x从尺度基变换到由基α组成的坐标系,我们用Aα体现这个矩阵。因此,在对角化的历程中(P-¹AP=D),P将一个向量从尺度基送入特征向量,A对其举行 缩放,然后P⁻¹将该向量送回尺度基。从向量的角度来看,坐标系与尺度基对齐。
这种对齐方式如图1.16所示,本例中使用的矩阵为:
式1.17其中V是一个列向量长度为1的矩阵,每一个都对应于对角线矩阵中的特征值。至于盘算,我们可以让Matlab中的eig来完成。
这个性子 直接遵照 谱定理( spectral theorem):
若是 A是厄米特矩阵,存在一个由A的特征向量组成的V的正态基,每个特征向量都是实数。
该定理直接指出了将一个对称矩阵对角化的要领。为了直接证实 这个性子 ,我们可以使用矩阵巨细(维度)的归纳法。。
正定性这些性子 什么时间 有用?甚至在正式研究矩阵之前,它们已经被用于解决线性方程组很长时间了。把矩阵看成是运算子,线性方程的信息就储存在这些运算子中,矩阵可以用来研究函数的行为。
除了对称性之外,矩阵还可以有一个更好的性子 就是正定性。若是 一个对称矩阵是正定的,它的所有特征值都是正的。若是 它的所有特征值都是非负的,那么它就是一个半正定矩阵。对于一个正定矩阵,很显着 要求它是对称的,由于 性子 1,由于 只有当一个数字是实数时,问它是正数照旧负数或有多大才有意义。
特征值、特征向量和函数行为
这方面的一个很好的应用是海赛矩阵(Hessian matrix),我们将以此为例来证实 使用矩阵来剖析 函数行为。当我们试图找到一个局部极值时,发现海赛矩阵是正定的将很是有用。海赛矩阵是一个由实数函数的二阶偏微分组成的矩阵。形式上,海赛矩阵被界说为:
我们称H(x)为f的海赛矩阵,它是一个n乘n的矩阵。它与以下内容相同:
这对函数的行为有什么影响?我们来看看一个超级简朴的例子。思量 一下函数:
海赛矩阵的盘算要领如下:
式2.3由于它是一个对角矩阵,而且迹(对角线上的元素之和)即是特征向量之和,我们可以连忙 看到其中一个特征值是2,另一个是-2。 它们对应于特征向量v₁ = [1, 0]ᵀ和v₂ = [0, 1]ᵀ。这个矩阵是对称的,但不是正定的。因此,在整个ℝ²上没有局部极值,我们只能在x=0,y=0点上找到一个鞍点。这意味着在特征值为正的v_1偏向上,函数增添 ,而在特征值为负的v_2偏向上,函数镌汰 。该函数的图像如下所示:
现在我们改变符号,将函数改为:
特征向量保持稳固 ,但所有的特征向量都酿成了正数。这意味着,在v_1的偏向和v_2的偏向上,函数都在增添 。因此,可以找到局部最小值在x=0,y=0处,f(x,y)=0,这也是全局最小值。该图为:
总结矩阵在许多领域都有普遍 的应用。在处置赏罚 矩阵时,经常会遇到正界说性、特征向量、特征值、对称矩阵等看法。在这篇文章中,先容 了对称(厄米特)矩阵的三个最主要 的性子 ,它们与矩阵的特征向量和特征值有关。这些性子 是以几何学方式诠释 的,但也包罗一些代数证实 。最后,先容 了一个使用矩阵来剖析 函数行为的例子。