
机械学习与线性代数简明教程(上)
线性代数在机械学习(ML)和深度学习(DL)中是必不行少的。纵然我们起劲 为许多理论建设准确 的机械学习模子 ,线性代数仍然是这些研究中的主要 工具。
正交矩阵若是 方形矩阵a的所有列/行都是正交的,那么a就是一个正交矩阵
若是 Q由q1到qn列组成,它们相互正交,若是 i = j,内积⟨ qᵢ,qⱼ ⟩即是1,否则为0。因此,QᵀQ= I。方程式Qᵀ= Q-1很是主要 。求逆通常是难题 的,但对于正交矩阵就不是这样了。因此,若是 我们能将一个矩阵剖析成正交矩阵,那将是一个好新闻 。对于对称矩阵,我们可以剖析它为Q个Λ Q ᵀ,其中Q是一个正交矩阵,Λ是对角矩阵。
奇异和非奇异矩阵让我们回首一下奇异n×n矩阵A的一些属性:
它不行逆转。它的行列式即是零。列/行是线性相关的。它的pivots数小于n,也就是说,在行消去之后,它的变量至少有一行是0。它的特征值即是零。凭证 特征值界说,若是 特征值λ为零,则det(A) = 0,因此,它是奇异的。(我们稍后会讨论特征值。)让我们总结一下奇异和非奇异n×n矩阵之间的区别。
基(Basis)向量空间的一组基是一系列张成这个空间的线性无关的向量。差异的基可以有差异的向量。可是 所有的基都有相同数目 的向量。一个子空间的维数即是张成这个子空间的线性无关向量的个数。在执行行消去之后,所有的pivot行/列都可以用来组成a的行/列空间的一组基。Ax=0的n - r特解可以组成n (a)的零空间的一组基。
消去,置换,旋转,反射矩阵在线性代数中,我们可以使用矩阵乘法来界说一些矩阵运算。行消去可以被视为将矩阵与消去矩阵相乘。
置换矩阵,交流矩阵中的行。对于每个行和列,它只允许一个元素即是1,其他元素必须为0。
旋转矩阵的形式为
反射矩阵的形式为
这就发生了沿u的反射。
所有置换,旋转,反射矩阵都是正交矩阵。它的逆矩阵即是它的转置,P -1 =Pᵀ。
LU剖析如所讨论的,高斯消元中的步骤可以体现为矩阵乘法。例如,在下面的3×3矩阵A中,我们使用矩阵E 21来使用第1行消去第2行的前导元素。它的效果 即是U,一个上三角矩阵我们用回代来盘算效果 。
Eᵢⱼ和它们的组合E都是下三角矩阵。我们将E形成L(L = E -1)。L也是下三角矩阵。LU剖析就是把A剖析成下三角矩阵L和上三角矩阵U。
例,
或者,有时我们希望L和U的对角元素都是1。
其中D是一个对角矩阵,它的对角元素包罗了pivots。
这是我们第一个矩阵剖析的例子。它们在线性代数中起着很是主要 的作用。例如,高斯消元可以被视为矩阵剖析历程。
矩阵乘法体现为了盘算矩阵乘法(C ^ = AB),我们盘算C元素ᵢⱼ作为A的rowiB的columnⱼ的点积。
AB的乘法效果 的列i是A与响应 的列i (B)的乘积。
或者,乘法效果 的第i行是A的第i行与B的乘法。
或者,乘法的效果 是A中的第i列和B中的第i行使用外积的乘积的和。
以下是一个示例,右下方的每个项都在rank 1。
追念起来,我们也可以将矩阵和向量的乘法视为
投影在下图中,我们将向量b投影到a上。 投影向量p的长度x即是内积aᵀb。 而且p即是
e垂直于p并将p和b毗连 在一起。在一种情形 下,投影试图最小化这个可以看作误差向量的向量e。现在来看看一个更难的问题。对于一个多维空间,我们怎样 将一个向量投影到a的列空间上(空间由Ax张成)?让我们用xᵢ和A(aᵢ)的基来体现p
我们将用投影矩阵P来建模这个投影
其中P和p可以从A算出
证实
由于 p正交于e,基中的每个向量也垂直于e。我们可以将这些条件(如下图所示)改写成矩阵形式。
我们可以解这个等式
注重 :我们可以解逆(AᵀA)-1,其中A(AᵀA)-1Aᵀ变为A A -1(Aᵀ)-1Aᵀ,即I。因此,p = b。这是错误的,由于 只有当A是可逆的时,(AᵀA)-1即是A -1(Aᵀ)-1。纵然对于非方形矩阵,A也是不行逆的。
此外,P = P²= Pⁿ——由于 列空间上的投影向量,其投影即是自己。
最小二乘方误差通常,不行能找到Ax = b的准确 解。相反,我们希望找到最适合数据的x,例如,我们希望最小二乘方误差
上面的等式与我们的展望 具有相同的目的 。Recall
x̂将实现我们的解
因此,我们可以使用上面的等式来盘算x(使用b和A)。然而,在机械学习中,数据是有噪声的。 丈量或视察到的b具有噪声。
可是 ,若是 我们知道b是怎样 漫衍的,以及因素 是怎样 相关的,我们可以将这些信息转换为对x举行 更好的预计。协方差和方差界说为
方差权衡属性(变量)怎样 转变 ,而协方差是两个属性怎样 转变 的方式。下面的左图是一样平常 协方差矩阵。若是 所有属性相互无关,则所有非对角元素将为零,如下面的中央 图所示。当这些数据也尺度化时,就会泛起右图。
配备b的协方差矩阵V,我们可以解决x
在前面的等式中,对于每个维度(属性),最小二乘方误差被相等地计数。用新的等式,V - 1项尺度化数据。换句话说,方差较小的特定维度上的误差对加权最小平方误差的权重更大,而该维度上的误差的权重更大。新方程将为x提供更好的值。此外,盘算出的x的方差将减小到
让我们再次仔细检查这个等式。
若是 V = I,它会回到上一个等式。即,当所有变量都尺度化且不相关时,两个方程都是相同的。
Gram-Schmidt历程如前所述,我们喜欢正交矩阵。对于给定的矩阵a,列向量不太可能是正交的。Gram-Schmidt对角化资助我们找到一组基它张成a的相同列空间。
假设我们有一个矩阵A由a,b和c列组成。我们怎样 找到张成A的相同列空间的正交向量q 1,q 2和q 3 。
这样我们就可以将A剖析成A = QR。 我们从q 1'作为a。 然后q 2'即是b减去沿q 1'的b的投影。 接下来,q 3即是c减去沿q 1和q 2的c的投影。 简而言之,我们实验在形成正交向量的前一个偏向上取出投影部门。
完成后,我们将q 1',q 2'和q 3' 归一化,形成单元长度q 1,q 2和q 3。我们可以将a,b,c重写为
因此,A可以剖析成QR,R即是
矩阵中的二次型方程二次方程可以写成:
二次方程的矩阵形式是:
对于三个变量:
这种体现很主要 ,由于 机械学习(ML)中的误差,如均方误差,通常体现为二次方程。
行列式3×3矩阵的行列式是:
该界说可以扩展为递归地盘算n×n矩阵的行列式。或者,它可以在视觉上盘算为:
属性
若是 A的行列式的绝对值大于1,则Ax会扩展输出空间。若是 它介于0和1之间,则会缩小空间。这对于明确 系统的稳固 性很是主要 。
范数深度学习使用范数来盘算误差或执行正则化。这里有差异类型的范数。
L1范数(曼哈顿距离):
L2范数
LP-范数
Max-norm
Frobenius范数
较量 L1和L2范数
与l1 -范数相比,l2 -范数对大值误差模子 的转变 更为显著。此外,L1-norm增添 了模子 权重的希罕 性。这是许多机械学习问题所需要的。然而,在L2范数中,梯度转变 在0周围 更平滑。因此,随着梯度的逐渐转变 ,l2 -范数训练越发稳固 。这使得L2-norm在一样平常 情形 下更受接待。
矩阵范数矩阵的范数是任何向量x的最大增添 因子。
这与约束x具有单元长度相同。
规范可以盘算为:
若是 矩阵是正定的,则范数是A的最大特征值。若是 矩阵是对称的,我们取特征值的绝对值并选择最大值。否则,它是A的最大奇异值。即AᵀA的最大特征值的平方根。瑞利熵(Rayleigh quotient)找到A的矩阵范数与查找下面瑞利熵的最大值相同。
让我们用内积重写瑞利熵。
我们用上面的Qx取代x。
因此Rayleigh熵是AᵀA的特征值的加权平均值。由于加权平均值小于或即是其最大值,
我们经常按降序重新调整λ。 因此λ1保持最大的特征值。 因此,A的范数是AᵀA的最大特征值的根(A的奇异值σ1)。
对于对称矩阵S,
条件数在线性代数中,我们使用条件数来跟踪输出对输入的误差的敏感水平。消去要领的准确性由条件数反映
迹迹是A的对角线元素的总和。它可用于验证特征值。
属性
相似矩阵若是 ,两个矩阵A和B相似(A ~ B)
对于恣意 可逆矩阵P,给定A和B, P有许多解,从看法上讲,在线性变换的配景下,P是由x到x’的基变换的矩阵。。
若是 我们对x应用变换A,则x'基上的响应 变换是P-1AP。物理定律不应随着参考系(基)的转变 而改变。
相似矩阵:
具有相同的特征值。相同的行列式相同的秩单数或非单数。若是 A是非奇异的,矩阵可以对角化为对角矩阵Λ(矩阵中的所有非对角元素都是零)。
这和矩阵相似度的界说是一样的。因此,A相似于对角矩阵Λ。在实践中,若是 这个矩阵像Λ一样简朴,我们可以很容易地找到原始矩阵的特征值或行列式。
Jordan形矩阵Jordan block可以有许多巨细, 可是 它的对角元素包罗一个特征值,而特征值右边的元素必须是一个。
我们可以将矩阵剖析为Jordan形,我们使用它的特征值来建设差异巨细的Jordan block。
机械学习与线性代数简明教程(上)

