1. 矩阵对角化,SVD剖析以及应用
2. 逆矩阵,伪逆矩阵
3. PCA原理与推导
4. 极大似然预计,误差的高斯漫衍与最小二乘预计的等价性
5. 最优化,无约束,有约束,拉格朗日乘子的意义,KKT条件
课程3 无约束最优化无约束优化问题是机械学习中最普遍、最简朴的优化问题
x* =min(x)f(x), x 属于R(n)
梯度下降法
界说:梯度下降法是一个一阶最优化算法。 要使用梯度下降法找到一个函数的局部极小值,必须向函数受骗 前点对应梯度(或者是近似梯度)的反偏向的划定步长距离点举行 迭代搜索。
示例如下,
图像大致如上图所示,我们的目的 是求出函数f(x,y)的最小值是几多。
在盘算机中一样平常 是接纳搜索的要领,假设给盘算机一个随机的点P,从P点最先 搜索,那么从那里 最先 搜索呢。下图是一个上述曲面的等高线的图。
假设P点不管往哪个偏向移动一步,希望在移动步数相同的情形 下,哪个偏向值最小。
以是 可得P点应该往负梯度的偏向举行 移动,在这幅图中即向中央 点移动。注:梯度的偏向为增添 最快的一个偏向。
f(x1, x2, x3, … xn) 标量
以是 其梯度为 (f / x1, f / x2, f / x3, … , f / xn ) 矢量
那为啥梯度的偏向是增添 最快的偏向呢,详细 的诠释 如下。
如上图所示,我们将在二维平面讨论这个问题,由上图可得,
单元长度转变 为(f(x0 + Lcos θ, y0 +Lsin θ) -f( x0, y0) )/ L
举行 推导如下,
(f(x0 + Lcos θ, y0 +Lsin θ) -f( x0, y0) )/ L = sin θ * ((f(x0 + Lcos θ, y0 +Lsin θ) -f( x0, y0) )/ L sin θ) + cos θ * ((f(x0 + Lcos θ, y0 +Lsin θ) -f( x0, y0) )/ L cos θ)
当 L - 0 时可得,
(f(x0 + Lcos θ, y0 +Lsin θ) -f( x0, y0) )/ L = sin θ f x (x0,y0) + cos θ f y (x0,y0)
牛顿法
牛顿法的界说:使用 迭代点处的一阶导数和二阶导数对目的 函数举行 二次函数近似,然后把二次模子 的极小点作为新的迭代点,并一直 重复这一历程,直至求得知足 精度的近似极小值。
如上图所示, y - g(xn)=g ’ ( xn ) (x - xn)
令 y =0 = x= x0 - ( g( xn ) / g ’ ( xn ) )
用 f ’ ( x ) 替换 g( x )
xn+1 = xn - ( f ’ ( xn ) / f ’ ’ ( xn ) )
收敛速率 较量 ,梯度下降是一次收敛,牛顿法是二次收敛(速率 快,但也有缺陷,要在较量 靠近 最优点的时间 才气收敛,否则可能发散)
本次课程的内容就分享到这里。后续将继续更新课程. . . .