Ridge和Lasso
2023-02-20

 

线性回归

模型定义

多元线性回归模型定义如下:

(1)f(xi)=w1xi1+w2xi2++wdxid+b=w1xi1+w2xi2++wdxid+wd+11=(w1w2wd+1)(xi1xi2xid1)f(xi^)=w^Txi^w^T=(w1w2wd+1)xi^T=(xi1xi2xid1)

令矩阵X为:

(2)X=(x11x12x1d1x21x22x2d1xm1xm2xmd1)m×d+1=(x1T1x2T1xmT1)m×d+1=(x^1Tx^2Tx^mT)m×d+1

损失函数为:

(3)L(w^)=i=1m(yif(x^i))2=i=1m(yiw^Tx^i)2=(y1w^Tx^1y2w^Tx^2ymw^Tx^m)(y1w^Tx^1y2w^Tx^2ymw^Tx^m)=(yXw^)T(yXw^)

 

 

w^

一阶偏导数为:

(4)E(w^)w^=2XT(Xw^y)

在Hessian矩阵为正定矩阵的假设下,令一阶偏导数为0,可得:

(5)E(w^)w^=2XT(Xw^y)=02XTXw^2XTy=02XTXw^=2XTyw^=(XTX)1XTy

因此,只要XTX可逆,即可通过数值计算的方式直接求得最优参数。

但是,如果不可逆,如何处理?

 

从不可逆到可逆

因为XTX是对称矩阵,根据对称矩阵的性质:

(6)XTX=QΛQTQQT=I

因此:

(7)XTX+λI=QΛQT+Q(λI)QT=Q(Λ+λI)QTλ>0

由于XTX是半正定矩阵,所以,Λ中的元素(特征值)大于等于0。而λI的元素都大于0,因此,两者的和一定大于0。

这意味着,对矩阵XTX+λI而言,其特征值(奇异值)都大于0,因此该矩阵一定可逆。

λ较小时,可以相信,在数值解中加上λI,对最终结果影响不大。

那么,修正后的数值解:

(8)w^=(XTX+λI)1XTy

虽然,λ到底取多少还不确定,但该数值解理论上保证是可求解的。

对于搞数学推导的同学,可以休息了。但是,对于做机器学习的同学,还应该思考,这意味着什么?或者,有哪些启发?

 

Ridge

数值解带来的启发

已知了数值解,能不能反推,应该将损失函数做哪些修改呢?

此时,从上帝视角,如果定义损失函数:

(9)E(w^)=(yXw^)T(yXw^)+λw^TIw^

损失函数对参数求偏导,可得:

(10)E(w^)w^=2XT(Xw^y)+2λIw^

令导数为0:

(11)2XT(Xw^y)+2λIw^=0

解上式,可得:

(12)w^=(XTX+λI)1XTy

该数值解,和原始数值解修正后的结果一致。该过程相当于,给定了答案,猜到了问题。

 

定义Ridge回归

定义新损失函数:

(13)L(w^)=(yXw^)T(yXw^)+λw^TIw^

基于该损失函数求解参数的过程,称作Ridge回归。

 

等高线

重新认识损失函数。

如果将损失函数从拉格朗日函数的角度去看,则发现:

(14)minL(w^)minw^Tw^t(λ)(yXw^)T(yXw^)

因此,可以从不等式角度重新审视损失函数:

(15)minw^Tw^t(η)(yXw^)T(yXw^)t(λ)λ

假设有两个未知变量,对该不等式做等高线,如下图:

Ridge

其中,红色曲线为(yXw^)T(yXw^)的等高线,黑色线为w^Tw^t(λ)的等高线。最优解在点A和点B之间的轨迹中间:

  1. λ趋于0:最优解趋于点B,如果等于0,相当于没有加入正则项,最优解为点B
  2. λ趋于正无穷:最优解趋于点A,如果等于正无穷,最优解为点A,即所有参数为0

从上图还可以看出,当存在约束的时候,L2正则会倾向同时将参数压小。

 

Lasso

定义Lasso回归

Lasso对应的损失函数:

(16)L(w^)=(yXw^)T(yXw^)+λ|w^|

 

等高线

Ridge

同Ridge,最优解在点A和点B之间的轨迹中间:

  1. λ趋于0:最优解趋于点B,如果等于0,相当于没有加入正则项,最优解为点B
  2. λ趋于正无穷:最优解趋于点A,如果等于正无穷,最优解为点A,即所有参数为0

同Ridge不同的是,从点A出发,有一段轨迹在坐标轴上,此时,w1的的权重将为0。因此,Lasso可能会将某个维度参数权重压缩为0,也就是所谓的:L1正则化可以做特征选择。

 

附录

AAT的结果是半正定矩阵

反证法。

AAT存在负特征值a,a<0,该特征值对应的特征向量为x。那么:

(17)AATx=ax

左右同乘以xT

(18)xTAATx=axTx

对上式整理得:

(19)(ATx)T(ATx)=axTx

左侧:(ATx)T(ATx)0

右侧:xTx是向量x自身的模长的平方,而且x是特征向量,所以非零,所以xTx>0,而a<0,因此,axTx<0

左右矛盾,故假设不成立。

因此,AAT是半正定矩阵。

方阵对角化

(20)A=PΛP1ΛAP

 

对称矩阵性质

A=AT,同时,A=PΛP1

  1. 特征向量正交:PPT=I
  2. PT=P1