逻辑回归
2021-09-05

 

广义线性模型

指数族分布

指数族(Exponential Family)分布是一类分布的总称,该类分布的分布律(或概率密度函数)的一般形式为:

(1)p(y;η)=b(y)e(ηTT(y)a(η))

各符号含义如下:

  1. η为该分布的自然参数,可为向量

  2. T(y)为充分统计量,视具体的分布而定,通常等于随机变量y本身

  3. a(η)为配分函数

  4. b(y)为关于随机变量y的函数

     

    常见的伯努利分布和正态分布均属于指数族分布。以下证明伯努利分布属于指数族分布:

    已知伯努利分布的分布律为:

    (2)p(y)=ϕy(1ϕ)1yy{0,1}ϕy=1p(y=1)=ϕ

    对上式恒等变形得:

    (3)p(y)=ϕy(1ϕ)1y=exp(ln(ϕy(1ϕ)1y))=exp(lnϕy+ln(1ϕ)1y)=exp(ylnϕ+(1y)ln(1ϕ))=exp(ylnϕ+ln(1ϕ)yln(1ϕ))=exp(y(lnϕln(1ϕ))+ln(1ϕ))=exp(yln(ϕ1ϕ)+ln(1ϕ))

    对比指数族分布的一般形式 p(y;η)=b(y)e(ηTT(y)a(η)),可知:

    (4)b(y)=1η=ln(ϕ1ϕ)T(y)=ya(η)=ln(1ϕ)=ln(1+eη)

    由此说明,伯努利分布为指数族分布。

广义线性模型的假设

  1. 在给定x的条件下,假设随机变量y服从某个指数族分布
  2. 在给定x的条件下,我们的目标是得到一个模型h(x)能预测出T(y)的期望值
  3. 假设该指数族分布中的自然参数ηx呈线性关系,即η=wTx

 

逻辑回归

模型推导

逻辑回归是对二分类问题进行建模,并且假设被建模的随机变量y取值为0或1,因此,可以很自然得假设y服从伯努利分布。此时,如果希望构建一个线性模型来预测给定x的条件下y取值的话,可以考虑使用广义线性模型来进行建模。

已知y服从伯努利分布,而伯努利分布属于指数族分布,所以满足广义线性模型的三条假设。根据第二条假设,可以推出模型h(x)的表达式为:

(5)h(x)=E[T(yx)]

注意,yx只是表示形式,并不影响T(y)的计算,即T(yx)=T(y)。根据伯努利分布的T(yx)=yx,所以:

(6)h(x)=E(yx)

又因为E[yx]=1×p(y=1x)+0×p(y=0x)=p(y=1x)=ϕ,所以:

(7)h(x)=ϕ

根据(4)η=ln(ϕ1ϕ)可知,对伯努利分布:

(8)11+eη=ϕ

ϕ带入h(x)得:

(9)h(x)=ϕ=11+eη

根据广义线性模型的第三条假设 η=wTxh(x)最终可化简为:

(10)h(x)=ϕ=11+ewTx=p(y=1x)

此即为逻辑回归模型。

极大似然估计

已知随机变量y取1和0的概率分别为(考虑偏置项):

(11)p(y=1x)=ewTx+b1+ewTx+bp(y=0x)=11+ewTx+b

β=(w;b),x^=(x;1),则wTx+b可简写为βTx^,于是上式可化简为:

(12)p(y=1x)=eβTx^1+eβTx^=p1(x^;β)p(y=0x)=11+eβTx^=p0(x^;β)

将上式合并得:

(13)p(yx;w,b)=yp1(x^;β)+(1y)p0(x^;β)

或者:

(14)p(yx;w,b)=[p1(x^;β)]y[p0(x^;β)]1y

根据对数似然函数的定义可知:

(15)lnL(w)=i=1mlnf(yi,w1,w2,,wk)

因此,逻辑回归的对数似然函数可以表示为:

(16)(w,b):=lnL(w,b)=i=1mlnp(yixi;w,b)

根据p(yx;w,b)的两种形式((13)(14)),可以得到两种对数似然函数,以下将分别推导。

似然函数形式一

p(yx;w,b)=yp1(x^;β)+(1y)p0(x^;β)带入似然函数((16))可得:

(17)(β)=i=1mln(yip1(x^i;β)+(1yi)p0(x^i;β))

由于p1(x^i;β)=eβTx^i1+eβTx^i,p0(x^i;β)=11+eβTx^i ,上式可化简为:

(18)(β)=i=1mln(yieβTx^i1+eβTx^i+1yi1+eβTxi^)=i=1mln(yieβTx^i+1yi1+eβTx^i)=i=1m(ln(yieβTx^i+1yi)ln(1+eβTx^i))

 

由于yi{0,1},所以

yi=0时,ln(yieβTx^i+1yi)ln(1+eβTx^i)=ln(0eβTx^i+10)ln(1+eΘTx^i)=ln1ln(1+eβTx^i)=ln(1+eβTx^i)

yi=1时,ln(yieβTx^i+1yi)ln(1+eβTx^i)=ln(1eβTx^i+11)ln(1+eΘTx^i)=βTx^iln(1+eβTx^i)

综合可得:

(19)(β)=i=1m(yiβTx^iln(1+eβTx^i))

似然函数形式二

p(yx;w,b)=[p1(x^;β)]y[p0(x^;β)]1y,将其带入对数似然可得:

(20)(β)=i=1mln([p1(x^i;β)]yi[p0(x^i;β)]1yi)=i=1m[ln([p1(x^i;β)]yi)+ln([p0(x^i;β)]1yi)]=i=1m[yiln(p1(x^i;β))+(1yi)ln(p0(x^i;β))]=i=1m{yi[ln(p1(x^i;β))ln(p0(x^i;β))]+ln(p0(x^i;β))}=i=1m[yiln(p1(x^i;β)p0(x^i;β))+ln(p0(x^i;β))]=i=1m[yiln(eβTx^i)+ln(11+eβTx^i)]=i=1m(yiβTx^iln(1+eβTx^i))

模型求解

对似然函数(β)求极大,或求损失函数(β)的极小。

 

参考文献

  1. Andrew Ng. cs229 -notes1