广义线性模型

指数族分布

指数族（Exponential Family）分布是一类分布的总称，该类分布的分布律（或概率密度函数）的一般形式为：

\begin{matrix} (1) & p (y; η) = b (y) \cdot e^{(η^{T} T (y) - a (η))} \end{matrix}

各符号含义如下：

$\eta$ 为该分布的自然参数，可为向量
$T(y)$ $y$ 本身
$a(\eta)$ 为配分函数
$b(y)$ $y$ 的函数

常见的伯努利分布和正态分布均属于指数族分布。以下证明伯努利分布属于指数族分布：
已知伯努利分布的分布律为：
$\begin{matrix} (2) & \begin{aligned} p (y) & = ϕ^{y} (1 - ϕ)^{1 - y} \\ 其中， y \in {0, 1} ， ϕ 为 y & = 1 的概率，即 p (y = 1) = ϕ \end{aligned} \end{matrix}$
对上式恒等变形得：
$\begin{matrix} (3) & \begin{aligned} p (y) & = ϕ^{y} (1 - ϕ)^{1 - y} \\ = \exp (\ln (ϕ^{y} (1 - ϕ)^{1 - y})) \\ = \exp (\ln ϕ^{y} + \ln (1 - ϕ)^{1 - y}) \\ = \exp (y \ln ϕ + (1 - y) \ln (1 - ϕ)) \\ = \exp (y \ln ϕ + \ln (1 - ϕ) - y \ln (1 - ϕ)) \\ = \exp (y (\ln ϕ - \ln (1 - ϕ)) + \ln (1 - ϕ)) \\ = \exp (y \ln (\frac{ϕ}{1 - ϕ}) + \ln (1 - ϕ)) \end{aligned} \end{matrix}$
$p(y ; \eta)=b(y) \cdot e^ \left(\eta^{T} T(y)-a(\eta)\right)$ ，可知：
$\begin{matrix} (4) & \begin{aligned} b (y) & = 1 \\ η & = \ln (\frac{ϕ}{1 - ϕ}) \\ T (y) & = y \\ a (η) & = - \ln (1 - ϕ) = \ln (1 + e^{η}) \end{aligned} \end{matrix}$
由此说明，伯努利分布为指数族分布。

广义线性模型的假设

$x$ $y$ 服从某个指数族分布
$x$ $h(x)$ $T(y)$ 的期望值
$\eta$ $x$ $\eta = w^T x$

逻辑回归

模型推导

$y$ $y$ 服从伯努利分布 $x$ $y$ 取值的话，可以考虑使用广义线性模型来进行建模。

$y$ $h(x)$ 的表达式为：

\begin{matrix} (5) & h (x) = E [T (y ∣ x)] \end{matrix}

$y \mid x$ $T(y)$ $T(y \mid x) = T(y)$ $T(y \mid x) = y \mid x$ ，所以：

\begin{matrix} (6) & h (x) = E (y ∣ x) \end{matrix}

$E[y \mid \boldsymbol{x}]=1 \times p(y=1 \mid \boldsymbol{x})+0 \times p(y=0 \mid \boldsymbol{x})=p(y=1 \mid \boldsymbol{x})=\phi$ ，所以：

\begin{matrix} (7) & h (x) = ϕ \end{matrix}

$公式 (4) \; \eta =\ln \left(\frac{\phi}{1-\phi}\right)$ 可知，对伯努利分布：

\begin{matrix} (8) & \frac{1}{1 + e^{- η}} = ϕ \end{matrix}

$\phi$ $h(x)$ 得：

\begin{matrix} (9) & h (x) = ϕ = \frac{1}{1 + e^{- η}} \end{matrix}

$\eta = w^T x$ $h(x)$ 最终可化简为：

\begin{matrix} (10) & h (x) = ϕ = \frac{1}{1 + e^{- w^{T} x}} = p (y = 1 ∣ x) \end{matrix}

此即为逻辑回归模型。

极大似然估计

$y$ 取1和0的概率分别为（考虑偏置项）：

\begin{matrix} (11) & p (y = 1 ∣ x) = \frac{e^{w^{T} x + b}}{1 + e^{w^{T} x + b}} p (y = 0 ∣ x) = \frac{1}{1 + e^{w^{T} x + b}} \end{matrix}

$\boldsymbol{\beta}=(\boldsymbol{w};b), \hat{\boldsymbol{x}}=(\boldsymbol{x};1)$ $\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b$ $\boldsymbol{\beta^\mathrm{T} } \hat{\boldsymbol{x}}$ ，于是上式可化简为：

\begin{matrix} (12) & p (y = 1 ∣ x) = \frac{e^{β^{T} \hat{x}}}{1 + e^{β^{T} \hat{x}}} = p_{1} (\hat{x}; β) p (y = 0 ∣ x) = \frac{1}{1 + e^{β^{T} \hat{x}}} = p_{0} (\hat{x}; β) \end{matrix}

将上式合并得：

\begin{matrix} (13) & p (y ∣ x; w, b) = y \cdot p_{1} (\hat{x}; β) + (1 - y) \cdot p_{0} (\hat{x}; β) \end{matrix}

或者：

\begin{matrix} (14) & p (y ∣ x; w, b) = {[p_{1} (\hat{x}; β)]}^{y} {[p_{0} (\hat{x}; β)]}^{1 - y} \end{matrix}

根据对数似然函数的定义可知：

\begin{matrix} (15) & \ln L (w) = \sum_{i = 1}^{m} \ln f (y_{i}, w_{1}, w_{2}, \dots, w_{k}) \end{matrix}

因此，逻辑回归的对数似然函数可以表示为：

\begin{matrix} (16) & ℓ (w, b) := \ln L (w, b) = \sum_{i = 1}^{m} \ln p (y_{i} ∣ x_{i}; w, b) \end{matrix}

$p(y \mid \boldsymbol{x} ; \boldsymbol{w}, b)$ $公式(13)和公式(14)$ ），可以得到两种对数似然函数，以下将分别推导。

似然函数形式一

$p(y \mid \boldsymbol{x} ; \boldsymbol{w}, b)=y \cdot p_{1}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})+(1-y) \cdot p_{0}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})$ $公式(16)$ ）可得：

\begin{matrix} (17) & ℓ (β) = \sum_{i = 1}^{m} \ln (y_{i} p_{1} ({\hat{x}}_{i}; β) + (1 - y_{i}) p_{0} ({\hat{x}}_{i}; β)) \end{matrix}

$\large p_{1}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)=\frac{e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}}{1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}} \quad, \quad p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)=\frac{1}{1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}}$ ，上式可化简为：

\begin{matrix} (18) & \begin{aligned} ℓ (β) & = \sum_{i = 1}^{m} \ln (\frac{y_{i} e^{β^{T} {\hat{x}}_{i}}}{1 + e^{β^{T} {\hat{x}}_{i}}} + \frac{1 - y_{i}}{1 + e^{β^{T}} \hat{x_{i}}}) \\ = \sum_{i = 1}^{m} \ln (\frac{y_{i} e^{β^{T} {\hat{x}}_{i}} + 1 - y_{i}}{1 + e^{β^{T} {\hat{x}}_{i}}}) \\ = \sum_{i = 1}^{m} (\ln (y_{i} e^{β^{T} {\hat{x}}_{i}} + 1 - y_{i}) - \ln (1 + e^{β^{T} {\hat{x}}_{i}})) \end{aligned} \end{matrix}

$y_i \in \{0,1\}$ ，所以

$y_i = 0$ $\ln \left(y_{i} e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}+1-y_{i}\right)-\ln \left(1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}\right)\\ = ln \left(0 \cdot e^{\beta^{T} \hat{x}_{i}}+1-0\right)-\ln \left(1+e^{\Theta^{T} \hat{x}_{i}}\right) \\ =\ln 1-\ln \left(1+e^{\beta^{T}} \hat{x}_{i}\right) \\ =-\ln \left(1+e^{\beta^{T} \hat{x}_{i}}\right)$

$y_i=1$ $\ln \left(y_{i} e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}+1-y_{i}\right)-\ln \left(1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}\right)\\ = ln \left(1 \cdot e^{\beta^{T} \hat{x}_{i}}+1-1\right)-\ln \left(1+e^{\Theta^{T} \hat{x}_{i}}\right) \\ =\beta^{T} \hat{x}_{i}-\ln \left(1+e^{\beta^{T}} \hat{x}_{i}\right)$

综合可得：

\begin{matrix} (19) & ℓ (β) = \sum_{i = 1}^{m} (y_{i} β^{T} {\hat{x}}_{i} - \ln (1 + e^{β^{T} {\hat{x}}_{i}})) \end{matrix}

似然函数形式二

$p(y \mid \boldsymbol{x} ; \boldsymbol{w}, b)=\left[p_{1}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})\right]^{y}\left[p_{0}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})\right]^{1-y}$ ，将其带入对数似然可得：

\begin{matrix} (20) & \begin{aligned} ℓ (β) & = \sum_{i = 1}^{m} \ln ({[p_{1} ({\hat{x}}_{i}; β)]}^{y_{i}} {[p_{0} ({\hat{x}}_{i}; β)]}^{1 - y_{i}}) \\ = \sum_{i = 1}^{m} [\ln ({[p_{1} ({\hat{x}}_{i}; β)]}^{y_{i}}) + \ln ({[p_{0} ({\hat{x}}_{i}; β)]}^{1 - y_{i}})] \\ = \sum_{i = 1}^{m} [y_{i} \ln (p_{1} ({\hat{x}}_{i}; β)) + (1 - y_{i}) \ln (p_{0} ({\hat{x}}_{i}; β))] \\ = \sum_{i = 1}^{m} {y_{i} [\ln (p_{1} ({\hat{x}}_{i}; β)) - \ln (p_{0} ({\hat{x}}_{i}; β))] + \ln (p_{0} ({\hat{x}}_{i}; β))} \\ = \sum_{i = 1}^{m} [y_{i} \ln (\frac{p_{1} ({\hat{x}}_{i}; β)}{p_{0} ({\hat{x}}_{i}; β)}) + \ln (p_{0} ({\hat{x}}_{i}; β))] \\ = \sum_{i = 1}^{m} [y_{i} \ln (e^{β^{T} {\hat{x}}_{i}}) + \ln (\frac{1}{1 + e^{β^{T} {\hat{x}}_{i}}})] \\ = \sum_{i = 1}^{m} (y_{i} β^{T} {\hat{x}}_{i} - \ln (1 + e^{β^{T} {\hat{x}}_{i}})) \end{aligned} \end{matrix}

模型求解

$\ell(\boldsymbol{\beta})$ $- \ell(\boldsymbol{\beta})$ 的极小。

参考文献

Andrew Ng. cs229 -notes1