EM算法

背景知识相似三角形梯形中位线推论Jensen(琴生)不等式期望三硬币模型引入EM算法为什么需要EM算法EM算法推导使用EM求解三硬币模型E步：导出Q函数求Q函数达到极大的参数对 $\pi$ 求偏导对 $\mathbf{p}$ 求偏导对 $\mathbf{q}$ 求偏导总结参考文档

背景知识

相似三角形

定理：两角分别对应相等的两个三角形相似。
定理：相似三角形任意对应线段的比等于相似比。

梯形中位线推论

$\text{ABCD}$ $\text{AB} // \text{DC}，\text{AB}=a, \text{DC}=b，\text{E}$ $\text{AB}$ $\text{EF} // \text{DC}$ $\text{EF}$ $\text{BC}$ $\text{F}$ 。

结论： $\text{EF} = \frac{\text{n*a + m*b}}{\text{m + n}}$

$\text{E}$ $\text{HI}$ $\text{BC}$ $\triangle A E H \sim \triangle E D I$ 。

所以， $\frac{\text{AE}}{\text{ED}} = \frac{\text{HA}}{\text{DI}} = \frac{\text{EF - a}}{\text{b - EF}} = \frac{\text{m}}{\text{n}}$

化简可得： $\text{EF} = \frac{\text{n*a + m*b}}{\text{m + n}}$

$m + n = 1$ 时， $\text{EF} = \text{n*a + (1-n)*b}$

Jensen(琴生)不等式

Jensen不等式

$f$ 是凸函数，则：

\begin{matrix} (1) & f (λ x_{1} + (1 - λ) x_{2}) \leq λ f (x_{1}) + (1 - λ) f (x_{2}) \end{matrix} 其 中 ， λ \in [0, 1] 。 如 果 f 是 凹 函 数 ， 则 将 \leq 换 为 \geq 即 可 。

$x = \lambda x_{1}+(1-\lambda) x_{2}$ $(x_1,f(x_1))，(x_2,f(x_2))$ 。

根据直线两点式，可得直线方程为 $\frac{f(x_2)-f(x_1)}{x_2-x_1} = \frac{f(x)-f(x_1)}{x-x_1}$

$x = \lambda x_{1}+(1-\lambda) x_{2}$ $y = \lambda f\left(x_{1}\right)+(1-\lambda) f\left(x_{2}\right)$

$x = \lambda x_{1}+(1-\lambda) x_{2}$

$\lambda \in [0,1]$ $x\in [x_1,x_2]$ 。

因为 $\frac{x - x_1}{x_2 - x} = \frac{\lambda x_{1}+(1-\lambda) x_{2} - x_1}{x_2 - \lambda x_{1} - (1-\lambda) x_{2}} = \frac{(1 - \lambda)(x_2 - x_1)}{\lambda (x_2 - x_1)} = \frac{1 - \lambda}{\lambda}$

根据梯形推导公式可得：

$y = \text{AB} = \lambda f\left(x_{1}\right)+(1-\lambda) f\left(x_{2}\right)$

$\lambda$ $n$ 个同样成立，即：

\begin{matrix} (2) & f (λ_{1} x_{1} + λ_{2} x_{2} + \dots + λ_{n} x_{n}) \leq λ_{1} f (x_{1}) + λ_{2} f (x_{2}) + \dots + λ_{n} f (x_{n}) \end{matrix} 其 中 ， λ_{1}, λ_{2}, \dots, λ_{n} \in [0, 1], λ_{1} + λ_{2} + \dots + λ_{n} = 1

$t$ 看做概率分布，则在概率论中：

\begin{matrix} (3) & \begin{matrix} f (E [X]) \leq E [f (x)] \\ 其 中 ， f 是 凸 函 数 ， X 是 随 机 变 量 ， E [X] 为 X 的 期 望 \end{matrix} \end{matrix}

期望

$x_i$ $p_i$ $x$ 的期望为：

\begin{matrix} (4) & E (x) = \sum_{i = 1}^{n} x_{i} p_{i} \end{matrix}

三硬币模型引入

$\pi,p$ $q$ $1，1，0，1，0，0，1，0，1，1$ 假设只能观测到掷硬币的结果，不能观测掷硬币的过程。问如何估计三硬币正面出现的概率，即三硬币模型的参数。

解：对每一次试验可如下建模

\begin{matrix} (5) & \begin{aligned} P (y ∣ θ) & = \sum_{z} P (y, z ∣ θ) \\ = \sum_{z} P (z ∣ θ) P (y ∣ z, θ) \\ = P (z = 1 ∣ θ) P (y ∣ z = 1, θ) + P (z = 0 ∣ θ) P (y ∣ z = 0, θ) \\ = {\begin{array}{lr} π p + (1 - π) q, & if y = 1; \\ π (1 - p) + (1 - π) (1 - q), & if y = 0; \end{array} \\ = π p^{y} (1 - p)^{1 - y} + (1 - π) q^{y} (1 - q)^{1 - y} \end{aligned} \end{matrix} 其 中 ， 随 机 变 量 y 是 观 测 变 量 ， 表 示 一 次 试 验 的 结 果 是 1 或 0 ； 随 机 变 量 z 是 隐 变 量 ， 表 示 未 观 测 到 的 掷 硬 币 A 的 结 果 ； θ = (π, p, q) 是 模 型 参 数 。 将 观 测 数 据 表 示 为 Y = (Y_{1}, Y_{2}, . . ., Y_{n})^{T} ， 未 观 测 到 的 数 据 表 示 为 Z = (Z_{1}, Z_{2}, . . ., Z_{n})^{T} 。

则观测数据的似然函数为：

\begin{matrix} (6) & \begin{aligned} P (Y ∣ θ) & = \sum_{Z} P (Y, Z ∣ θ) \\ = \sum_{Z} P (Z ∣ θ) P (Y ∣ Z, θ) \\ = \prod_{j = 1}^{n} P (y_{j} ∣ θ) \\ = \prod_{j = 1}^{n} [π p^{y_{j}} (1 - p)^{1 - y_{j}} + (1 - π) q^{y_{j}} (1 - q)^{1 - y_{j}}] \end{aligned} \end{matrix}

$\theta=(\pi,p,q)$ 的极大似然估计，即使用对数似然函数来进行参数估计，可得：

\begin{matrix} (7) & \begin{aligned} \hat{θ} & = \arg max_{θ} \ln P (Y ∣ θ) \\ = \arg max_{θ} \ln \prod_{j = 1}^{n} [π p^{y_{j}} (1 - p)^{1 - y_{j}} + (1 - π) q^{y_{j}} (1 - q)^{1 - y_{j}}] \\ = \arg max_{θ} \sum_{j = 1}^{n} \ln [π p^{y_{j}} (1 - p)^{1 - y_{j}} + (1 - π) q^{y_{j}} (1 - q)^{1 - y_{j}}] \end{aligned} \end{matrix}

$(\pi,p,q)$ 的值，只能使用迭代法进行求解。

EM算法

为什么需要EM算法

概率模型有时候既含有观测变量又含有隐变量。如果概率模型的变量都是观测变量，那么给定数据，可以直接使用极大似然法估计或贝叶斯估计进行求解。但是，当模型含有隐变量时，就不能简单地使用这些估计方法。 EM算法就是解决含有隐变量的概率模型参数的极大似然估计。

EM算法推导

$\text{Y}$ $\mathbf{\theta}$ 的对数似然函数，即极大化：

\begin{matrix} (8) & L (θ) = \ln P (Y ∣ θ) = \ln \sum_{Z} P (Y, Z ∣ θ) = \ln (\sum_{Z} P (Y ∣ Z, θ) P (Z ∣ θ)) \end{matrix}

$\text{Z}$ $\text{Z}$ $\text{Z}$ $L(\theta)$ 。 $i$ $\theta$ $\theta^{(i)}$ $\theta$ $L(\theta)$ $L(\theta)>L\left(\theta^{(i)}\right)$ 并逐步达到极大值。为此，我们考虑两者的差：

\begin{matrix} (9) & \begin{aligned} L (θ) - L (θ^{(i)}) & = \ln (\sum_{Z} P (Y ∣ Z, θ) P (Z ∣ θ)) - \ln P (Y ∣ θ^{(i)}) \\ = \ln (\sum_{Z} P (Z ∣ Y, θ^{(i)}) \frac{P (Y ∣ Z, θ) P (Z ∣ θ)}{P (Z ∣ Y, θ^{(i)})}) - \ln P (Y ∣ θ^{(i)}) \\ \geq \sum_{Z} P (Z ∣ Y, θ^{(i)}) \ln \frac{P (Y ∣ Z, θ) P (Z ∣ θ)}{P (Z ∣ Y, θ^{(i)})} - \ln P (Y ∣ θ^{(i)}) \\ = \sum_{Z} P (Z ∣ Y, θ^{(i)}) \ln \frac{P (Y ∣ Z, θ) P (Z ∣ θ)}{P (Z ∣ Y, θ^{(i)})} - 1 \cdot \ln P (Y ∣ θ^{(i)}) \\ = \sum_{Z} P (Z ∣ Y, θ^{(i)}) \ln \frac{P (Y ∣ Z, θ) P (Z ∣ θ)}{P (Z ∣ Y, θ^{(i)})} - \sum_{Z} P (Z ∣ Y, θ^{(i)}) \cdot \ln P (Y ∣ θ^{(i)}) \\ = \sum_{Z} P (Z ∣ Y, θ^{(i)}) (\ln \frac{P (Y ∣ Z, θ) P (Z ∣ θ)}{P (Z ∣ Y, θ^{(i)})} - \ln P (Y ∣ θ^{(i)})) \\ = \sum_{Z} P (Z ∣ Y, θ^{(i)}) \ln \frac{P (Y ∣ Z, θ) P (Z ∣ θ)}{P (Z ∣ Y, θ^{(i)}) P (Y ∣ θ^{(i)})} \end{aligned} \end{matrix}

$L\left(\theta^{(i)}\right)$ 移项，令：

\begin{matrix} (10) & \begin{matrix} B (θ, θ^{(i)}) = L (θ^{(i)}) + \sum_{Z} P (Z ∣ Y, θ^{(i)}) \ln \frac{P (Y ∣ Z, θ) P (Z ∣ θ)}{P (Z ∣ Y, θ^{(i)}) P (Y ∣ θ^{(i)})} \end{matrix} \end{matrix}

则：

\begin{matrix} (11) & L (θ) \geq B (θ, θ^{(i)}) \end{matrix}

$B\left(\theta, \theta^{(i)}\right)$ $L(\theta)$ 的一个下界函数。

$\theta ^{i+1}$ $B\left(\theta, \theta^{(i)}\right)$ 达到极大，也就意味着：

\begin{matrix} (12) & B (θ^{(i + 1)}, θ^{(i)}) \geq B (θ^{(i)}, θ^{(i)}) \end{matrix}

由于：

\begin{matrix} (13) & \begin{aligned} B (θ^{(i)}, θ^{(i)}) & = L (θ^{(i)}) + \sum_{Z} P (Z ∣ Y, θ^{(i)}) \ln \frac{P (Y ∣ Z, θ^{(i)}) P (Z ∣ θ^{(i)})}{P (Z ∣ Y, θ^{(i)}) P (Y ∣ θ^{(i)})} \\ = L (θ^{(i)}) + \sum_{Z} P (Z ∣ Y, θ^{(i)}) \ln \frac{P (Y, Z ∣ θ^{(i)})}{P (Z, Y ∣ θ^{(i)})} \\ = L (θ^{(i)}) \end{aligned} \end{matrix}

进一步可推得：

\begin{matrix} (14) & L (θ^{(i + 1)}) \geq B (θ^{(i + 1)}, θ^{(i)}) \geq B (θ^{(i)}, θ^{(i)}) = L (θ^{(i)}) \end{matrix}

即：

\begin{matrix} (15) & L (θ^{(i + 1)}) \geq L (θ^{(i)}) \end{matrix}

$B\left(\theta, \theta^{(i)}\right)$ $\theta$ $L(\theta)$ $B\left(\theta, \theta^{(i)}\right)$ $\theta ^{i+1}$ ，即：

\begin{matrix} (16) & \begin{aligned} θ^{(i + 1)} & = \underset{θ}{\arg max} B (θ, θ^{(i)}) \\ = \underset{θ}{\arg max} (L (θ^{(i)}) + \sum_{Z} P (Z ∣ Y, θ^{(i)}) \ln \frac{P (Y ∣ Z, θ) P (Z ∣ θ)}{P (Z ∣ Y, θ^{(i)}) P (Y ∣ θ^{(i)})}) \\ = \underset{θ}{\arg max} (\sum_{Z} P (Z ∣ Y, θ^{(i)}) \ln (P (Y ∣ Z, θ) P (Z ∣ θ))) \\ = \underset{θ}{\arg max} (\sum_{Z} P (Z ∣ Y, θ^{(i)}) \ln P (Y, Z ∣ θ)) \\ = \underset{θ}{\arg max} Q (θ, θ^{(i)}) \end{aligned} \end{matrix}

$\theta^{(i+1)}$ $\theta^{(i)}$ 。

综上所述，可以总结出EM算法的“E步”和“M步”分别为：

$\text { E步：导出Q函数 }$
$\ln P(Y, Z \mid \theta)$ $\text{Y}$ $\mathbf{\theta}$ $\text{Z}$ $\ P\left(Z \mid Y, \theta^{(i)}\right )$ $\text{Q}$ 函数：
$\begin{matrix} (17) & Q (θ, θ^{(i)}) = E_{Z} [\ln P (Y, Z ∣ θ) ∣ Y, θ^{(i)}] = \sum_{Z} P (Z ∣ Y, θ^{(i)}) \ln P (Y, Z ∣ θ) \end{matrix}$
$\text { M步：Q函数极大 }$
$\text{Q}$ $\theta^{(i+1)}$ 。

使用EM求解三硬币模型

求解思路：

$\text { E步：导出Q函数 }$
$\text { M步：求使得Q函数达到极大的 } \theta^{(i+1)}=\left(\pi^{(i+1)}, p^{(i+1)}, q^{(i+1)}\right)$

E步：导出Q函数

\begin{matrix} (18) & \begin{aligned} Q (θ ∣ θ^{(i)}) & = \sum_{Z} P (Z ∣ Y, θ^{(i)}) \ln P (Y, Z ∣ θ) \\ = \sum_{z_{1}, z_{2}, \dots, z_{N}} {\prod_{j = 1}^{N} P (z_{j} ∣ y_{j}, θ^{(i)}) \ln [\prod_{j = 1}^{N} P (y_{j}, z_{j} ∣ θ)]} \\ = \sum_{z_{1}, z_{2}, \dots, z_{N}} {\prod_{j = 1}^{N} P (z_{j} ∣ y_{j}, θ^{(i)}) [\sum_{j = 1}^{N} \ln P (y_{j}, z_{j} ∣ θ)]} \\ = \sum_{z_{1}, z_{2}, \dots, z_{N}} {\prod_{j = 1}^{N} P (z_{j} ∣ y_{j}, θ^{(i)}) [\ln P (y_{1}, z_{1} ∣ θ) + \sum_{j = 2}^{N} \ln P (y_{j}, z_{j} ∣ θ)]} \\ = \sum_{z_{1}, z_{2}, \dots, z_{N}} {\prod_{j = 1}^{N} P (z_{j} ∣ y_{j}, θ^{(i)}) \cdot \ln P (y_{1}, z_{1} ∣ θ) + \prod_{j = 1}^{N} P (z_{j} ∣ y_{j}, θ^{(i)}) [\sum_{j = 2}^{N} \ln P (y_{j}, z_{j} ∣ θ)]} \\ = \sum_{z_{1}, z_{2}, \dots, z_{N}} {\prod_{j = 1}^{N} P (z_{j} ∣ y_{j}, θ^{(i)}) \cdot \ln P (y_{1}, z_{1} ∣ θ)} + \sum_{z_{1}, z_{2}, \dots, z_{N}} {\prod_{j = 1}^{N} P (z_{j} ∣ y_{j}, θ^{(i)}) [\sum_{j = 2}^{N} \ln P (y_{j}, z_{j} ∣ θ)]} \\ = \sum_{z_{1}, z_{2}, \dots, z_{N}} {\prod_{j = 1}^{N} P (z_{j} ∣ y_{j}, θ^{(i)}) \cdot \ln P (y_{1}, z_{1} ∣ θ)} + \\ \sum_{z_{1}, z_{2}, \dots, z_{N}} {\prod_{j = 1}^{N} P (z_{j} ∣ y_{j}, θ^{(i)}) \cdot \ln P (y_{2}, z_{2} ∣ θ)} + \\ \dots + \\ \sum_{z_{1}, z_{2}, \dots, z_{N}} {\prod_{j = 1}^{N} P (z_{j} ∣ y_{j}, θ^{(i)}) \cdot \ln P (y_{N}, z_{N} ∣ θ)} \end{aligned} \end{matrix}

$\sum_{z_{1}, z_{2}, \ldots, z_{N}}\left\{\prod_{j=1}^{N} P\left(z_{j} \mid y_{j}, \theta^{(i)}\right) \cdot \ln P\left(y_{1}, z_{1} \mid \theta\right)\right\}$

\begin{matrix} (19) & \begin{aligned} \sum_{z_{1}, z_{2}, \dots, z_{N}} {\prod_{j = 1}^{N} P (z_{j} ∣ y_{j}, θ^{(i)}) \cdot \ln P (y_{1}, z_{1} ∣ θ)} \\ = \sum_{z_{1}, z_{2}, \dots, z_{N}} {\prod_{j = 2}^{N} P (z_{j} ∣ y_{j}, θ^{(i)}) \cdot P (z_{1} ∣ y_{1}, θ^{(i)}) \cdot \ln P (y_{1}, z_{1} ∣ θ)} \\ = \sum_{z_{2}, \dots z_{N}} {\prod_{j = 2}^{N} P (z_{j} ∣ y_{j}, θ^{(i)}) \cdot P (z_{1} = 1 ∣ y_{1}, θ^{(i)}) \cdot \ln P (y_{1}, z_{1} = 1 ∣ θ)} \\ + \sum_{z_{2}, \dots, z_{N}} {\prod_{j = 2}^{N} P (z_{j} ∣ y_{j}, θ^{(i)}) \cdot P (z_{1} = 0 ∣ y_{1}, θ^{(i)}) \cdot \ln P (y_{1}, z_{1} = 0 ∣ θ)} \\ = P (z_{1} = 1 ∣ y_{1}, θ^{(i)}) \ln P (y_{1}, z_{1} = 1 ∣ θ) \sum_{z_{2}, \dots, z_{N}} {\prod_{j = 2}^{N} P (z_{j} ∣ y_{j}, θ^{(i)})} \\ + P (z_{1} = 0 ∣ y_{1}, θ^{(i)}) \ln P (y_{1}, z_{1} = 0 ∣ θ) \sum_{z_{2}, \dots z_{N}} {\prod_{j = 2}^{N} P (z_{j} ∣ y_{j}, θ^{(i)})} \\ = [P (z_{1} = 1 ∣ y_{1}, θ^{(i)}) \ln P (y_{1}, z_{1} = 1 ∣ θ) + P (z_{1} = 0 ∣ y_{1}, θ^{(i)}) \ln P (y_{1}, z_{1} = 0 ∣ θ)] \sum_{z_{2}, \dots, z_{N}} {\prod_{j = 2}^{N} P (z_{j} ∣ y_{j}, θ^{(i)})} \\ = \sum_{z_{1}} P (z_{1} ∣ y_{1}, θ^{(i)}) \ln P (y_{1}, z_{1} ∣ θ) \sum_{z_{2}, \dots, z_{N}} {\prod_{j = 2}^{N} P (z_{j} ∣ y_{j}, θ^{(i)})} \\ = \sum_{z_{1}} P (z_{1} ∣ y_{1}, θ^{(i)}) \ln P (y_{1}, z_{1} ∣ θ) {\sum_{z_{3}, \dots, z_{N}} [\prod_{j = 3}^{N} P (z_{j} ∣ y_{j}, θ^{(i)}) \cdot P (z_{2} = 1 ∣ y_{2}, θ^{(i)})] + \sum_{z_{3}, \dots, z_{N}} [\prod_{j = 3}^{N} P (z_{j} ∣ y_{j}, θ^{(i)}) \cdot P (z_{2} = 0 ∣ y_{2}, θ^{(i)})]} \\ = \sum_{z_{1}} P (z_{1} ∣ y_{1}, θ^{(i)}) \ln P (y_{1}, z_{1} ∣ θ) {P (z_{2} = 1 ∣ y_{2}, θ^{(i)}) \sum_{z_{3}, \dots, z_{N}} [\prod_{j = 3}^{N} P (z_{j} ∣ y_{j}, θ^{(i)})] + P (z_{2} = 0 ∣ y_{2}, θ^{(i)}) \sum_{z_{3}, \dots, z_{N}} [\prod_{j = 3}^{N} P (z_{j} ∣ y_{j}, θ^{(i)})]} \\ = \sum_{z_{1}} P (z_{1} ∣ y_{1}, θ^{(i)}) \ln P (y_{1}, z_{1} ∣ θ) {[P (z_{2} = 1 ∣ y_{2}, θ^{(i)}) + P (z_{2} = 0 ∣ y_{2}, θ^{(i)})] \sum_{z_{1}, \dots, z_{N}} [\prod_{j = 3}^{N} P (z_{j} ∣ y_{j}, θ^{(i)})]} \\ = \sum_{z_{1}} P (z_{1} ∣ y_{1}, θ^{(i)}) \ln P (y_{1}, z_{1} ∣ θ) {\sum_{z_{2}} P (z_{2} ∣ y_{2}, θ^{(i)}) \sum_{z_{1}, \dots, z_{N}} [\prod_{j = 3}^{N} P (z_{j} ∣ y_{j}, θ^{(i)}]} \\ = \sum_{z_{1}} P (z_{1} ∣ y_{1}, θ^{(i)}) \ln P (y_{1}, z_{1} ∣ θ) {\sum_{z_{2}} P (z_{2} ∣ y_{2}, θ^{(i)}) \times \sum_{z_{3}} P (z_{3} ∣ y_{3}, θ^{(i)}) \times \dots \times \sum_{z_{N}} P (z_{N} ∣ y_{N}, θ^{(i)})} \\ = \sum_{z_{1}} P (z_{1} ∣ y_{1}, θ^{(i)}) \ln P (y_{1}, z_{1} ∣ θ) \times {1 \times 1 \times \dots \times 1} \\ = \sum_{z_{1}} P (z_{1} ∣ y_{1}, θ^{(i)}) \ln P (y_{1}, z_{1} ∣ θ) \end{aligned} \end{matrix}

所以，

\begin{matrix} (20) & \sum_{z_{1}, z_{2}, \dots, z_{N}} {\prod_{j = 1}^{N} P (z_{j} ∣ y_{j}, θ^{(i)}) \cdot \ln P (y_{1}, z_{1} ∣ θ)} = \sum_{z_{1}} P (z_{1} ∣ y_{1}, θ^{(i)}) \ln P (y_{1}, z_{1} ∣ θ) \end{matrix}

$\text{Q}$ 函数可得：

\begin{matrix} (21) & \begin{aligned} Q (θ ∣ θ^{(i)}) & = \sum_{z_{1}, z_{2}, \dots, z_{N}} {\prod_{j = 1}^{N} P (z_{j} ∣ y_{j}, θ^{(i)}) \cdot \ln P (y_{1}, z_{1} ∣ θ)} + \\ \sum_{z_{1}, z_{2}, \dots, z_{N}} {\prod_{j = 1}^{N} P (z_{j} ∣ y_{j}, θ^{(i)}) \cdot \ln P (y_{2}, z_{2} ∣ θ)} + \\ \dots + \\ \sum_{z_{1}, z_{2}, \dots, z_{N}} {\prod_{j = 1}^{N} P (z_{j} ∣ y_{j}, θ^{(i)}) \cdot \ln P (y_{N}, z_{N} ∣ θ)} \\ = \sum_{z_{1}} P (z_{1} ∣ y_{1}, θ^{(i)}) \ln P (y_{1}, z_{1} ∣ θ) + \dots + \sum_{z_{N}} P (z_{N} ∣ y_{N}, θ^{(i)}) \ln P (y_{N}, z_{N} ∣ θ) \\ = \sum_{j = 1}^{N} [\sum_{z_{j}} P (z_{j} ∣ y_{j}, θ^{(i)}) \ln P (y_{j}, z_{j} ∣ θ)] \\ = \sum_{j = 1}^{N} [P (z_{j} = 1 ∣ y_{j}, θ^{(i)}) \ln P (y_{j}, z_{j} = 1 ∣ θ) + P (z_{j} = 0 ∣ y_{j}, θ^{(i)}) \ln P (y_{j}, z_{j} = 0 ∣ θ)] \end{aligned} \end{matrix}

由于：

\begin{matrix} (22) & \begin{aligned} {\begin{matrix} P (y_{j}, z_{j} = 1 ∣ θ) = π p^{y_{j}} (1 - p)^{1 - y_{j}} \\ P (y_{j}, z_{j} = 0 ∣ θ) = (1 - π) q^{y_{j}} (1 - q)^{1 - y_{j}} \end{matrix} \\ {\begin{matrix} P (z_{j} = 1 ∣ y_{j}, θ^{(i)}) = \frac{P (z_{j} = 1, y_{j} ∣ θ^{(i)})}{P (y_{j} ∣ θ^{(i)})} = \frac{π^{(i)} {[p^{(i)}]}^{y_{j}} {(1 - p^{(i)})}^{1 - y_{j}}}{π^{(i)} {[p^{(i)}]}^{y_{j}} {(1 - p^{(i)})}^{1 - y_{j}} + (1 - π^{(i)}) {[q^{(i)}]}^{y_{j}} {(1 - q^{(i)})}^{1 - y_{j}}} = μ_{j}^{(i + 1)} \\ P (z_{j} = 0 ∣ y_{j}, θ^{(i)}) = 1 - P (z_{j} = 1 ∣ y_{j}, θ^{(i)}) = (1 - μ_{j}^{(i + 1)}) \end{matrix} \end{aligned} \end{matrix}

$\text{Q}$ 函数的最终形式为：

\begin{matrix} (23) & Q (θ ∣ θ^{(i)}) = \sum_{j = 1}^{N} {μ_{j}^{(i + 1)} \ln [π p^{y_{j}} (1 - p)^{1 - y_{j}}] + (1 - μ_{j}^{(i + 1)}) \ln [(1 - π) q^{y_{j}} (1 - q)^{1 - y_{j}}]} \end{matrix}

求Q函数达到极大的参数

$\text{Q}$ $\theta^{(i+1)}=\left(\pi^{(i+1)}, p^{(i+1)}, q^{(i+1)}\right)$ 。

$\pi$ 求偏导

$\text{Q}$ $\mathbf{\pi}$ 求一阶偏导数，并令一阶偏导数为0：

\begin{matrix} (24) & \begin{aligned} \frac{\partial Q (θ ∣ θ^{(i)})}{\partial π} & = \sum_{j = 1}^{N} \frac{\partial}{\partial π} {μ_{j}^{(i + 1)} \ln [π p^{y_{j}} (1 - p)^{1 - y_{j}}] + (1 - μ_{j}^{(i + 1)}) \ln [(1 - π) q^{y_{j}} (1 - q)^{1 - y_{j}}]} \\ = \sum_{j = 1}^{N} {μ_{j}^{(i + 1)} \frac{p^{y_{j}} (1 - p)^{1 - y_{j}}}{π p^{y_{j}} (1 - p)^{1 - y_{j}}} + (1 - μ_{j}^{(i + 1)}) \frac{- q^{y_{j}} (1 - q)^{1 - y_{j}}}{(1 - π) q^{y_{j}} (1 - q)^{1 - y_{j}}}} \\ = \sum_{j = 1}^{N} {\frac{μ_{j}^{(i + 1)} (1 - π) p^{y_{j}} (1 - p)^{1 - y_{j}} q_{j} (1 - q)^{1 - y_{j}}}{π (1 - π) p^{y_{j}} (1 - p)^{1 - y_{j}} q^{y_{j}} (1 - q)^{1 - y_{j}}} + \frac{(μ_{j}^{(i + 1)} - 1) π p_{j} (1 - p)^{1 - y_{j}} q^{y_{j}} (1 - q)^{1 - y_{j}}}{π (1 - π) p^{y_{j}} (1 - p)^{1 - y_{j}} q^{y_{j}} (1 - q)^{1 - y_{j}}}} \\ = \sum_{j = 1}^{N} {\frac{μ_{j}^{(i + 1)} p^{y_{j}} (1 - p)^{1 - y_{j}} q^{y_{j}} (1 - q)^{1 - y_{j}} - π p^{y_{j}} (1 - p)^{1 - y_{j}} q^{y_{j}} (1 - q)^{1 - y_{j}}}{π (1 - π) p^{y_{j}} (1 - p)^{1 - y_{j}} q^{y_{j}} (1 - q)^{1 - y_{j}}}} \\ = \sum_{j = 1}^{N} [\frac{μ_{j}^{(i + 1)} - π}{π (1 - π)}] \\ = \frac{\sum_{j = 1}^{N} μ_{j}^{(i + 1)} - \sum_{j = 1}^{N} π}{π (1 - π)} \\ = \frac{\sum_{j = 1}^{N} μ_{j}^{(i + 1)} - N π}{π (1 - π)} \end{aligned} \end{matrix}

令上式为0，可得：

\begin{matrix} (25) & \begin{matrix} \frac{\partial Q (θ ∣ θ^{(i)})}{\partial π} = \frac{\sum_{j = 1}^{N} μ_{j}^{(i + 1)} - N π}{π (1 - π)} = 0 \\ \sum_{j = 1}^{N} μ_{j}^{(i + 1)} - N π = 0 \\ N π = \sum_{j = 1}^{N} μ_{j}^{(i + 1)} \\ π = \frac{1}{N} \sum_{j = 1}^{N} μ_{j}^{(i + 1)} \Rightarrow π^{(i + 1)} = \frac{1}{N} \sum_{j = 1}^{N} μ_{j}^{(i + 1)} \end{matrix} \end{matrix}

$\mathbf{p}$ 求偏导

$\text{Q}$ $\mathbf{p}$ 求一阶偏导数，并令一阶偏导数为0：

\begin{matrix} (26) & \begin{aligned} \frac{\partial Q (θ ∣ θ^{(i)})}{\partial p} & = \sum_{j = 1}^{N} \frac{\partial}{\partial p} {μ_{j}^{(i + 1)} \ln [π p^{y_{j}} (1 - p)^{1 - y_{j}}] + (1 - μ_{j}^{(i + 1)}) \ln [(1 - π) q^{y_{j}} (1 - q)^{1 - y_{j}}]} \\ = \sum_{j = 1}^{N} \frac{\partial}{\partial p} {μ_{j}^{(i + 1)} \ln [π p^{y_{j}} (1 - p)^{1 - y_{j}}]} \\ = \sum_{j = 1}^{N} \frac{\partial}{\partial p} {μ_{j}^{(i + 1)} [\ln π + y_{j} \ln p + (1 - y_{j}) \ln (1 - p)]} \\ = \sum_{j = 1}^{N} \frac{\partial}{\partial p} {μ_{j}^{(i + 1)} \ln π + μ_{j}^{(i + 1)} y_{j} \ln p + μ_{j}^{(i + 1)} (1 - y_{j}) \ln (1 - p)} \\ = \sum_{j = 1}^{N} \frac{\partial}{\partial p} {μ_{j}^{(i + 1)} y_{j} \ln p + μ_{j}^{(i + 1)} (1 - y_{j}) \ln (1 - p)} \\ = \sum_{j = 1}^{N} {\frac{μ_{j}^{(i + 1)} y_{j}}{p} + \frac{(- 1) \cdot μ_{j}^{(i + 1)} (1 - y_{j})}{(1 - p)}} \\ = \sum_{j = 1}^{N} \frac{μ_{j}^{(i + 1)} y_{j}}{p} - \sum_{j = 1}^{N} \frac{μ_{j}^{(i + 1)} (1 - y_{j})}{(1 - p)} \\ = \frac{\sum_{j = 1}^{N} μ_{j}^{(i + 1)} y_{j}}{p} - \frac{\sum_{j = 1}^{N} μ_{j}^{(i + 1)} (1 - y_{j})}{(1 - p)} \end{aligned} \end{matrix}

令上式等于0可得：

\begin{matrix} (27) & \begin{matrix} \frac{\partial Q (θ ∣ θ^{(i)})}{\partial p} = \frac{\sum_{j = 1}^{N} μ_{j}^{(i + 1)} y_{j}}{p} - \frac{\sum_{j = 1}^{N} μ_{j}^{(i + 1)} (1 - y_{j})}{(1 - p)} = 0 \\ \frac{\sum_{j = 1}^{N} μ_{j}^{(i + 1)} y_{j}}{p} = \frac{\sum_{j = 1}^{N} μ_{j}^{(i + 1)} (1 - y_{j})}{(1 - p)} \\ (1 - p) \sum_{j = 1}^{N} μ_{j}^{(i + 1)} y_{j} = p \sum_{j = 1}^{N} μ_{j}^{(i + 1)} (1 - y_{j}) \\ \sum_{j = 1}^{N} μ_{j}^{(i + 1)} y_{j} - p \sum_{j = 1}^{N} μ_{j}^{(i + 1)} y_{j} = p \sum_{j = 1}^{N} μ_{j}^{(i + 1)} - p \sum_{j = 1}^{N} μ_{j}^{(i + 1)} y_{j} \\ \sum_{j = 1}^{N} μ_{j}^{(i + 1)} y_{j} = p \sum_{j = 1}^{N} μ_{j}^{(i + 1)} \\ p = \frac{\sum_{j = 1}^{N} μ_{j}^{(i + 1)} y_{j}}{\sum_{j = 1}^{N} μ_{j}^{(i + 1)}} \Rightarrow p^{(i + 1)} = \frac{\sum_{j = 1}^{N} μ_{j}^{(i + 1)} y_{j}}{\sum_{j = 1}^{N} μ_{j}^{(i + 1)}} \end{matrix} \end{matrix}

$\mathbf{q}$ 求偏导

$\text{Q}$ $\mathbf{q}$ 求一阶偏导数，并令一阶偏导数为0：

\begin{matrix} (28) & \begin{aligned} \frac{\partial Q (θ ∣ θ^{(i)})}{\partial q} & = \sum_{j = 1}^{N} \frac{\partial}{\partial q} {μ_{j}^{(i + 1)} \ln [π p^{y_{j}} (1 - p)^{1 - y_{j}}] + (1 - μ_{j}^{(i + 1)}) \ln [(1 - π) q^{y_{j}} (1 - q)^{1 - y_{j}}]} \\ = \sum_{j = 1}^{N} \frac{\partial}{\partial q} {(1 - μ_{j}^{(i + 1)}) \ln [(1 - π) q^{y_{j}} (1 - q)^{1 - y_{j}}]} \\ = \sum_{j = 1}^{N} \frac{\partial}{\partial q} {(1 - μ_{j}^{(i + 1)}) [\ln (1 - π) + y_{j} \ln q + (1 - y_{j}) \ln (1 - q)]} \\ = \sum_{j = 1}^{N} \frac{\partial}{\partial q} {(1 - μ_{j}^{(i + 1)}) \ln (1 - π) + (1 - μ_{j}^{(i + 1)}) y_{j} \ln q + (1 - μ_{j}^{(i + 1)}) (1 - y_{j}) \ln (1 - q)} \\ = \sum_{j = 1}^{N} \frac{\partial}{\partial q} {(1 - μ_{j}^{(i + 1)}) y_{j} \ln q + (1 - μ_{j}^{(i + 1)}) (1 - y_{j}) \ln (1 - q)} \\ = \sum_{j = 1}^{N} {\frac{(1 - μ_{j}^{(i + 1)}) y_{j}}{q} + \frac{(- 1) \cdot (1 - μ_{j}^{(i + 1)}) (1 - y_{j})}{(1 - q)}} \\ = \sum_{j = 1}^{N} \frac{(1 - μ_{j}^{(i + 1)}) y_{j}}{q} - \sum_{j = 1}^{N} \frac{(1 - μ_{j}^{(i + 1)}) (1 - y_{j})}{(1 - q)} \\ = \frac{\sum_{j = 1}^{N} (1 - μ_{j}^{(i + 1)}) y_{j}}{q} - \frac{\sum_{j = 1}^{N} (1 - μ_{j}^{(i + 1)}) (1 - y_{j})}{(1 - q)} \end{aligned} \end{matrix}

令上式等于0可得：

\begin{matrix} (29) & \begin{matrix} \frac{\partial Q (θ ∣ θ^{(i)})}{\partial q} = \frac{\sum_{j = 1}^{N} (1 - μ_{j}^{(i + 1)}) y_{j}}{q} - \frac{\sum_{j = 1}^{N} (1 - μ_{j}^{(i + 1)}) (1 - y_{j})}{(1 - q)} = 0 \\ \frac{\sum_{j = 1}^{N} (1 - μ_{j}^{(i + 1)}) y_{j}}{q} = \frac{\sum_{j = 1}^{N} (1 - μ_{j}^{(i + 1)}) (1 - y_{j})}{(1 - q)} \\ (1 - q) \sum_{j = 1}^{N} (1 - μ_{j}^{(i + 1)}) y_{j} = q \sum_{j = 1}^{N} (1 - μ_{j}^{(i + 1)}) (1 - y_{j}) \\ \sum_{j = 1}^{N} (1 - μ_{j}^{(i + 1)}) y_{j} - q \sum_{j = 1}^{N} (1 - μ_{j}^{(i + 1)}) y_{j} = q \sum_{j = 1}^{N} (1 - μ_{j}^{(i + 1)}) - q \sum_{j = 1}^{N} (1 - μ_{j}^{(i + 1)}) y_{j} \\ \sum_{j = 1}^{N} (1 - μ_{j}^{(i + 1)}) y_{j} = q \sum_{j = 1}^{N} (1 - μ_{j}^{(i + 1)}) \\ q = \frac{\sum_{j = 1}^{N} (1 - μ_{j}^{(i + 1)}) y_{j}}{\sum_{j = 1}^{N} (1 - μ_{j}^{(i + 1)})} \Rightarrow q^{(i + 1)} = \frac{\sum_{j = 1}^{N} (1 - μ_{j}^{(i + 1)}) y_{j}}{\sum_{j = 1}^{N} (1 - μ_{j}^{(i + 1)})} \end{matrix} \end{matrix}

总结

$\text{Q}$ 函数的极大值，可使用如下公式进行参数迭代：

\begin{matrix} (30) & \begin{aligned} π^{(i + 1)} & = \frac{1}{N} \sum_{j = 1}^{N} μ_{j}^{(i + 1)} \\ p^{(i + 1)} & = \frac{\sum_{j = 1}^{N} μ_{j}^{(i + 1)} y_{j}}{\sum_{j = 1}^{N} μ_{j}^{(i + 1)}} \\ q^{(i + 1)} & = \frac{\sum_{j = 1}^{N} (1 - μ_{j}^{(i + 1)}) y_{j}}{\sum_{j = 1}^{N} (1 - μ_{j}^{(i + 1)})} \end{aligned} \end{matrix}

背景知识

相似三角形

梯形中位线推论

Jensen(琴生)不等式

期望

三硬币模型引入

EM算法

为什么需要EM算法

EM算法推导

使用EM求解三硬币模型

E步：导出Q函数

求Q函数达到极大的参数

对π\pi求偏导

对p\mathbf{p}求偏导

对q\mathbf{q}求偏导

总结

参考文档

$\pi$ 求偏导

$\mathbf{p}$ 求偏导

$\mathbf{q}$ 求偏导