LDA2022-10-27

LDA简介

潜在狄利克雷分配（latent Dirichlet allocation,LDA），是基于贝叶斯学习的话题模型。

LDA模型是文本集合的生成概率模型。假设每个文本由话题的一个多项分布表示，每个话题由单词的一个多项分布表示。特别假设文本的话题分布的先验分布是狄利克雷分布，话题的单词分布的先验分布也是狄利克雷分布。

LDA的文本集合的生成过程如下：

随机生成一个文本的话题分布；
在该文本的每个位置，依据该文本的话题分布随机生成一个话题，然后在该位置依据该话题的单词分布随机生成一个单词，直到文本的最后一个位置，生成整个文本；
重复以上步骤，生成所有文本。

LDA模型是含有隐变量的概率图模型：

隐变量：
- 每个文本的话题分布
- 每个话题的单词分布
- 文本的每个位置的话题
观测变量：
- 文本的每个位置的单词

LDA模型的学习通常使用吉布斯采样或变分EM算法，前者是蒙特卡罗法，后者是近似算法。

狄利克雷分布

分布定义

概率分布关系

概率分布的关系如上图所示，各概率分布定义如下所述。

多项分布

$n$ $k$ $i$ $p_i$ $i$ $n_i$ $X = (X_1, X_2, \cdots, X_k)$ $X_i$ $i$ $X$ 服从多项分布。

$\text{多项分布定义：若多元随机变量 } X = (X_1, X_2, \cdots, X_k)的概率质量函数为：$

\begin{matrix} (1) & \begin{aligned} P (X_{1} = n_{1}, X_{2} = n_{2}, \dots, X_{k} = n_{k}) & = \frac{n!}{n_{1}! n_{2}! \dots n_{k}!} p_{1}^{n_{1}} p_{2}^{n_{2}} \dots p_{k}^{n_{k}} \\ = \frac{n!}{\prod_{i = 1}^{k} n_{i}!} \prod_{i = 1}^{k} p_{i}^{n_{i}} \\ 其 中 ， p & = (p_{1}, p_{2}, \dots, p_{k}) ， p_{i} \geq 0 ， i = 1, 2, \dots, k \\ \sum_{i = 1}^{k} p_{i} = 1 \\ \sum_{i = 1}^{k} n_{i} = n \end{aligned} \end{matrix}

$则称随机变量X服从参数为(n,p)的多项分布，记作 X \sim \text{Mult}(n,p)$ 。

$n$ $k$ 种结果的概率。

狄利克雷分布

狄利克雷分布是一种多元连续随机变量的概率分布，是贝塔分布的扩展。在贝叶斯学习中，狄利克雷分布常作为多项分布的先验分布进行使用。

$狄利克雷分布：若多元连续随机变量\theta=(\theta_1, \theta_2,\cdots,\theta_k)的概率密度函数为：$

\begin{matrix} (2) & \begin{aligned} p (θ ∣ α) & = \frac{Γ (\sum_{i = 1}^{k} α_{i})}{\prod_{i = 1}^{k} Γ (α_{i})} \prod_{i = 1}^{k} θ_{i}^{α_{i} - 1} \\ 其 中 ， & \sum_{i = 1}^{k} θ_{i} = 1 ， θ_{i} \geq 0 ， i = 1, 2, \dots, k \\ α = (α_{1}, α_{2}, \dots, α_{k}) ， α_{i} > 0 ， i = 1, 2, \dots, k \end{aligned} \end{matrix}

$则称随机变量\theta服从参数为\alpha的狄利克雷分布，记作 \theta \sim \text{Dir}(\alpha)$ 。

$\Gamma(s)$ 是伽马函数，定义为：

\begin{matrix} (3) & Γ (s) = \int_{0}^{\infty} x^{s - 1} e^{- x} d x, s > 0 \end{matrix}

该函数具有如下性质：

\begin{matrix} (4) & \begin{aligned} Γ (s + 1) & = s Γ (s) \\ Γ (s + 1) & = s! 当 s 为 自 然 数 时 \end{aligned} \end{matrix}

令：

\begin{matrix} (5) & B (α) = \frac{\prod_{i = 1}^{k} Γ (α_{i})}{Γ (\sum_{i = 1}^{k} α_{i})} \end{matrix}

则狄利克雷分布的密度函数可以写成：

\begin{matrix} (6) & \begin{matrix} p (θ ∣ α) = \frac{1}{B (α)} \prod_{i = 1}^{k} θ_{i}^{α_{i} - 1} \\ 其 中 ， B (α) 是 规 范 化 因 子 ， 称 为 多 元 贝 塔 函 数 \end{matrix} \end{matrix}

由概率密度函数性质得：

\begin{matrix} (7) & \begin{matrix} \int \frac{Γ (\sum_{i = 1}^{k} α_{i})}{\prod_{i = 1}^{k} Γ (α_{i})} \prod_{i = 1}^{k} θ_{i}^{α_{i} - 1} d θ = \frac{Γ (\sum_{i = 1}^{k} α_{i})}{\prod_{i = 1}^{k} Γ (α_{i})} \int \prod_{i = 1}^{k} θ_{i}^{α_{i} - 1} d θ = 1 \end{matrix} \end{matrix}

因此：

\begin{matrix} (8) & B (α) = \int \prod_{i = 1}^{k} θ_{i}^{α_{i} - 1} d θ \end{matrix}

上式为多元贝塔函数的积分表示。

二项分布

$X$ $m$ ，其概率质量函数为：

\begin{matrix} (9) & \begin{matrix} P (X = m) = (\begin{matrix} n \\ m \end{matrix}) p^{m} (1 - p)^{n - m}, m = 0, 1, 2, \dots, n \\ 其 中 ， n 和 p (0 \leq p \leq 1) 是 参 数 \end{matrix} \end{matrix}

$n$ 为1时，二项分布变成伯努利分布或0-1分布。

贝塔分布

$X$ $[0,1]$ ，其概率密度函数为：

\begin{matrix} (10) & \begin{aligned} p (x) & = {\begin{cases} \frac{1}{B (s, t)} x^{s - 1} (1 - x)^{t - 1}, & 0 ⩽ x ⩽ 1 \\ 0, & 其他 \end{cases} \\ 其 中 ， s > 0 和 t > 0 是 参 数 \end{aligned} \end{matrix}

$\mathrm{~B}(s, t)$ 是贝塔函数，定义为：

\begin{matrix} (11) & \begin{aligned} B (s, t) & = \frac{Γ (s) Γ (t)}{Γ (s + t)} = \int_{0}^{1} x^{s - 1} (1 - x)^{t - 1} d x \\ 其 中 ， s > 0 和 t > 0 是 参 数 \end{aligned} \end{matrix}

$s,t$ 是自然数时，

\begin{matrix} (12) & B (s, t) = \frac{(s - 1)! (t - 1)!}{(s + t - 1)!} \end{matrix}

共轭先验

狄利克雷重要性质：（1）狄利克雷分布属于指数族分布；（2）狄利克雷分布是多项分布的共轭先验。

如果后验分布与先验分布属于同类，则先验分布与后验分布称为共轭分布，先验分布称为共轭先验。

如果多线分布的先验分布是狄利克雷分布，则其后验分布也是狄利克雷分布，两者构成共轭先验。作为先验分布的狄利克雷分布的参数又称为超参数。使用共轭分布的好处是便于从先验分布计算后验分布。

$\mathcal{W}= \{w_1, w_2, \cdots, w_k \}$ $k$ $X$ $\mathcal{W}$ $X \sim \mathrm{Mult}(n, \theta)$ $n=(n_1, n_2, \cdots, n_k)$ $\theta = (\theta_1, \theta_2, \cdots, \theta_k)$ $n$ $\mathcal{W}$ $n_i$ $w_i \; (i=1,2,\cdots, k)$ $\theta_i$ $w_i$ 出现的概率。

$D$ $D$ $\theta$ $p(\theta \mid D)$ 。

$D$ ，似然函数是：

\begin{matrix} (13) & p (D ∣ θ) = θ_{1}^{n_{1}} θ_{2}^{n_{2}} \dots θ_{k}^{n_{k}} = \prod_{i = 1}^{k} θ_{i}^{n_{i}} \end{matrix}

$\theta$ $p(\theta \mid \alpha)$ $\alpha=(\alpha_1, \alpha_2, \cdots, \alpha_k)$ $\theta$ 的先验分布为：

\begin{matrix} (14) & p (θ ∣ α) = \frac{Γ (\sum_{i = 1}^{k} α_{i})}{\prod_{i = 1}^{k} Γ (α_{i})} \prod_{i = 1}^{k} θ_{i}^{α_{i} - 1} = \frac{1}{B (α)} \prod_{i = 1}^{k} θ_{i}^{α_{i} - 1} = Dir (θ ∣ α), α_{i} > 0 \end{matrix}

$D$ $\alpha$ $\theta$ 的后验概率分布是：

\begin{matrix} (15) & \begin{aligned} p (θ ∣ D, α) & = \frac{p (θ, D, α)}{p (D, α)} \\ = \frac{p (α) p (θ, D ∣ α)}{p (α) p (D ∣ α)} \\ = \frac{p (θ ∣ α) p (D ∣ θ, α)}{p (D ∣ α)} \\ = \frac{p (θ ∣ α) p (D ∣ θ)}{p (D ∣ α)} \\ = \frac{\prod_{i = 1}^{k} θ_{i}^{n_{i}} \frac{1}{B (α)} θ_{i}^{α_{i} - 1}}{\int \prod_{i = 1}^{k} θ_{i}^{n_{i}} \frac{1}{B (α)} θ_{i}^{α_{i} - 1} d θ} \\ = \frac{1}{B (α + n)} \prod_{i = 1}^{k} θ_{i}^{α_{i} + n_{i} - 1} \\ = Dir (θ ∣ α + n) \end{aligned} \end{matrix}

$p(\theta \mid \alpha)$ $p(\theta \mid D, \alpha)$ $\alpha=(\alpha_1, \alpha_2, \cdots, \alpha_k)$ $n=(n_1, n_2, \cdots, n_k)$ 。

备注：关于上述的公式推导，补充个人的解释

$p(\theta \mid \alpha )p(D \mid \theta) = p(\theta \mid \alpha) p(D \mid \theta, \alpha)$

$\alpha$ $\theta$ $D$ $\alpha \rightarrow \theta \rightarrow D$ $p(D \mid \theta) = p(D \mid \theta, \alpha)$ 。

LDA模型

基本想法

LDA文本生成过程

上图为LDA的文本生成过程：

基于单词分布的先验分布（狄利克雷分布）生成多个单词分布，即决定多个话题内容
基于话题分布的先验分布（狄利克雷分布）生成多个话题分布，即决定多个文本内容
对每个文本，基于该文本的话题分布生成话题序列，针对每一个话题，基于话题的单词分布生成单词，整体构成一个单词序列，即生成文本，重复这个过程生成所有文本

LDA是概率图模型，其特点是以狄利克雷分布为多项分布的先验分布，学习就是给定文本集合，通过后验概率分布的估计，推断模型的所有参数。利用LDA进行话题分析，就是对给定文本集合，学习到每个文本的话题分布，以及每个话题的单词分布。

LDA与PLSA的异同：

相同点
- 假设话题是单词的多项分布，文本是话题的多项分布；
不同点
- 对文本生成过程假设不同：LDA使用狄利克雷分布作为先验分布，而PLSA不使用先验分布（或假设先验分布是均匀分布）；
- 学习过程不同：LDA基于贝叶斯学习，PLSA基于极大似然估计。

模型定义

模型要素

LDA使用三个集合：

单词集合
$W = \{w_1, \cdots, w_v, \cdots,w_V \}$ $w_v$ $v$ $v=1,2,\cdots,V$ $V$ 是单词的个数。
文本集合
$D = \{\mathrm{w_1}, \cdots, \mathrm{w_m}, \cdots, \mathrm{w_M }\}$ $\mathrm{w_m}$ $m$ $m=1,2,\cdots,M$ $M$ 是文本的个数。
$\mathrm{w_m}$ $\mathrm{w_m} = (w_{m1}, \cdots, w_{mn}, \cdots, w_{mN_m})$ $w_{mn}$ $\mathrm{w_m}$ $n$ $n=1,2,\cdots,N_m$ $\mathrm{w_m}$ 中单词的个数。
话题集合
$Z = \{z_1, \cdots, z_k, \cdots,z_K \}$ $z_k$ $k$ $k=1,2,\cdots,K$ $K$ 是话题的个数。

$z_k$ 生成单词 $生成顺序为 \;\mathrm{Dir}(\beta) \rightarrow \varphi_k \rightarrow p(w \mid z_k) \sim \mathrm{Mult}(1, \varphi_k)$

$z_k$ $p(w \mid z_k)$ $w \in W$
$p(w \mid z_k)$ $\varphi_k$
$\varphi_k$ $\beta$
$\varphi_k$ $V$ $\varphi_k = (\varphi_{k1}, \varphi_{k2}, \cdots,\varphi_{kV})$ $\varphi_{kv}$ $z_k$ $w_v$ 的概率
$K \times V$ $\pmb{\varphi} = \{\varphi_k \}_{k=1}^K$
$\beta$ $V$ $\beta = (\beta_1, \beta_2, \cdots, \beta_V)$

$\varphi_k \sim \mathrm{Dir}(\beta)$

$p(w \mid z_k) \sim \mathrm{Mult}(1, \varphi_k)$

$\mathrm{w_m}$ 生成话题 $生成顺序为 \;\mathrm{Dir}(\alpha) \rightarrow \theta_m\rightarrow p(z \mid \mathrm{w_m}) \sim \mathrm{Mult}(1, \theta_m)$

$\mathrm{w_m}$ $p(z \mid \mathrm{w_m})$ $z \in Z$
$p(z \mid \mathrm{w_m})$ $\theta_m$
$\theta_m$ $\alpha$
$\theta_m$ $K$ $\theta_m = (\theta_{m1}, \theta_{m2}, \cdots,\theta_{mK})$ $\theta_{mk}$ $\mathrm{w_m}$ $z_k$ 的概率
$M \times K$ $\pmb{\theta} = \{\theta_m \}_{m=1}^M$
$\alpha$ $K$ $\alpha= (\alpha_1, \alpha_2, \cdots, \alpha_K)$
$\theta_m \sim \mathrm{Dir}(\alpha)$
$p(z \mid \mathrm{w_m}) \sim \mathrm{Mult}(1, \theta_m)$

分布示例（以文本生成话题为例）：

$\alpha = [10, 5, 1]$

$\theta$


1
>>> np.random.dirichlet([10, 5, 1], size=1).flatten()
2
array([0.60858225, 0.30296113, 0.08845661])

$p(z \mid \mathrm{w_m}) \sim \mathrm{Mult}(1, p),\; p=[0.60858225, 0.30296113, 0.08845661]$


xxxxxxxxxx
2
1
>>> np.random.multinomial(n=1, pvals=[0.81600231, 0.1605624 , 0.02343529])
2
array([1, 0, 0])

生成过程

$W$ $D$ $Z$ $\alpha$ $\beta$ 。

（1）生成话题的单词分布

$K$ $\mathrm{Dir}(\beta)$ $\varphi_k$ $\varphi_k \sim \mathrm{Dir}(\beta)$ $\varphi_k$ $z_k$ $p(w \mid z_k)$ $w \in W$ $k = 1,2,\cdots, K$ 。

（2）生成文本的话题分布

$M$ $\mathrm{Dir}(\alpha)$ $\theta_m$ $\theta_m \sim \mathrm{Dir}(\alpha)$ $\theta_m$ $\mathrm{w_m}$ $p(z \mid \mathrm{w_m})$ $\mathrm{w_m} \in D$ $m = 1,2,\cdots, M$ 。

（3）生成文本的单词序列

$\mathrm{w_m} \; (m=1,2,\cdots,M)$ $w_{mn} \; (n=1,2,\cdots,N_m)$ 的生成过程如下：

$\mathrm{Mult}(\theta_m)$ $z_{mn}$ $z_{mn} \in \mathrm{Mult}(\theta_m)$

$\Large \mathrm{Mult}(\varphi_{z_{mn}})$ $w_{mn}$ $\Large w_{mn} \in \mathrm{Mult}(\varphi_{z_{mn}})$

伪代码

LDA生成架构图

$\alpha$ $K$ ，和话题数一样
$\alpha= (\alpha_1, \alpha_2, \cdots, \alpha_K)$

$\theta$ $K$ $M$ 个，一个文档对应一个话题分布

$\theta_m \sim \mathrm{Dir}(\alpha)$

$p(z \mid \mathrm{w_m}) \sim \mathrm{Mult}(1, \theta_m)$

$p(z \mid \mathrm{w_1}) \sim \mathrm{Mult}(1, \theta_1=[0.7,0.2,0.1])$ ，则可以按该分布生成话题序列：


xxxxxxxxxx
8
1
>>> np.random.multinomial(n=1, pvals=[0.7, 0.2, 0.1])
2
array([0, 0, 1])
3
>>> np.random.multinomial(n=1, pvals=[0.7, 0.2, 0.1])
4
array([1, 0, 0])
5
>>> np.random.multinomial(n=1, pvals=[0.7, 0.2, 0.1])
6
array([1, 0, 0])
7
>>> np.random.multinomial(n=1, pvals=[0.7, 0.2, 0.1])
8
array([0, 1, 0])

$\beta$ $V$ ，和单词数一样
$\beta = (\beta_1, \beta_2, \cdots, \beta_V)$
$\varphi$ $V$ $K$ 个，一个话题对应一个单词分布
$\varphi_k \sim \mathrm{Dir}(\beta)$
$p(w \mid z_k) \sim \mathrm{Mult}(1, \varphi_k)$
$\varphi_k \sim \mathrm{Dir}(\beta)$ $\varphi$ ，如下：
$p(w \mid z_1) \sim \mathrm{Mult}(1, \varphi_1 = [0.9,0.1])$
$p(w \mid z_2) \sim \mathrm{Mult}(1, \varphi_2 = [0.5,0.5])$
$p(w \mid z_3) \sim \mathrm{Mult}(1, \varphi_3 = [0.7,0.3])$

生成文本

$\text{all\_text = []}$

$\text{for m in }[1,M]:$

$\text{cur\_text = []}$

$\text{for n in }[1,N_M]:$

$\text{根据} p(z \mid \mathrm{w_m}) \sim \mathrm{Mult}(1, \theta_m) \text{生成话题，假设选择的是第k个话题}$

$\text{根据}p(w \mid z_k) \sim \mathrm{Mult}(1, \varphi_k) \text{生成单词}，\text{假设生成的是第v个单词}$

$\text{cur\_text.append(word[v])} \quad \# \text{word为单词数组}$

$\text{all\_text.append(cur\_word)}$

以第一个文档为例，该文档有两个单词，假设：

$p(z \mid \mathrm{w_1}) \sim \mathrm{Mult}(1, \theta_1=[0.7,0.2,0.1])$

$p(w \mid z_1) \sim \mathrm{Mult}(1, \varphi_1 = [0.9,0.1])$

$p(w \mid z_2) \sim \mathrm{Mult}(1, \varphi_2 = [0.5,0.5])$

$p(w \mid z_3) \sim \mathrm{Mult}(1, \varphi_3 = [0.7,0.3])$


x
1
# pos1：生成话题
2
>>> np.random.multinomial(n=1, pvals=[0.7, 0.2, 0.1])
3
array([0, 0, 1])
4
# pos1：生成单词
5
>>> np.random.multinomial(n=1, pvals=[0.7, 0.3])
6
array([0, 1])
7

8
# pos2：生成话题
9
>>> np.random.multinomial(n=1, pvals=[0.7, 0.2, 0.1])
10
array([0, 1, 0])
11
# pos2：生成单词
12
>>> np.random.multinomial(n=1, pvals=[0.5, 0.5])
13
array([0, 1])
14

15
# pos3：生成话题
16
>>> np.random.multinomial(n=1, pvals=[0.7, 0.2, 0.1])
17
array([1, 0, 0])
18
# pos3：生成单词
19
>>> np.random.multinomial(n=1, pvals=[0.9, 0.1])
20
array([1, 0])
21

概率图模型

LDA本质是概率图模型。下图为LDA作为概率图模型的板块表示，解释如下：

实心圆：观测变量
空心圆：隐变量
有向边：概率依存关系
矩形：表示重复，矩形内的数字表示重复的次数。

LDA板块表示

板块表示的优点是简洁，板块表示展开之后，称为普通的有向图表示（如下图所示）。有向图中结点表示随机变量，有向边表示概率依存关系。

LDA的展开图模型

随机变量序列的可交换性

如果随机变量的联合概率分布对随机变量的排列不变，则称该随机变量序列是可交换的。即：

\begin{matrix} (16) & \begin{matrix} P (x_{1}, x_{2}, \dots, x_{N}) = P (x_{π (1)}, x_{π (2)}, \dots, x_{π (N)}) \\ 其 中 ， π (1), π (2), \dots, π (N) 代 表 自 然 数 1, 2, \dots, N 的 任 意 一 个 排 列 \end{matrix} \end{matrix}

一个无限的随机变量序列是无限可交换的，是指它的任意一个有限子序列都是可交换的。

$X_1, X_2, \cdots, X_N, \cdots$ 是独立同分布的，那么它们是无限可交换的。反之不然。

根据De Finetti定理，任意一个无限可交换的随机变量序列对一个随机参数是条件独立同分布的。即：

\begin{matrix} (17) & P (X_{1}, X_{2}, \dots, X_{i}, \dots, ∣ Y) = P (X_{1} ∣ Y) P (X_{2} ∣ Y) \dots P (X_{i} ∣ Y) \dots \end{matrix}

LDA假设文本由无限可交换的话题序列组成。由De Finetti定理可知，实际是假设文本中的话题对一个随机参数是条件独立同分布的。所以，在参数给定的条件下，文本中的话题顺序可以忽略。作为对比，概率潜在语义模型假设文本中的话题是独立同分布的，文本中的话题的顺序也可以忽略。

概率公式

LDA模型整体是由观测变量和隐变量组成的联合概率分布，可以表示为：

\begin{matrix} (18) & p (w, z, θ, φ ∣ α, β) = [\prod_{k = 1}^{K} p (φ_{k} ∣ β)] [\prod_{m = 1}^{M} p (θ_{m} ∣ α) \prod_{n = 1}^{N_{m}} p (z_{m n} ∣ θ_{m}) p (w_{m n} ∣ z_{m n}, φ)] \end{matrix}

其中，各符号含义如下：

$\mathrm{w}$ ：所有文本中的单词序列
$\mathbf{z}$ ：所有文本中的话题序列
$\theta$ ：所有文本的话题分布的参数
$\varphi$ ：所有话题的单词分布的参数
$\alpha$ $\beta$ ：超参数
$p(\varphi_k \mid \beta)$ $\beta$ $k$ $\varphi_k$ 的生成概率
$p(\theta_m \mid \alpha)$ $\alpha$ $m$ $\theta_m$ 的生成概率
$p(z_{mn} \mid \theta_m)$ $m$ $\theta_m$ $n$ $z_{mn}$ 的生成概率
$p(w_{mn} \mid z_{mn}, \varphi)$ $m$ $n$ $z_{mn}$ $\varphi$ $m$ $n$ $w_{mn}$ 的生成概率

$m$ 个文本的联合概率分布可以表示为：

\begin{matrix} (19) & \begin{aligned} p (w_{m}, z_{m}, θ_{m}, φ ∣ α, β) & = p (φ ∣ β) p (w_{m}, z_{m}, θ_{m} ∣ α, φ) \\ = [\prod_{k = 1}^{K} p (φ_{k} ∣ β)] [p (θ_{m} ∣ α) \prod_{n = 1}^{N_{m}} p (z_{m n} ∣ θ_{m}) p (w_{m n} ∣ z_{m n}, φ)] \\ 其 中 ， w_{m} 表 示 该 文 本 中 的 单 词 序 列 \\ z_{m} 表 示 该 文 本 的 话 题 序 列 \\ θ_{m} 表 示 该 文 本 的 话 题 分 布 的 参 数 \end{aligned} \end{matrix}

LDA模型的联合分布含有隐变量，对隐变量进行积分得到边缘分布。

$\theta_m$ $\varphi$ $m$ 个文本的生成概率是（第二个公式是原书20.17，第一个公式是补充）：

\begin{matrix} (20) & \begin{array}{r} p (w_{m} ∣ θ_{m}, φ) = \prod_{n = 1}^{N_{m}} [\sum_{z_{m n} \in Z} p (z_{m n} ∣ θ_{m}) p (w_{m n} ∣ z_{m n}, φ)] \\ = \prod_{m = 1}^{N_{m}} [\sum_{k = 1}^{K} p (z_{m n} = k ∣ θ_{m}) p (w_{m n} ∣ φ_{k})] \end{array} \end{matrix}

$\alpha$ $\beta$ $m$ 个文本的生成概率是：

\begin{matrix} (21) & \begin{matrix} p (w_{m} ∣ α, β) = \int [\prod_{k = 1}^{K} p (φ_{k} ∣ β)] [\int p (θ_{m} ∣ α) \prod_{n = 1}^{N_{m}} [\sum_{z_{m n} \in Z} p (z_{m n} ∣ θ_{m}) p (w_{m n} ∣ z_{m n}, φ)] d θ_{m}] d φ \end{matrix} \end{matrix}

$\alpha$ $\beta$ 给定条件下所有文本的生成概率是：

\begin{matrix} (22) & p (w_{m} ∣ α, β) = \int [\prod_{k = 1}^{K} p (φ_{k} ∣ β)] [\prod_{m = 1}^{M} \int p (θ_{m} ∣ α) \prod_{n = 1}^{N_{m}} [\sum_{z_{m n} \in Z} p (z_{m n} ∣ θ_{m}) p (w_{m n} ∣ z_{m n}, φ)] d θ_{m}] d φ \end{matrix}

LDA的吉布斯抽样算法

基本想法

$D = \{\mathbf{w}_1, \cdots, \mathbf{w}_m, \cdots, \mathbf{w}_M \}$ $\mathbf{w}_m$ $m$ $\mathbf{w}_m = (w_{m1}, \cdots, \mathbf{w}_{mn}, \cdots, \mathbf{w}_{mN_M})$ ；

$\alpha$ $\beta$ 。

目标是要推断：

$\mathrm{z} = \{\mathbf{z}_1, \cdots, \mathbf{z}_m, \cdots, \mathbf{z}_M \}$ $p( \mathbf{z} \mid \mathbf{w})$ $\mathbf{z}_m$ $m$ $\mathbf{z}_m = (z_{m1}, \cdots, \mathbf{z}_{mn}, \cdots, \mathbf{z}_{mN_M})$ ；

$\theta = \{\theta_1, \cdots, \theta_m, \cdots, \theta_M \}$ $\theta_m$ $\mathbf{w}_m$ 的话题分布的参数；

$\varphi = \{\varphi_1, \cdots, \varphi_k, \cdots, \varphi_K \}$ $\varphi_k$ $z_k$ 的单词分布的参数。

$p(\mathbf{w}, \mathbf{z}, \theta, \varphi \mid \alpha, \beta)$ $\mathbf{w}$ $\mathbf{z}, \theta, \varphi$ 是隐变量。

LDA模型的学习可以采用收缩的吉布斯抽样方法，其基本想法是：

$\theta$ $\varphi$ $p(\mathbf{w}, \mathbf{z} \mid \alpha, \beta)$ $\mathbf{w}$ $\mathbf{z}$ 是不可观测；
$p( \mathbf{z} \mid \mathbf{w} , \alpha, \beta)$ $p( \mathbf{z} \mid \mathbf{w} , \alpha, \beta)$ 的样本集合；
$\theta$ $\varphi$ $p(\mathbf{w}, \mathbf{z}, \theta, \varphi \mid \alpha, \beta)$ 的所有参数估计。

算法的主要部分

$p( \mathbf{z} \mid \mathbf{w} , \alpha, \beta)$ 的吉布斯抽样。该分布表示在所有文本的单词序列所有可能话题序列 $p( \mathbf{z} \mid \mathbf{w} , \alpha, \beta)=p( z_1,z_2,z_3 \mid w_1,w_2,\cdots,w_{10} , \alpha, \beta)$ 表示已知10个文本的内容，3个话题各种情况的概率是多少。

抽样分布的表达式

首先有关系：

\begin{matrix} (23) & p (z ∣ w, α, β) = \frac{p (w, z ∣ α, β)}{p (w ∣ α, β)} \propto p (w, z ∣ α, β) \end{matrix}

$\mathbf{w}, \alpha, \beta$ 已知，分母相同，可以不予考虑。

$\mathrm{Dir}(\alpha) \rightarrow \theta_m\rightarrow p(z \mid \mathrm{w_m}) \sim \mathrm{Mult}(1, \theta_m)$ $\mathrm{Dir}(\beta) \rightarrow \varphi_k \rightarrow p(w \mid z_k) \sim \mathrm{Mult}(1, \varphi_k)$ $p(\mathbf{w}, \mathbf{z} \mid \alpha, \beta)$ 的表达式可以进一步分解为：

\begin{matrix} (24) & \begin{aligned} p (w, z ∣ α, β) & = p (w ∣ z, α, β) p (z ∣ α, β) \\ = p (w ∣ z, β) p (z ∣ α) \end{aligned} \end{matrix}

接下来，对两个因子分别处理：

$p(\mathbf{w} \mid \mathbf{z}, \beta)$
首先：
$\begin{matrix} (25) & \begin{matrix} p (w ∣ z, φ) = \prod_{k = 1}^{K} \prod_{v = 1}^{V} φ_{k v}^{n_{k v}} \\ 其中， φ_{k v} 是第 k 个话题生成第 v 个单词的概率 \\ n_{k v} 是数据中第 k 个话题生成第 v 个单词的次数 \end{matrix} \end{matrix}$
于是：
$\begin{matrix} (26) & \begin{aligned} p (w ∣ z, β) & = \int p (w ∣ z, φ) p (φ ∣ β) d φ \\ = \int \prod_{k = 1}^{K} \frac{1}{B (β)} \prod_{v = 1}^{V} φ_{k v}^{n_{k v} + β_{v} - 1} d φ \\ = \prod_{k = 1}^{K} \frac{1}{B (β)} \int \prod_{v = 1}^{V} φ_{k v}^{n_{k v} + β_{v} - 1} d φ \\ = \prod_{k = 1}^{K} \frac{B (n_{k} + β)}{B (β)} \\ 其中， n_{k} & = {n_{k 1}, n_{k 2}, \dots, n_{k V}} \end{aligned} \end{matrix}$
$p(\mathbf{z} \mid \alpha)$
首先：
$\begin{matrix} (27) & \begin{matrix} p (z ∣ θ) = \prod_{m = 1}^{M} \prod_{k = 1}^{K} θ_{m k}^{n_{m k}} \\ 其中， θ_{m k} 是第 m 个文本生成第 k 个话题的概率 \\ n_{m k} 是数据中第 m 个文本生成第 k 个话题的次数 \end{matrix} \end{matrix}$
于是：
$\begin{matrix} (28) & \begin{aligned} p (z ∣ α) & = \int p (z ∣ θ) p (θ ∣ α) d θ \\ = \int \prod_{m = 1}^{M} \frac{1}{B (α)} \prod_{k = 1}^{K} θ_{m k}^{n_{m k} + α_{k} - 1} d θ \\ = \prod_{m = 1}^{M} \frac{1}{B (α)} \int \prod_{k = 1}^{K} θ_{m k}^{n_{m k} + α_{k} - 1} d θ \\ = \prod_{m = 1}^{M} \frac{B (n_{m} + α)}{B (α)} \\ n_{m} & = {n_{m 1}, n_{m 2}, \dots, n_{m K}} \end{aligned} \end{matrix}$

由上式推导可得：

\begin{matrix} (29) & p (z, w ∣ α, β) = \prod_{k = 1}^{K} \frac{B (n_{k} + β)}{B (β)} \cdot \prod_{m = 1}^{M} \frac{B (n_{m} + α)}{B (α)} \end{matrix}

因此，收缩的吉布斯抽样分布的公式为：

\begin{matrix} (30) & p (z ∣ w, α, β) \propto \prod_{k = 1}^{K} \frac{B (n_{k} + β)}{B (β)} \cdot \prod_{m = 1}^{M} \frac{B (n_{m} + α)}{B (α)} \end{matrix}

满条件分布的表达式

$p(\mathbf{z} \mid \mathbf{w}, \alpha, \beta)$ 的满条件分布可以写成：

\begin{matrix} (31) & \begin{matrix} p (z_{i} ∣ z_{- i}, w, α, β) = \frac{1}{Z_{z_{i}}} p (z ∣ w, α, β) \\ 其 中 ， w_{i} 表 示 所 有 文 本 的 单 词 序 列 的 第 i 个 位 置 的 单 词 \\ z_{i} 表 示 单 词 w_{i} 对 应 的 话 题 \\ z_{- i} = {z_{j} : j \neq i} \\ Z_{z_{i}} 表 示 分 布 p (z ∣ w, α, β) 对 变 量 z_{i} 的 边 缘 化 因 子 \end{matrix} \end{matrix}

$i$ 个位置的话题的条件概率分布。

由上式可得：

\begin{matrix} (32) & \begin{matrix} p (z_{i} ∣ z_{- i}, w, α, β) \propto \frac{n_{k v} + β_{v}}{\sum_{v = 1}^{V} (n_{k v} + β_{v})} \cdot \frac{n_{m k} + α_{k}}{\sum_{k = 1}^{K} (n_{m k} + α_{k})} \\ 其 中 ， 第 m 个 文 本 的 第 n 个 位 置 的 单 词 w_{i} 是 单 词 集 合 的 第 v 个 单 词 \\ 其 话 题 z_{i} 是 话 题 集 合 的 第 k 个 话 题 \\ n_{k v} 表 示 第 k 个 话 题 中 第 v 个 单 词 的 计 数 ， 但 减 去 当 前 单 词 的 计 数 \\ n_{m k} 表 示 第 m 个 文 本 中 第 k 个 话 题 的 计 数 ， 但 减 去 当 前 单 词 的 话 题 的 计 数 \end{matrix} \end{matrix}

算法的后处理

$p(\mathbf{z} \mid \mathbf{w}, \alpha, \beta)$ $\mathrm{z}$ $\theta$ $\varphi$ 。

$\theta = \{\theta_m \}$ 的估计
根据LDA模型的定义，后验概率满足：
$\begin{matrix} (33) & \begin{matrix} p (θ_{m} ∣ z_{m}, α) = \frac{1}{Z_{θ_{m}}} \prod_{n = 1}^{N_{m}} p (z_{m n} ∣ θ_{m}) p (θ_{m} ∣ α) = Dir (θ_{m} ∣ n_{m} + α) \\ 其中， n_{m} = {n_{m 1}, n_{m 2}, \dots, n_{m K}} 是第 m 个文本的话题的计数 \\ z_{θ_{m}} 表示分布 p (θ_{m} ∣ z_{m}, α) 对变量 θ_{m} 的边缘化因子 \end{matrix} \end{matrix}$
$\theta = \{\theta_m \}$ 的估计式：
$\begin{matrix} (34) & θ_{m k} = \frac{n_{m k} + α_{k}}{\sum_{k = 1}^{K} (n_{m k} + α_{k})}, m = 1, 2, \dots, M; k = 1, 2, \dots, K \end{matrix}$
$\varphi = \{\varphi_k \}$ 的估计
后验概率满足：
$\begin{matrix} (35) & \begin{matrix} p (φ_{k} ∣ w, z, β) = \frac{1}{Z_{φ_{k}}} \prod_{i = 1}^{I} p (w_{i} ∣ φ_{k}) p (φ_{k} ∣ β) = Dir (φ_{k} ∣ n_{k} + β) \\ 其中， n_{k} = {n_{k 1}, n_{k 2}, \dots, n_{k V}} 是第 k 个话题的单词计数 \\ Z_{φ_{k}} 表示分布 p (φ_{k} ∣ w, z, β) 对变量 φ_{k} 的边缘化因子 \\ I 是文本集合单词序列 w 的单词总数 \end{matrix} \end{matrix}$
于是得到参数的估计式：
$\begin{matrix} (36) & φ_{k v} = \frac{n_{k v} + β_{v}}{\sum_{v = 1}^{V} (n_{k v} + β_{v})}, k = 1, 2, \dots, K; v = 1, 2, \dots, V \end{matrix}$

吉布斯抽样具体算法

$\mathrm{w}$ 随机指派一个话题 $\mathrm{z}$ 。然后循环执行以下操作：

在每一个位置上计算在该位置上的话题的满条件概率分布，然后进行随机抽样，得到该位置的新的话题，分配给这个位置。

\begin{matrix} (37) & p (z_{i} ∣ z_{- i}, w, α, β) \propto \frac{n_{k v} + β_{v}}{\sum_{v = 1}^{V} (n_{k v} + β_{v})} \cdot \frac{n_{m k} + α_{k}}{\sum_{k = 1}^{K} (n_{m k} + α_{k})} \end{matrix}

上述条件概率分布由两个因子组成：

话题生成该位置的单词的概率
该位置的文本生成话题的概率

$N_{K \times V}=\left[n_{k v}\right]$ $N_{M \times K}=\left[n_{m k}\right]$ 。在每一个位置，对两个矩阵中该位置的已有话题的计数减1，计算满条件概率分布，然后进行抽样，得到该位置的新话题，之后对两个矩阵中该位置的新话题的计数加1。计算移到下一个位置。

$p(\mathbf{z} \mid \mathbf{w}, \alpha, \beta)$ 的样本。

$\text{算法1.1：LDA吉布斯抽样算法}$

$输入：文本的单词序列 \; \mathrm{w}= \{\mathrm{w}_1, \cdots, \mathrm{w}_m, \cdots,\mathrm{w}_M \}，\mathrm{w}_m=(w_{m1 }, \cdots, w_{mn}, \cdots,w_{m_{N_m}})$

$输出：文本的话题序列 \; \mathrm{z}= \{\mathrm{z}_1, \cdots, \mathrm{z}_m, \cdots,\mathrm{z}_M \}，\mathrm{z}_m=(z_{m1 }, \cdots, z_{mn}, \cdots,z_{m_{N_m}}) 的后验概率分布 p(\mathbf{z} \mid \mathbf{w}, \alpha, \beta) 的样本计数$

$模型的参数\varphi 和 \theta 的估计值$

$参数：超参数 \alpha 和 \beta，话题个数 K$

$步骤：$

$(1) 设所有计数矩阵的元素 n_{mk}、n_{kv}，计数向量的元素n_m、n_k初值为0$

$(2) 对所有文本 \; \mathrm{w}_m,m=1,2,\cdots,M$

$对第m个文本中的所有单词 \; w_{mn}, n=1,2,\cdots,N_m$

$(a) 抽样话题 z_{mn} = z_k \sim \mathrm{Mult}(\frac{1}{K})$

$增加文本-话题计数 \; n_{mk} = n_{mk} + 1$

$增加文本-话题和计数 \; n_{m} = n_{m} + 1$

$增加话题-单词计数 \; n_{kv} = n_{kv} + 1$

$增加话题-单词和计数 \; n_{k} = n_{k} + 1$

$(3) 循环执行以下操作，直到进入燃烧期$

$对所有文本 \mathrm{w}_m, m=1,2,\cdots, M$

$对第m个文本中的所有单词w_{mn}, n=1,2,\cdots, N_m$

$(a) 当前的单词w_{mn}是第v个单词，话题指派z_{mn}是第k个话题，然后减少计数：$

$n_{mk} = n_{mk} - 1$

$n_m = n_m -1$

$n_{kv} = n_{kv} - 1$

$n_k = n_k - 1$

$(b) 按照满条件分布进行抽样$

\begin{matrix} (38) & p (z_{i} ∣ z_{- i}, w, α, β) \propto \frac{n_{k v} + β_{v}}{\sum_{v = 1}^{V} (n_{k v} + β_{v})} \cdot \frac{n_{m k} + α_{k}}{\sum_{k = 1}^{K} (n_{m k} + α_{k})} \end{matrix}

$得到新的第 k^{\prime}个话题，分配给z_{mn}$

$(c) 增加计数：$

$n_{mk^{\prime}} = n_{mk^{\prime}} + 1$

$n_m = n_m + 1$

$n_{k^{\prime}v} = n_{k^{\prime}v} + 1$

$n_{k^{\prime}} = n_{k^{\prime}} + 1$

$(d) 得到更新的两个计数矩阵 N_{K \times V}=\left[n_{k v}\right] 和 N_{M \times K}=\left[n_{m k}\right]，表示后验概率分布 p(\mathbf{z} \mid \mathbf{w}, \alpha, \beta) 的样本计数$

$(4)利用得到的样本计数，计算模型参数：$

\begin{matrix} (39) & \begin{matrix} θ_{m k} = \frac{n_{m k} + α_{k}}{\sum_{k = 1}^{K} (n_{m k} + α_{k})} \\ φ_{k v} = \frac{n_{k v} + β_{v}}{\sum_{v = 1}^{V} (n_{k v} + β_{v})} \end{matrix} \end{matrix}

变分EM算法

变分推理

本质上讲，是一种退而求其次的办法。

$p(x, z)$ $x$ $z$ $p(z \mid x)$ ，用模型进行概率推理。

$p(x, z)$ $q(z)$ $p(z \mid x)$ $\mathrm{KL}$ $D(q(z) ||q(z \mid x))$ $q(z)$ 称为变分分布。

$p(z \mid x)$ $\mathrm{KL}$ $q^*(z)$ $p(z \mid x)$ 。

\begin{matrix} (40) & p (z ∣ x) \approx q^{*} (z) \end{matrix}

$q^*(z)$ $p(z \mid x)$ 的关系。

变分推理原理

$\mathrm{KL}$ 散度可以写成以下形式：

\begin{matrix} (41) & \begin{aligned} D (q (z) ∥ p (z ∣ x)) & = \sum_{z} q (z) \log \frac{q (z)}{p (z ∣ x)} \\ = \sum_{z} q (z) \log q (z) - \sum_{z} q (z) \log p (z ∣ x) \\ = \sum_{z} q (z) \log q (z) - \sum_{z} q (z) \log \frac{p (z, x)}{p (x)} \\ = \sum_{z} q (z) \log q (z) - \sum_{z} q (z) \log p (z, x) + \sum_{z} q (z) \log p (x) \\ = E_{q} [\log q (z)] - E_{q} [\log p (x, z)] + \log p (x) \\ = \log p (x) - {E_{q} [\log q (x, z)] - E_{q} [\log p (z)]} \end{aligned} \end{matrix}

$\mathrm{KL}$ 散度大于等于零，当且仅当两个分布一致时为零。由此可知：

\begin{matrix} (42) & \log p (x) ⩾ E_{q} [\log p (x, z)] - E_{q} [\log q (z)] \end{matrix}

不等式右端是左端的下界，左端称为证据，右端称为证据下界，证据下界记作：

\begin{matrix} (43) & L (q) = E_{q} [\log p (x, z)] - E_{q} [\log q (z)] \end{matrix}

$\mathrm{KL}$ $q(z)$ $\mathrm{KL}$ $\log p(x)$ 是常量，因此，变分推理变成求解证据下界最大化的问题。

$\log p(x)$ $p(x,z)$ $z$ $\log p(x) \geqslant E_q[\log p(x, z)]-E_q[\log q(z)]$ 对证据下界进行最大化。

$q(z)$ $q(z)$ $z$ 的所有分量都是互相独立的（实际是条件独立于参数），即满足：

\begin{matrix} (44) & q (z) = q (z_{1}) q (z_{2}) \dots q (z_{n}) \end{matrix}

这时的变分分布称为平均场。

$\mathrm{KL}$ $Q=\left\{q(z) \mid q(z)=\prod_{i=1}^n q\left(z_i\right)\right\}$ 之中进行的。

总的来说，变分推理有以下几个步骤：

$q(z)$
推导其证据下界表达式
$q^*(z)$ $p(z \mid x)$ 的近似。

变分EM算法

$\mathrm{EM}$ $\mathrm{EM}$ 算法。

$p(x, z \mid \theta)$ $x$ $z$ $\theta$ $\log p(x \mid \theta)$ $\theta$ $q(z)=\prod_{i=1}^n q\left(z_i\right)$ ，定义证据下界：

\begin{matrix} (45) & L (q, θ) = E_{q} [\log p (x, z ∣ θ)] - E_{q} [\log q (z)] \end{matrix}

$q$ $\theta$ $\mathrm{EM}$ 算法。如下所述：

$算法1.2：变分 \mathrm{EM} 算法：$

$循环执行以下\mathrm{E}步和\mathrm{M}步，直到收敛。$

$(1) \mathrm{E}: 固定\theta，求L(q, \theta)对q的最大化$

$(2) \mathrm{M}: 固定q，求L(q, \theta)对\theta的最大化$

$给出模型参数的估计值。$

根据变分推理，观测数据的概率和证据下界满足：

\begin{matrix} (46) & \log p (x ∣ θ) - L (q, θ) = D (q (z) ∥ p (z ∣ x, θ)) ⩾ 0 \end{matrix}

$\mathrm{EM}$ 算法的迭代过程中，以下关系成立：

\begin{matrix} (47) & \begin{matrix} \log p (x ∣ θ^{(t - 1)}) = L (q^{(t)}, θ^{(t - 1)}) ⩽ L (q^{(t)}, θ^{(t)}) ⩽ \log p (x ∣ θ^{(t)}) \\ 其 中 ， 上 角 标 t - 1 和 t 表 示 迭 代 次 数 \end{matrix} \end{matrix}

公式解释如下：

$\log p\left(x \mid \theta^{(t-1)}\right)=L\left(q^{(t)}, \theta^{(t-1)}\right)$ $\mathrm{E}$ 步计算和变分推理原理
$L\left(q^{(t)}, \theta^{(t-1)}\right) \leqslant L\left(q^{(t)}, \theta^{(t)}\right)$ $\mathrm{M}$ 步计算
$L\left(q^{(t)}, \theta^{(t)}\right) \leqslant \log p\left(x \mid \theta^{(t)}\right)$ ：基于变分推理原理

$\mathrm{EM}$ 算法一定收敛，但可能收敛到局部最优。

算法推导

LDA简化模型

$\mathrm{EM}$ $\mathrm{EM}$ 算法。

证据下界的定义

$\mathrm{w}$ $\mathrm{w} = (w_1, w_2, \cdots, w_n, \cdots, w_N)$ $\mathrm{z} = (z_1, z_2, \cdots, z_n, \cdots, z_N)$ $\theta$ 。

$\mathrm{w}$ $\mathrm{z}$ $\theta$ 的联合分布是：

\begin{matrix} (48) & \begin{matrix} p (θ, z, w ∣ α, φ) = p (θ ∣ α) \prod_{n = 1}^{N} p (z_{n} ∣ θ) p (w_{n} ∣ z_{n}, φ) \\ 其 中 ， w 是 观 测 变 量 \\ θ 和 z 是 隐 变 量 \\ α 和 φ 是 参 数 \end{matrix} \end{matrix}

定义基于平均场的变分分布：

\begin{matrix} (49) & \begin{matrix} q (θ, z ∣ γ, η) = q (θ ∣ γ) \prod_{n = 1}^{N} q (z_{n} ∣ η_{n}) \\ 其 中 ， γ 是 狄 利 克 雷 分 布 参 数 \\ η = (η_{1}, η_{2}, \dots, η_{n}) 是 多 项 分 布 参 数 \\ 变 量 θ 和 z 的 各 个 分 量 都 是 条 件 独 立 的 \end{matrix} \end{matrix}

$\mathrm{KL}$ $q(\theta, \mathbf{z} \mid \gamma, \eta)$ $p(\theta, \mathbf{z} \mid \mathbf{w}, \alpha, \varphi)$ 。

$\theta$ $\mathrm{z}$ $\theta$ $\mathrm{z}$ 条件独立。

基于平均场的变分分布

由此得到一个文本的证据下界：

\begin{matrix} (50) & \begin{matrix} L (γ, η, α, φ) = E_{q} [\log p (θ, z, w ∣ α, φ)] - E_{q} [\log q (θ, z ∣ γ, η)] \\ 其 中 ， γ 和 η 是 变 分 分 布 的 参 数 \\ α 和 φ 是 L D A 模 型 的 参 数 \end{matrix} \end{matrix}

$q(\theta, \mathbf{z} \mid \gamma, \eta)$ $E_q[\cdot]$ 。

所有文本的证据下界为：

\begin{matrix} (51) & L_{w} (γ, η, α, φ) = \sum_{m = 1}^{M} {E_{q_{m}} [\log p (θ_{m}, z_{m}, w_{m} ∣ α, φ)] - E_{q_{m}} [\log q (θ_{m}, z_{m} ∣ γ_{m}, η_{m})]} \end{matrix}

$L(\gamma, \eta, \alpha, \varphi)$ 的最大化，首先写出证据下界的表达式。为此展开单个文本的证据下界式：

\begin{matrix} (52) & \begin{aligned} L (γ, η, α, φ) = & E_{q} [\log p (θ ∣ α)] + E_{q} [\log p (z ∣ θ)] + E_{q} [\log p (w ∣ z, φ)] - \\ E_{q} [\log q (θ ∣ γ)] - E_{q} [\log q (z ∣ η)] \end{aligned} \end{matrix}

$\gamma$ $\eta$ $\alpha$ $\varphi$ 继续展开，并将展开式的每一项写成一行：

\begin{matrix} (53) & \begin{aligned} L (γ, η, α, φ) = & \log Γ (\sum_{l = 1}^{K} α_{l}) - \sum_{k = 1}^{K} \log Γ (α_{k}) + \sum_{k = 1}^{K} (α_{k} - 1) [Ψ (γ_{k}) - Ψ (\sum_{l = 1}^{K} γ_{l})] + \\ \sum_{n = 1}^{N} \sum_{k = 1}^{K} η_{n k} [Ψ (γ_{k}) - Ψ (\sum_{l = 1}^{K} γ_{l})] + \\ \sum_{n = 1}^{N} \sum_{k = 1}^{K} \sum_{v = 1}^{V} η_{n k} w_{n}^{v} \log φ_{k v} - \\ \log Γ (\sum_{l = 1}^{K} γ_{l}) + \sum_{k = 1}^{K} \log Γ (γ_{k}) - \sum_{k = 1}^{K} (γ_{k} - 1) [Ψ (γ_{k}) - Ψ (\sum_{l = 1}^{K} γ_{l})] - \\ \sum_{n = 1}^{N} \sum_{k = 1}^{K} η_{n k} \log η_{n k} \end{aligned} \end{matrix}

$\Gamma\left(\alpha_k\right)$ 是对数伽马函数的导数，即：

\begin{matrix} (54) & Ψ (α_{k}) = \frac{d}{d α_{k}} \log Γ (α_{k}) \end{matrix}

$E_q[\log p(\theta \mid \alpha)]$ $q(\theta, \mathrm{z} \mid \gamma, \eta)$ 的数学期望。

\begin{matrix} (55) & E_{q} [\log p (θ ∣ α)] = \sum_{k = 1}^{K} (α_{k} - 1) E_{q} [\log θ_{k}] + \log Γ (\sum_{l = 1}^{K} α_{l}) - \sum_{k = 1}^{K} \log Γ (α_{k}) \end{matrix}

$\theta \sim \mathrm{dir}(\theta \mid \gamma)$ ，所以，利用狄利克雷分布的性质：

\begin{matrix} (56) & \begin{aligned} E_{p (θ ∣ α)} [\log θ_{k}] & = \frac{d}{d α_{k}} A (α) = \frac{d}{d α_{k}} [\sum_{k = 1}^{K} \log Γ (α_{k}) - \log Γ (\sum_{l = 1}^{K} α_{l})] \\ = Ψ (α_{k}) - Ψ (\sum_{l = 1}^{K} α_{l}), k = 1, 2, \dots, K \end{aligned} \end{matrix}

有：

\begin{matrix} (57) & E_{q (θ ∣ γ)} [\log θ_{k}] = Ψ (γ_{k}) - Ψ (\sum_{l = 1}^{K} γ_{l}) \end{matrix}

故得：

\begin{matrix} (58) & \begin{matrix} E_{q} [\log p (θ ∣ α)] = \log Γ (\sum_{l = 1}^{K} α_{l}) - \sum_{k = 1}^{K} \log Γ (α_{k}) + \sum_{k = 1}^{K} (α_{k} - 1) [Ψ (γ_{k}) - Ψ (\sum_{l = 1}^{K} γ_{l})] \\ 其 中 ， α_{k} 和 γ_{k} 表 示 第 k 个 话 题 的 狄 利 克 雷 分 布 参 数 \end{matrix} \end{matrix}

$E_q[\log p(\mathrm{z} \mid \theta)]$ $q(\theta, \mathrm{z} \mid \gamma, \eta)$ 的数学期望。

\begin{matrix} (59) & \begin{aligned} E_{q} (\log p (z ∣ θ)) & = \sum_{n = 1}^{N} E_{q} [\log p (z_{n} ∣ θ)] \\ = \sum_{n = 1}^{N} E_{q (θ, z_{n} ∣ γ, η)} [\log (z_{n} ∣ θ)] \\ = \sum_{n = 1}^{N} \sum_{k = 1}^{K} q (z_{n k} ∣ η) E_{q (θ ∣ γ)} [\log θ_{k}] \\ = \sum_{n = 1}^{N} \sum_{k = 1}^{K} η_{n k} [Ψ (γ_{k}) - Ψ (\sum_{l = 1}^{K} γ_{l})] \\ 其 中 ， η_{n k} 表 示 文 档 第 n 个 位 置 的 单 词 由 第 k 个 话 题 产 生 的 概 率 \\ γ_{k} 表 示 第 k 个 话 题 的 狄 利 克 雷 分 布 参 数 \end{aligned} \end{matrix}

$E_q[\log p(\mathbf{w} \mid \mathbf{z}, \varphi)]$ $q(\theta, \mathbf{z} \mid \gamma, \eta)$ 的数学期望。

\begin{matrix} (60) & \begin{aligned} E_{q} [\log p (w ∣ z, φ)] & = \sum_{n = 1}^{N} E_{q} [\log p (w_{n} ∣ z_{n}, φ)] \\ = \sum_{n = 1}^{N} E_{q (z_{n} ∣ η)} [\log p (w_{n} ∣ z_{n}, φ)] \\ = \sum_{n = 1}^{N} \sum_{k = 1}^{K} q (z_{n k} ∣ η) \log p (w_{n} ∣ z_{n k}, φ) \\ = \sum_{n = 1}^{N} \sum_{k = 1}^{K} \sum_{v = 1}^{V} η_{n k} w_{n}^{v} \log φ_{k v} \\ 其 中 ， η_{n k} 表 示 文 档 第 n 个 位 置 的 单 词 由 第 k 个 话 题 产 生 的 概 率 \\ w_{n}^{v} 在 第 n 个 位 置 的 单 词 是 单 词 集 合 的 第 v 个 单 词 时 取 值 为 1 ， 否 则 值 为 0 \\ φ_{k v} 表 示 第 k 个 话 题 生 成 单 词 集 合 中 第 v 个 单 词 的 概 率 \end{aligned} \end{matrix}

$E_q[\log q(\theta \mid \gamma)]$ $q(\theta, \mathbf{z} \mid \gamma, \eta)$ $\theta \sim \mathrm{Dir}(\gamma)$ ，可以得到：

\begin{matrix} (61) & \begin{matrix} E_{q} [\log q (θ ∣ γ)] = \log Γ (\sum_{l = 1}^{K} γ_{l}) - \sum_{k = 1}^{K} \log Γ (γ_{k}) + \sum_{k = 1}^{K} (γ_{k} - 1) [Ψ (γ_{k}) - Ψ (\sum_{l = 1}^{K} γ_{l})] \\ 其 中 ， γ_{k} 表 示 第 k 个 话 题 的 狄 利 克 雷 分 布 参 数 \end{matrix} \end{matrix}

$E_q[\log q(\mathrm{z} \mid \eta)]$ $q(\theta, \mathrm{z} \mid \gamma, \eta)$ 的数学期望。

\begin{matrix} (62) & \begin{aligned} E_{q} [\log q (z ∣ η)] & = \sum_{n = 1}^{N} E_{q} [\log q (z_{n} ∣ η)] \\ = \sum_{n = 1}^{N} E_{q (z_{n} ∣ η)} [\log q (z_{n} ∣ η)] \\ = \sum_{n = 1}^{N} \sum_{k = 1}^{K} q (z_{n k} ∣ η) \log q (z_{n k} ∣ η) \\ = \sum_{n = 1}^{N} \sum_{k = 1}^{K} η_{n k} \log η_{n k} \\ 其 中 ， η_{n k} 表 示 文 档 第 n 个 位 置 的 单 词 由 第 k 个 话 题 产 生 的 概 率 \\ γ_{k} 表 示 第 k 个 话 题 的 狄 利 克 雷 分 布 参 数 \end{aligned} \end{matrix}

$\gamma$ $\eta$ 的估计

$\eta$ 。

$\eta_{nk}$ $n$ $k$ $式53$ $\eta_{nk}$ $\eta_{nk}$ $\sum_{l=1}^K \eta_{n l}=1$ $\eta_{nk}$ 的约束最优化问题拉格朗日函数为：

\begin{matrix} (63) & \begin{matrix} L_{[η_{n k}]} = η_{n k} [Ψ (γ_{k}) - Ψ (\sum_{l = 1}^{K} γ_{l})] + η_{n k} \log φ_{k v} - η_{n k} \log η_{n k} + λ_{n} (\sum_{l = 1}^{K} η_{n l} - 1) \\ 其 中 ， φ_{k v} 是 (在 第 n 个 位 置) 由 第 k 个 话 题 生 成 第 v 个 单 词 的 概 率 \end{matrix} \end{matrix}

$\eta_{nk}$ 求偏导数，可得：

\begin{matrix} (64) & \frac{\partial L}{\partial η_{n k}} = Ψ (γ_{k}) - Ψ (\sum_{l = 1}^{K} γ_{l}) + \log φ_{k v} - \log η_{n k} - 1 + λ_{n} \end{matrix}

$\eta_{nk}$ 的估计值：

\begin{matrix} (65) & η_{n k} \propto φ_{k v} \exp (Ψ (γ_{k}) - Ψ (\sum_{l = 1}^{K} γ_{l})) \end{matrix}

$\gamma$ $\gamma_k$ $k$ $式53$ $\gamma_k$ 的最优化：

\begin{matrix} (66) & \begin{aligned} L_{[γ_{k}]} = & \sum_{k = 1}^{K} (α_{k} - 1) [Ψ (γ_{k}) - Ψ (\sum_{l = 1}^{K} γ_{l})] + \sum_{n = 1}^{N} \sum_{k = 1}^{K} η_{n k} [Ψ (γ_{k}) - Ψ (\sum_{l = 1}^{K} γ_{l})] - \\ \log Γ (\sum_{l = 1}^{K} γ_{l}) + \log Γ (γ_{k}) - \sum_{k = 1}^{K} (γ_{k} - 1) [Ψ (γ_{k}) - Ψ (\sum_{l = 1}^{K} γ_{l})] \end{aligned} \end{matrix}

简化为：

\begin{matrix} (67) & L_{[γ_{k}]} = \sum_{k = 1}^{K} [Ψ (γ_{k}) - Ψ (\sum_{l = 1}^{K} γ_{l})] (α_{k} + \sum_{n = 1}^{N} η_{n k} - γ_{k}) - \log Γ (\sum_{l = 1}^{K} γ_{l}) + \log Γ (γ_{k}) \end{matrix}

$\gamma_k$ 求偏导数可得：

\begin{matrix} (68) & \frac{\partial L}{\partial γ_{k}} = [Ψ^{'} (γ_{k}) - Ψ^{'} (\sum_{l = 1}^{K} γ_{l})] (α_{k} + \sum_{n = 1}^{N} η_{n k} - γ_{k}) \end{matrix}

$\gamma_k$ 的估计值：

\begin{matrix} (69) & γ_{k} = α_{k} + \sum_{n = 1}^{N} η_{n k} \end{matrix}

据此，得到由坐标上升算法估计变分参数的方法，具体算法如下：

$算法1.3：\mathrm{LDA}的变分参数估计算法$

$初始化：对所有k和n，\eta_{nk}^{(0)}=1/K$

$初始化：对所有k，\gamma_k = \alpha_k + N / K$

$重复$

$对 n = 1到N$

$对k=1到K$

$\eta_{n k}^{(t+1)}=\varphi_{k v} \exp \left[\Psi\left(\gamma_k^{(t)}\right)-\Psi\left(\sum_{l=}^K \gamma_l^{(t)}\right)\right]$

$规范化\eta_{nk}^{t+1}使其和为1$

$\gamma^{(t+1)}=\alpha+\sum_{n=1}^N \eta_n^{(t+1)}$

$直到收敛$

$\alpha$ $\varphi$ 的估计

$D = \{\mathrm{w}_1, \cdots, \mathrm{w}_m, \cdots, \mathrm{w}_M \}$ ，模型参数估计对所有文本同时进行。

$\varphi$ $\varphi_{kv}$ $k$ $v$ $式53$ $\varphi$ $K$ 个约束条件：

\begin{matrix} (70) & \sum_{v = 1}^{V} φ_{k v} = 1, k = 1, 2, \dots, K \end{matrix}

约束最优化问题的拉格朗日函数为：

\begin{matrix} (71) & L_{[β]} = \sum_{m = 1}^{M} \sum_{n = 1}^{N_{m}} \sum_{k = 1}^{K} \sum_{v = 1}^{V} η_{m n k} w_{m n}^{v} \log φ_{k v} + \sum_{k = 1}^{K} λ_{k} (\sum_{v = 1}^{V} φ_{k v} - 1) \end{matrix}

$\varphi_{kv}$ $\varphi_{kv}$ 的估计值：

\begin{matrix} (72) & \begin{matrix} φ_{k v} = \sum_{m = 1}^{M} \sum_{n = 1}^{N_{m}} η_{m n k} w_{m n}^{v} \\ 其 中 ， η_{m n k} 为 第 m 个 文 本 的 第 n 个 单 词 属 于 第 k 个 话 题 的 概 率 \\ w_{m n}^{v} 在 第 m 个 文 本 的 第 n 个 单 词 集 合 的 第 v 个 单 词 时 取 值 为 1 ， 否 则 为 0 \end{matrix} \end{matrix}

$\alpha$ $\alpha_k$ $k$ $式53$ $\alpha$ 的最大化：

\begin{matrix} (73) & L_{[α]} = \sum_{m = 1}^{M} {\log Γ (\sum_{l = 1}^{K} α_{l}) - \sum_{k = 1}^{K} \log Γ (α_{k}) + \sum_{k = 1}^{K} (α_{k} - 1) [Ψ (γ_{m k}) - Ψ (\sum_{l = 1}^{K} γ_{m l})]} \end{matrix}

$\alpha_k$ 求偏导数得：

\begin{matrix} (74) & \frac{\partial L}{\partial α_{k}} = M [Ψ (\sum_{l = 1}^{K} α_{l}) - Ψ (α_{k})] + \sum_{m = 1}^{M} [Ψ (γ_{m k}) - Ψ (\sum_{l = 1}^{K} γ_{m l})] \end{matrix}

$\alpha_l$ 求偏导数得：

\begin{matrix} (75) & \begin{matrix} \frac{\partial^{2} L}{\partial α_{k} \partial α_{l}} = M [Ψ^{'} (\sum_{l = 1}^{K} α_{l}) - δ (k, l) Ψ^{'} (α_{k})] \\ 其 中 ， δ (k, l) 是 delta 函 数 \end{matrix} \end{matrix}

$式73$ $式74$ $式72$ $\alpha$ $g(\alpha)$ $\mathrm{Hessian}$ $H(\alpha)$ $\alpha$ 的估计值。

\begin{matrix} (76) & α_{new} = α_{old} - H {(α_{old})}^{- 1} g (α_{old}) \end{matrix}

$\alpha$ 的算法。

算法总结

$\mathrm{EM}$ 算法。

$算法1.4：\mathrm{LDA}的变分\mathrm{EM}算法$

$输入：给定文本集合D = \{\mathrm{w}_1,\cdots, \mathrm{w}_m, \cdots, \mathrm{w}_M \}$

$输出：变分参数\gamma,\eta，模型参数\alpha, \varphi$

$交替迭代\mathrm{E}步和\mathrm{M}步，直到收敛。$

$(1)\mathrm{E}步$

$固定模型参数\alpha, \varphi，通过关于变分参数\gamma,\eta的证据下界的最大化，估计变分参数\gamma,\eta。具体见算法1.3：\mathrm{LDA}的变分参数估计算法$

$(2)\mathrm{M}步$

$固定变分参数\gamma,\eta，通过关于模型参数\alpha,\varphi的证据下界的最大化，估计模型参数\alpha,\varphi。具体算法见式71和式75。$

$根据变分参数(\gamma,\eta)可以估计模型参数\theta=\left(\theta_1, \cdots, \theta_m, \cdots, \theta_M\right), z=\left(z_1, \cdots, z_m, \cdots, z_M\right)。$

LDA简介

狄利克雷分布

分布定义

多项分布

狄利克雷分布

二项分布

贝塔分布

共轭先验

LDA模型

基本想法

模型定义

模型要素

生成过程

伪代码

概率图模型

随机变量序列的可交换性

概率公式

LDA的吉布斯抽样算法

基本想法

算法的主要部分

抽样分布的表达式

满条件分布的表达式

算法的后处理

吉布斯抽样具体算法

变分EM算法

变分推理

变分EM算法

算法推导

证据下界的定义

变分参数γ\gamma和η\eta的估计

模型参数α\alpha和φ\varphi的估计

算法总结

参考文档

$\gamma$ $\eta$ 的估计

$\alpha$ $\varphi$ 的估计