MCMC2022-10-18

前置知识

PDF：概率密度函数
CDF：累积概率密度函数
示性函数(Indicator function)
$\begin{matrix} (1) & \begin{matrix} I_{X} (x) = I_{{x \in X}} = {\begin{matrix} 1 x \in X \\ 0 x \notin X \end{matrix} \end{matrix} \end{matrix}$
示性函数有如下性质：示性函数的期望等于下标事件发生的概率
$\begin{matrix} (2) & E I_{{x \in X}} = 1 \cdot P {x \in X} + 0 \cdot P {x \notin X} = P {x \in X} \end{matrix}$
指数分布
$\begin{matrix} (3) & \begin{aligned} f (x) & = θ \cdot e^{- θ x} (x > 0) \\ F (x) & = 1 - e^{- θ x} (x > 0) \end{aligned} \end{matrix}$
高斯分布
$\begin{matrix} (4) & P (x) = ϕ (x) = \frac{1}{\sqrt{2 π} \cdot σ} e^{- \frac{(x - μ)^{2}}{2 σ^{2}}} \end{matrix}$

MCMC简介

蒙特卡罗法（Monte Carlo method）是通过从概率模型随机抽样然后进行近似数值计算的方法。马尔可夫链蒙特卡罗法（Markov Chain Monte Carlo, MCMC），则是以马尔可夫链为概率模型的蒙特卡罗法。MCMC构建一个马尔可夫链，使其平稳分布就是要进行抽样的分布，首先基于该马尔可夫链进行随机游走，产生样本的序列，之后使用该平稳分布的样本进行近似数值计算。

MCMC包含MH（Metropolis-Hastings）算法和吉布斯抽样算法。

MCMC可用于概率分布的估计、定积分的近似计算、最优化问题求解等问题。

蒙特卡罗法

随机抽样

蒙特卡罗法要解决的问题是：假设概率分布已知，通过抽样获得概率分布的随机样本，然后使用随机样本对概率分布的特征进行分析。例如，通过计算样本均值，从而估计总体期望。

因此，蒙特卡洛法的核心是随机抽样。

一般的蒙特卡罗法包括：直接抽样、接受-拒绝抽样、重要性抽样。后两者适合于概率密度函数复杂，不能直接抽样的情况。

直接抽样（逆采样）

对于均匀分布，一般可以使用线性同余发生器生成（0,1）之间的伪随机数。那么，对于其它分布，将其采样转换为（0,1）均匀分布进行采样。转换的方法为：

$f(x)$ $x$
$z$
$F(x)$
$0 \le z \le 1$ $0 \le F(x) \le 1$ $z = F(x)$ $x = G(z)$ 。
$z$ $G(z)$ $x$ 。
下图以指数分布进行映射示例：

接受-拒绝采样

接受决绝

$p(x)$ $q(x)$ $k\cdot q(x) \gt p(x) \; ,k \gt 0$ 。定义接受-拒绝算法如下：

$p(x)$ $k \cdot q(x)$ ，

$x_1, x_2, \cdots, x_n$ $n$ 为参数

步骤：

$q(x)$ $x^*$
$u$
$\Large u \le \frac{p(x^*)}{k \cdot q(x^*) }$ $x^*$ 作为抽样样本，否则，回到步骤1
$n$ 个随机样本，结束。

重要性采样

$f(x)$ $p(x)$ 下的期望也可以写为：

\begin{matrix} (5) & \begin{aligned} E_{p} [f (x)] & = \int_{x} f (x) p (x) d x \\ = \int_{x} f (x) \frac{p (x)}{q (x)} q (x) d x \\ = \int_{x} f (x) w (x) q (x) d x \\ = E_{q} [f (x) w (x)] . \\ 其 中 ， & w (x) 称 为 重 要 性 权 重 \end{aligned} \end{matrix}

$p(x)$ $f(x)$ $q(x)$ $f(x)w(x)$ 的期望，从而可以近似为：

\begin{matrix} (6) & \begin{matrix} {\hat{f}}_{N} = \frac{1}{N} (f (x^{(1)}) w (x^{(1)}) + \dots + f (x^{(N)}) w (x^{(N)})) \\ 其 中 ， x^{(1)}, x^{(2)}, \dots, x^{(N)} 为 独 立 从 q (x) 中 随 机 抽 取 的 点 \end{matrix} \end{matrix}

$f(x) \sim \mathbf{N}(0,1)$ $P(X > 8)$ 的概率。

$f(x)$ 中采样，只有极少数的点会大于8，因此考虑使用重要性采样法求解。

$g(x) \sim \mathbf{N}(8,1)$ ，将目标问题进行如下转换：

\begin{matrix} (7) & \begin{aligned} P (X > 8) & = E_{f} [I_{x > 8}] \\ = \int_{R} I_{x > 8} f (x) d x \\ = \int_{R} I_{x > 8} \frac{f (x)}{g (x)} g (x) d x \\ = \int_{R} I_{x > 8} \frac{\frac{1}{\sqrt{2 π}} e^{\frac{- x^{2}}{2}}}{\frac{1}{\sqrt{2 π}} e^{\frac{- (x - 8)^{2}}{2}}} \frac{1}{\sqrt{2 π}} e^{\frac{- (x - 8)^{2}}{2}} d x \\ = \int_{R} I_{x > 8} e^{32 - 8 x} \frac{1}{\sqrt{2 π}} e^{\frac{- (x - 8)^{2}}{2}} d x \end{aligned} \end{matrix}

$w(x) = \mathbb{I}_{x > 8} \mathbf{e} ^{32-8x}$ $w(x)$ $g(x)$ $g(x)$ $x_1,x_2,\cdots,x_N$ $w(x)$ ，可以得到对概率的估计值：

\begin{matrix} (8) & P (X > 8) \approx \frac{1}{N} \sum_{i = 1}^{N} I_{x_{i} > 8} e^{32 - 8 x_{i}} \end{matrix}

应用

期望计算

$x \in \mathcal{X}$ $p(x)$ $f(x)$ $\mathcal{X}$ $f(x)$ $p(x)$ $E_{p(x)}[f(x)]$ 。针对该问题，蒙特卡罗法通过如下步骤进行解决：

$p(x)$ $n$ $x_1, x_2, \cdots, x_n$
$f(x)$ $\hat{f}_n$
$\begin{matrix} (9) & {\hat{f}}_{n} = \frac{1}{n} \sum_{i = 1}^{n} f (x_{i}) \end{matrix}$
根据大数定律，当样本容量足够大时，样本均值以概率1收敛于数学期望：
$\begin{matrix} (10) & {\hat{f}}_{n} \to E_{p (x)} [f (x)], n \to \infty \end{matrix}$
综上述，数学期望的近似值为：

\begin{matrix} (11) & \begin{matrix} E_{p (x)} [f (x)] \approx \frac{1}{n} \sum^{n} f (x_{i}) \end{matrix} \end{matrix}

积分计算

$h(x)$ $\int_{\mathcal{X}} h(x) \mathrm{d} x$

$h(x)$ $f(x)$ $p(x)$ 乘积的形式，那么有：

\begin{matrix} (12) & \int_{X} h (x) d x = \int_{X} f (x) p (x) d x = E_{p (x)} [f (x)] \end{matrix}

$h(x)$ $f(x)$ $p(x)$ 的期望。而数学期望又可以通过样本均值进行估算。于是，可以通过样本均值近似计算积分，即：

\begin{matrix} (13) & \begin{matrix} \int_{X} h (x) d x = E_{p (x)} [f (x)] \approx \frac{1}{n} \sum_{i = 1}^{n} f (x_{i}) \end{matrix} \end{matrix}

马尔可夫链

基本定义

$X = \{X_0, X_1, \cdots, X_t, \cdots \}$ $X_t$ $t$ $\mathcal{S}$ 。随机变量可以是离散的，也可以是连续的。

如果随机变量的状态仅依赖于前一个状态，即：

\begin{matrix} (14) & P (X_{t} ∣ X_{0}, X_{1}, \dots, X_{t - 1}) = P (X_{t} ∣ X_{t - 1}), t = 1, 2, \dots \end{matrix}

该性质称为马尔可夫性。

$X = \{X_0, X_1, \cdots, X_t, \cdots \}$ $P(X_t \mid X_{t-1})$ 称为马尔可夫链的转移概率分布。

$P(X_t \mid X_{t-1})$ $t$ 无关，即：

\begin{matrix} (15) & P (X_{t + s} ∣ X_{t - 1 + s}) = P (X_{t} ∣ X_{t - 1}), t = 1, 2, \dots; s = 1, 2, \dots \end{matrix}

则称该马尔可夫链为时间齐次的马尔可夫链。本文的马尔可夫链都是时间齐次的。

离散状态马尔可夫链

转移概率矩阵和状态分布

$t-1$ $j$ $t$ $i$ ，将转移概率记作：

\begin{matrix} (16) & \begin{matrix} p_{i j} = P (X_{t} = i ∣ X_{t - 1} = j), i = 1, 2, \dots; j = 1, 2, \dots \\ 其 中 ， p_{i j} \geq 0 \\ \sum_{i} p_{i j} = 1 \end{matrix} \end{matrix}

$p_{ij}$ 可由矩阵表示，即：

\begin{matrix} (17) & \begin{matrix} P = [\begin{array}{cccc} p_{11} & p_{12} & p_{13} & \dots \\ p_{21} & p_{22} & p_{23} & \dots \\ p_{31} & p_{32} & p_{33} & \dots \\ \dots & \dots & \dots & \dots \end{array}] \\ 其 中 ， p_{i j} \geq 0 \\ \sum_{i} p_{i j} = 1 \end{matrix} \end{matrix}

$X = \{X_0, X_1, \cdots, X_t, \cdots \}$ $t \;(t=0,1,2,\cdots)$ $t$ 的状态分布，记作：

\begin{matrix} (18) & \begin{matrix} π (t) = [\begin{matrix} π_{1} (t) \\ π_{2} (t) \\ ⋮ \end{matrix}] \\ 其 中 ， π_{i} (t) 表 示 时 刻 t 状 态 为 i 的 概 率 P (X_{t} = i) \end{matrix} \end{matrix}

$\pi(0)$ ，其向量通常只有一个分量为1，其余为0，表示马尔可夫链从一个具体状态开始。

$X$ $t$ $t-1$ 的状态分布以及转移概率分布决定：

\begin{matrix} (19) & π (t) = P \cdot π (t - 1) \end{matrix}

$t$ $i$ 进行推导，其余状态类似）：

\begin{matrix} (20) & \begin{aligned} π_{i} (t) & = P (X_{t} = i) \\ = \sum_{j} P (X_{t} = i ∣ X_{t - 1} = j) P (X_{t - 1} = j) \\ = \sum_{j} p_{i j} π_{j} (t - 1) \end{aligned} \end{matrix}

假设有三个状态，那么转移公式为：

\begin{matrix} (21) & \begin{matrix} [\begin{array}{cccc} p_{11} & p_{12} & p_{13} \\ p_{21} & p_{22} & p_{23} \\ p_{31} & p_{32} & p_{33} \end{array}] [\begin{array}{cccc} π_{1} (t - 1) \\ π_{2} (t - 1) \\ π_{3} (t - 1) \end{array}] = [\begin{array}{cccc} π_{1} (t) \\ π_{2} (t) \\ π_{3} (t) \end{array}] \end{matrix} \end{matrix}

$t$ 的状态分布，可以通过递推得到。由上述公式：

\begin{matrix} (22) & π (t) = P π (t - 1) = P (P π (t - 2)) = P^{2} π (t - 2) \end{matrix}

通过递推得到：

\begin{matrix} (23) & π (t) = P^{t} π (0) \end{matrix}

$P^t$ $t$ $0$ $j$ $t$ $i$ $t$ 步转移概率：

\begin{matrix} (24) & \begin{matrix} P_{i j}^{t} = P (X_{t} = i ∣ X_{0} = j) \end{matrix} \end{matrix}

平稳分布

$X = \{X_0, X_1, \cdots, X_t, \cdots \}$ $\mathcal{S}$ $P=(p_{ij})$ $\mathcal{S}$ 上的一个分布：

\begin{matrix} (25) & \begin{matrix} π = [\begin{matrix} π_{1} \\ π_{2} \\ ⋮ \end{matrix}] \end{matrix} \end{matrix}

使得：

\begin{matrix} (26) & π = P π \end{matrix}

$\pi$ $X = \{X_0, X_1, \cdots, X_t, \cdots \}$ 的平稳分布。

直观上，如果马尔可夫链的平稳分布存在，那么以该分布为初始分布，然后进行随机状态转移，之后任何一个时刻的状态分布都是平稳分布。

连续状态马尔可夫链

将离散状态马尔可夫链中的转移概率矩阵替换为转移核，其它概率类似，不再赘述。

马尔可夫链性质

不可约
从任意状态出发，当经过充分长时间后，可以到达任意状态。
非周期
不存在一个状态，从该状态出发，再返回该状态，经历的时间呈周期性。
正常返
对其中任意一个状态，从其它任意一个状态出发，当时间趋于无穷时，首次转移到这个状态的概率不为0。
遍历定理
如果马尔可夫链是不可约、非周期且正常返的，则该马尔可夫链有唯一平稳分布。
满足相应条件的马尔可夫链，当时间趋于无穷时，其状态分布接近于平稳分布。（注：可以理解为首先初始化一个状态分布，然后通过无数次迭代转移，最后状态分布趋于平稳分布）。
可逆马尔可夫链
如果对马尔可夫链，满足：
$\begin{matrix} (27) & π_{j} \cdot P (X_{t} = i ∣ X_{t - 1} = j) = π_{i} \cdot P (X_{t - 1} = j ∣ X_{t} = i), i, j = 1, 2, \dots \end{matrix}$
或者简写为（此式称为细致平衡方程）：
$\begin{matrix} (28) & π_{j} \cdot p_{i j} = π_{i} \cdot p_{j i} \end{matrix}$
则称该马尔可夫链为可逆的马尔可夫链。
$\pi$ $P \pi = \pi$ ，证明如下：
$\begin{matrix} (29) & P π_{i} = \sum_{j} p_{i j} π_{j} = \sum_{j} p_{j i} π_{i} = π_{i} \sum_{j} p_{j i} = π_{i}, i = 1, 2, \dots \end{matrix}$

马尔可夫链蒙特卡罗法

基本步骤

马尔可夫链蒙特卡罗法的基本步骤如下：

$x$ $\mathcal{S}$ $p(x)$
$x_0$ $x_0, x_1, x_2,\cdots,x_t,\cdots$
$m$ $n$ $m \lt n$ $m$ $x_{m+1}, x_{m+2}, \cdots, x_n$ $f(x)$ 的均值（遍历均值）
$\begin{matrix} (30) & \hat{E} f = \frac{1}{n - m} \sum_{i = m + 1}^{n} f (x_{i}) \end{matrix}$

需要考虑的几个重要问题：

如何定义马尔可夫链，保证马尔可夫链蒙特卡罗法的条件成立；
$m$ ，保证样本抽取的无偏性；
$n$ ，保证遍历均值计算的精度。

Metropolis-Hastings 算法

马尔可夫链

$p(x)$ $p(x, x^{\prime})$ 的马尔可夫链：

\begin{matrix} (31) & \begin{matrix} p (x, x^{'}) = q (x, x^{'}) α (x, x^{'}) \\ 其 中 ， q (x, x^{'}) 为 建 议 分 布 \\ α (x, x^{'}) 为 接 受 分 布 \end{matrix} \end{matrix}

$q\left(x, x^{\prime}\right)$ 为另一个马尔可夫链的转移核，并且是不可约的，同时是一个容易抽样的分布。

$\alpha\left(x, x^{\prime}\right)$ 定义如下：

\begin{matrix} (32) & α (x, x^{'}) = min {1, \frac{p (x^{'}) q (x^{'}, x)}{p (x) q (x, x^{'})}} \end{matrix}

$p\left(x, x^{\prime}\right)$ 可以写为：

\begin{matrix} (33) & \begin{matrix} p (x, x^{'}) = {\begin{array}{cc} q (x, x^{'}), & p (x^{'}) q (x^{'}, x) ⩾ p (x) q (x, x^{'}) \\ q (x^{'}, x) \frac{p (x^{'})}{p (x)}, & p (x^{'}) q (x^{'}, x) < p (x) q (x, x^{'}) \end{array} \end{matrix} \end{matrix}

$p\left(x, x^{\prime}\right)$ 的马尔可夫链上的随机游走以如下方式进行：

$t-1$ $x$ $x_{t-1}=x$
$q\left(x, x^{\prime}\right)$ $x^{\prime}$
$\alpha\left(x, x^{\prime}\right)$ $x^{\prime}$ $\alpha\left(x, x^{\prime}\right)$ $1-\alpha\left(x, x^{\prime}\right)$ $u$ $t$ 的状态：
$\begin{matrix} (34) & \begin{matrix} x_{t} = {\begin{array}{cc} x^{'}, & u ⩽ α (x, x^{'}) \\ x, & u > α (x, x^{'}) \end{array} \end{matrix} \end{matrix}$
$t$ $x^{\prime}$ $x$

$p\left(x, x^{\prime}\right)$ $p(x)$ ，即要抽样的目标分布。

证明过程：

$x=x^{\prime}$ $p(x) p\left(x, x^{\prime}\right)=p\left(x^{\prime}\right) p\left(x^{\prime}, x\right)$ 成立
$x \neq x^{\prime}$ ，则
$\begin{matrix} (35) & \begin{aligned} p (x) p (x, x^{'}) & = p (x) q (x, x^{'}) min {1, \frac{p (x^{'}) q (x^{'}, x)}{p (x) q (x, x^{'})}} \\ = min {p (x) q (x, x^{'}), p (x^{'}) q (x^{'}, x)} \\ = p (x^{'}) q (x^{'}, x) min {\frac{p (x) q (x, x^{'})}{p (x^{'}) q (x^{'}, x)}, 1} \\ = p (x^{'}) q (x^{'}, x) α (x^{'}, x) \\ = p (x^{'}) p (x^{'}, x) \end{aligned} \end{matrix}$
$p(x) p\left(x, x^{\prime}\right)=p\left(x^{\prime}\right) p\left(x^{\prime}, x\right)$ 也成立，该马尔可夫链为可逆马尔可夫链。
$p(x) p\left(x, x^{\prime}\right)=p\left(x^{\prime}\right) p\left(x^{\prime}, x\right)$ 可知：
$\begin{matrix} (36) & \begin{aligned} \int p (x) p (x, x^{'}) d x & = \int p (x^{'}) p (x^{'}, x) d x \\ = p (x^{'}) \int p (x^{'}, x) d x \\ = p (x^{'}) \end{aligned} \end{matrix}$
$p(x)$ 是马尔可夫链的平稳分布。

建议分布

$q\left(x, x^{\prime}\right)$ 有多种可能的形式，以下介绍常用的两种。

对称式
$x$ $x^{\prime}$ ，有：
$\begin{matrix} (37) & q (x, x^{'}) = q (x^{'}, x) \end{matrix}$
$\alpha\left(x, x^{\prime}\right)$ 可以简化为：
$\begin{matrix} (38) & α (x, x^{'}) = min {1, \frac{p (x^{'})}{p (x)}} \end{matrix}$
$q(x,x^{\prime})$ $p(x^{\prime} \mid x)$ $x$ ，其协方差矩阵是常数矩阵。
$x^{\prime}$ $x$ $q(x,x^{\prime})$ $q(x,x^{\prime})$ 的概率值低。状态转移在附近点的可能性更大。
独立抽样
$q(x,x^{\prime})$ $x$ $q(x,x^{\prime}) = q(x^{\prime})$ $q(x^{\prime})$ 独立抽样进行。
$p(x)$ $q(x)$ 。

满条件分布

$p(x)=p(x_1, x_2, \cdots,x_k)，其中x=(x_1, x_2, \cdots,x_k)^T$ $k$ $p(x_I \mid x_{-I})$ $k$ $x_I=\left\{x_i, i \in I\right\}, x_{-I}=\left\{x_i, i \notin I\right\}, I \subset K=\{1,2, \cdots, k\}$ ，那么这种条件概率分布为满条件概率分布。

$x,x^{\prime} \in \mathcal{X}$ $I \subset K$ ，有：

\begin{matrix} (39) & \begin{aligned} p (x_{I} ∣ x_{- I}) & = \frac{p (x)}{\int p (x) d x_{I}} \propto p (x) \\ \frac{p (x_{I}^{'} ∣ x_{- I}^{'})}{p (x_{I} ∣ x_{- I})} & = \frac{p (x^{'})}{p (x)} \end{aligned} \end{matrix}

$\frac{p\left(x_I^{\prime} \mid x_{-I}^{\prime}\right)}{p\left(x_I \mid x_{-I}\right)}$ $\frac{p\left(x^{\prime}\right)}{p(x)}$ 更容易计算。

MH算法步骤

$p(x)$ $f(x)$ $q(x)$

$p(x)$ $x_{m+1}, x_{m+2}, \cdots, x_n$ $f_{mn}$

$m$ $n$

步骤：

$x_0$
$i=1,2,\cdots,n$ 循环执行
$x_{i-1} = x$ $q(x, x^{\prime})$ $x^{\prime}$
b) 计算接受概率
$\begin{matrix} (40) & α (x, x^{'}) = min {1, \frac{p (x^{'}) q (x^{'}, x)}{p (x) q (x, x^{'})}} \end{matrix}$
$u$
$u \le \alpha\left(x, x^{\prime}\right)$ $x_i = x^{\prime}$ $x_i = x$
${x_{m+1}, x_{m+2}, \cdots, x_n}$ ，计算
$\begin{matrix} (41) & f_{m n} = \frac{1}{n - m} \sum_{i = m + 1}^{n} f (x_{i}) \end{matrix}$

吉布斯抽样

基本原理

吉布斯抽样是MH算法的特殊情况，多用于多元变量联合分布的抽样和估计。其基本做法是，从联合概率分布定义满条件概率分布，依次对满条件概率分布进行抽样，得到样本的序列。

$p(x) = p(x_1, x_2, \cdots, x_k)$ $x^{(0)} = (x_1^{(0)},x_2^{(0)},\cdots,x_k^{(0)})^\mathbf{T}$ $x^{(i)} = (x_1^{(i)},x_2^{(i)},\cdots,x_k^{(i)})^\mathbf{T}$ $x^{(0)},x^{(1)},\cdots,x^{(n)}$ 。

$k$ $i$ $j$ $p(x_j \mid x_{-j}^{(i)})$ 。

$i-1$ $(x_1^{(i-1)},x_2^{(i-1)},\cdots,x_k^{(i-1)})^\mathbf{T}$ $i$ 步，首先对第一个变量按照以下满条件概率分布随机抽样：

\begin{matrix} (42) & \begin{aligned} x_{1}^{(i)} & \leftarrow p (x_{1} ∣ x_{2}^{(i - 1)}, x_{3}^{(i - 1)}, \dots, x_{k}^{(i - 1)}) \\ x_{2}^{(i)} & \leftarrow p (x_{2} ∣ x_{1}^{(i)}, x_{3}^{(i - 1)}, \dots, x_{k}^{(i - 1)}) \\ x_{3}^{(i)} & \leftarrow p (x_{3} ∣ x_{1}^{(i)}, x_{2}^{(i)}, x_{4}^{(i - 1)}, \dots x_{k}^{(i - 1)}) \\ ⋮ \\ x_{j}^{(i)} & \leftarrow p (x_{j} ∣ x_{1}^{(i)}, \dots, x_{j - 1}^{(i)}, x_{j + 1}^{(i - 1)}, \dots, x_{k}^{(i - 1)}) \\ ⋮ \\ x_{k}^{(i)} & \leftarrow p (x_{k} ∣ x_{1}^{(i)}, x_{2}^{(i)}, \dots, x_{k - 1}^{(i)}) \end{aligned} \end{matrix}

$i$ $x^{(i)} = (x_1^{(i)},x_2^{(i)},\cdots,x_k^{(i)})^\mathbf{T}$ 。

$x_j \; (j=1,2,\cdots, k)$ 的满条件概率分布：

\begin{matrix} (43) & q (x, x^{'}) = p (x_{j}^{'} ∣ x_{- j}) \end{matrix}

$\alpha = 1$ ：

\begin{matrix} (44) & \begin{aligned} α (x, x^{'}) & = min {1, \frac{p (x^{'}) q (x^{'}, x)}{p (x) q (x, x^{'})}} \\ = min {1, \frac{p (x^{'}_{- j}) p (x^{'}_{j} ∣ x^{'}_{- j}) p (x_{j} ∣ x^{'}_{- j})}{p (x_{- j}) p (x_{j} ∣ x_{- j}) p (x^{'}_{j} ∣ x_{- j})}} \\ = 1 \end{aligned} \end{matrix}

$p\left(x_{-j}\right)=p\left(x^{\prime}{ }_{-j}\right)$ $p\left(\cdot \mid x_{-j}\right)=p\left(\cdot \mid x^{\prime}{ }_{-j}\right)$

转移核就是满条件概率分布：

\begin{matrix} (45) & p (x, x^{'}) = p (x^{'}_{j} ∣ x_{- j}) \end{matrix}

吉布斯抽样对每次抽样的结果都接受，没有拒绝，这一点和一般的MH算法不同。

$p\left(x_j^{\prime} \mid x_{-j}\right)$ 不为0，即马尔可夫链是不可约的。

吉布斯抽样算法步骤

$p(x)$ $f(x)$

$p(x)$ $x_{m+1}, x_{m+2}, \cdots, x_n$ $f_{mn}$

参数：收敛步数m，迭代步数n

步骤：

$x^{(0)} = (x_1^{(0)},x_2^{(0)},\cdots,x_k^{(0)})^\mathbf{T}$

$i$ 进行循环

$i-1$ $x^{(i-1)} = (x_1^{(i-1)},x_2^{(i-1)},\cdots,x_k^{(i-1)})^\mathbf{T}$ $i$ 次迭代进行如下几步操作：

$p\left(x_1 \mid x_2^{(i-1)}, \cdots, x_k^{(i-1)}\right)$ $x_1^{(i)}$

$\vdots$

$p\left(x_j \mid x_1^{(i)}, \cdots, x_{j-1}^{(i)}, x_{j+1}^{(i-1)}, \cdots, x_k^{(i-1)}\right)$ $x_j^{(i)}$

$\vdots$

$p\left(x_k \mid x_1^{(i)}, \cdots, x_{k-1}^{(i)}\right)$ $x_k^{(i)}$

$i$ $x^{(i)}=\left(x_1^{(i)}, x_2^{(i)}, \cdots, x_k^{(i)}\right)^{\mathrm{T}}$

(3) 得到样本集合

\begin{matrix} (46) & {x^{(m + 1)}, x^{(m + 2)}, \dots, x^{(n)}} \end{matrix}

(4) 计算

\begin{matrix} (47) & \begin{matrix} f_{m n} = \frac{1}{n - m} \sum_{i = m + 1}^{n} f (x^{(i)}) \end{matrix} \end{matrix}

吉布斯抽样示例

$N(\mu, \Sigma)$ ，其中：

\begin{matrix} (48) & \begin{matrix} μ = (μ_{1}, μ_{2}) = (5, - 1) \\ Σ = (\begin{array}{cc} σ_{1}^{2} & ρ σ_{1} σ_{2} \\ ρ σ_{1} σ_{2} & σ_{2}^{2} \end{array}) = (\begin{array}{ll} 1 & 1 \\ 1 & 4 \end{array}) \\ ρ = 0.5 \end{matrix} \end{matrix}

首先，需要求状态转移满条件分布：

\begin{matrix} (49) & \begin{matrix} P (x_{1} ∣ x_{2}) = N (μ_{1} + ρ σ_{1} / σ_{2} (x_{2} - μ_{2}), (1 - ρ^{2}) σ_{1}^{2}) \\ P (x_{2} ∣ x_{1}) = N (μ_{2} + ρ σ_{2} / σ_{1} (x_{1} - μ_{1}), (1 - ρ^{2}) σ_{2}^{2}) \end{matrix} \end{matrix}

证明：已知

\begin{matrix} (50) & \begin{aligned} f (x_{1}, x_{2}) & = \frac{1}{2 π σ_{1} σ_{2} \sqrt{1 - ρ^{2}}} \exp {- \frac{1}{2 (1 - ρ^{2})} [{(\frac{x_{1} - μ_{1}}{σ_{1}})}^{2} - 2 ρ (\frac{x_{1} - μ_{1}}{σ_{1}}) (\frac{x_{2} - μ_{2}}{σ_{2}}) + {(\frac{x_{2} - μ_{2}}{σ_{2}})}^{2}]} \\ f (x_{2}) & = \frac{1}{\sqrt{2 π} σ_{2}} \exp {- \frac{{(x_{2} - μ_{2})}^{2}}{2 σ_{2}^{2}}} \end{aligned} \end{matrix}

因此：

\begin{matrix} (51) & f (x_{1} ∣ x_{2}) = \frac{1}{\sqrt{2 π} σ_{1} \sqrt{1 - ρ^{2}}} \exp {- \frac{1}{2 (1 - ρ^{2}) σ_{1}^{2}} {[x_{1} - μ_{1} - \frac{σ_{1}}{σ_{2}} ρ (x_{2} - μ_{2})]}^{2}} \end{matrix}

确定了目标分布的满条件分布，接下来可以使用吉布斯抽样得到样本：

$(x_1^{(0)}, x_2^{(0)})$ $m$ $n$
for i in range(1, m+n):
$x_1^{(i)} \sim P\left(x_1 \mid x_2^{(i-1)} \right)$
$x_2^{(i)} \sim P\left(x_2 \mid x_1^{(i-1)} \right)$
$\left\{\left(x_1^{(m+1)}, x_2^{(m+1)}\right),\left(x_1^{(m+2)}, x_2^{(m+2)}\right), \ldots,\left(x_1^{(m+n)}, x_2^{(m+n)}\right)\right\}$

前置知识

MCMC简介

蒙特卡罗法

随机抽样

直接抽样（逆采样）

接受-拒绝采样

重要性采样

应用

期望计算

积分计算

马尔可夫链

基本定义

离散状态马尔可夫链

转移概率矩阵和状态分布

平稳分布

连续状态马尔可夫链

马尔可夫链性质

马尔可夫链蒙特卡罗法

基本步骤

Metropolis-Hastings 算法

马尔可夫链

建议分布

满条件分布

MH算法步骤

吉布斯抽样

基本原理

吉布斯抽样算法步骤

吉布斯抽样示例

参考文档