最大熵模型凡是知道的，就把它考虑进去，凡是不知道的，通通均匀分布。2021-08-27

最大熵原理原理简介例题最大熵模型模型定义构造模型条件最大熵模型模型学习极大似然估计模型学习的最优化算法改进的迭代尺度法拟牛顿法例题：最大熵模型学习参考文档

最大熵原理

原理简介

最大熵原理：学习概率模型时，在所有可能的概率模型中，熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合，所以，最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。

直观地说，最大熵原理认为要选择的模型需要满足：

已有的事实（约束条件）：必须满足
不确定的部分：等可能

如何表示“等可能”呢？我们知道，均匀分布的熵最大，反过来讲，熵最大时，数据趋向于均匀分布，即等可能。因此，可以使用熵--可优化的数值目标，来实现“等可能”的要求。

最大熵原理是统计学习的一般原理，将它应用到分类得到最大熵模型(Maximum Entropy Model)。

例题

$X$ ${A,B,C,D,E}$ $P(A),P(B),P(C),P(D),P(E)$ 。

$解$ 概率值需要满足如下约束条件：

$P(A) + P(B) + P(C) + P(D) + P(E) = 1$

满足这个约束条件的概率分布有无穷多个。按照最大熵原理，在没有其它信息的情况下，需要假定等可能分布，即：

$P(A) = P(B) = P(C) = P(D) = P(E) = \frac{1}{5}$

有时，能从一些先验知识中得到一些对概率值的约束条件，如：

$P(A) + P(B) + P(C) + P(D) + P(E) = 1 \\ P(A) + P(B) = \frac{3}{10}$

$A、B$ $C、D、E$ 是等概率的，于是：

$P(A) = P(B) = \frac{3}{20} \\ P(C) = P(D) = P(E) = \frac{7}{20}$

最大熵模型

模型定义

$P(Y|X), X \in R^n,Y \in R$ $X$ $Y$ $X$ $P(Y|X)$ $Y$ 。

$T=\{(x_1,y_1),(x_2,y_2), \cdots, (x_N,y_N) \}$

学习目标：使用最大熵原理选择最好的分类模型。

构造模型条件

对于给定的训练数据集，可以确定 $P(X,Y)$ 的经验分布 $P(X)$ 的经验分布 $\tilde{P}(X,Y)$ $\tilde{P}(X)$ 。

\begin{matrix} (1) & \tilde{P} (X = x, Y = y) = \frac{v (X = x, Y = y)}{N} \tilde{P} (X = x) = \frac{v (X = x)}{N} v (X = x, Y = y) 表 示 训 练 数 据 中 样 本 (x, y) 出 现 的 频 数 v (X = x) 表 示 训 练 样 本 中 x 出 现 的 频 数 N 表 示 训 练 样 本 的 数 量 \end{matrix}

$f(x,y)$ $x$ $y$ 之间的某一事实，其定义为：

\begin{matrix} (2) & f (x, y) = {\begin{cases} 1, & x 与 y 满足某一事实 \\ 0, & 否则 \end{cases} \end{matrix}

$x$ $y$ 满足这个事实时取值为1，否则取值为0。

$f(x,y)$ $\tilde{P}(X,Y)$ $E_{\tilde{P}}(f)$ 表示：

\begin{matrix} (3) & \begin{aligned} E_{\tilde{P}} (f) & = \sum_{x, y} \tilde{P} (x, y) f (x, y) \\ = \sum_{x, y} \tilde{P} (x) \tilde{P} (y | x) f (x, y) \end{aligned} \end{matrix}

$f(x,y)$ $P(Y|X)$ $\tilde{P}(X)$ $E_p(f)$ 表示：

\begin{matrix} (4) & E_{P} (f) = \sum_{x, y} \tilde{P} (x) P (y | x) f (x, y) \end{matrix}

如果模型能够获取训练数据中的信息，那么就可以假设这两个期望值相等，即：

\begin{matrix} (5) & E_{\tilde{P}} (f) = E_{P} (f) \end{matrix}

$(7)$ $m$ $f_i(x,y), \quad i=1,2,\cdots,m$ $m$ 个约束条件。

最大熵模型

假设满足所有约束条件的模型集合为：

\begin{matrix} (6) & C \equiv {P \in P ∣ E_{P} (f_{i}) = E_{\tilde{p}} (f_{i}), i = 1, 2, \dots, m} \end{matrix}

$P(Y \mid X)$ 上的条件熵为：

\begin{matrix} (7) & H (P) = - \sum_{x, y} \tilde{P} (x) P (y ∣ x) \log P (y ∣ x) \end{matrix}

$\mathcal{C}$ $H(P)$ 的模型称为最大熵模型。

模型学习

最大熵模型的学习可以形式化为约束最优化问题。

$T=\{(x_1,y_1),(x_2,y_2), \cdots, (x_N,y_N) \}$ $f_i(x,y), \quad i=1,2,\cdots,m$ ，最大熵模型的学习等价于约束最优化问题：

\begin{matrix} (8) & \begin{array}{ll} max_{P \in C} & H (P) = - \sum_{x, y} \tilde{P} (x) P (y ∣ x) \log P (y ∣ x) \\ s.t. & E_{P} (f_{i}) = E_{\tilde{p}} (f_{i}), i = 1, 2, \dots, m \\ \sum_{y} P (y ∣ x) = 1 \end{array} \end{matrix}

按照最优化问题的习惯，将求max问题改为等价的求min问题：

\begin{matrix} (9) & \begin{array}{ll} min_{P \in C} & - H (P) = \sum_{x, y} \tilde{P} (x) P (y ∣ x) \log P (y ∣ x) \\ s.t. & E_{P} (f_{i}) - E_{\tilde{p}} (f_{i}) = 0, i = 1, 2, \dots, m \\ \sum_{y} P (y ∣ x) = 1 \end{array} \end{matrix}

对于上述原始的最优化问题，可以转为无约束最优化的对偶问题，通过求解对偶问题进而求解原始问题。

构建拉格朗日函数
$w_0,w_1,w_2, \cdots, w_m$ $L(P, w)$ ：
$\begin{matrix} (10) & \begin{aligned} L (P, w) \equiv & - H (P) + w_{0} (1 - \sum_{y} P (y ∣ x)) + \sum_{i = 1}^{m} w_{i} (E_{\bar{p}} (f_{i}) - E_{P} (f_{i})) \\ = & \sum_{x, y} \tilde{P} (x) P (y ∣ x) \log P (y ∣ x) \\ + w_{0} (1 - \sum_{y} P (y ∣ x)) \\ + \sum_{i = 1}^{m} w_{i} (\sum_{x, y} \tilde{P} (x, y) f_{i} (x, y) - \sum_{x, y} \tilde{P} (x) P (y ∣ x) f_{i} (x, y)) \end{aligned} \end{matrix}$
定义对偶问题
最优化的原始问题为：
$\begin{matrix} (11) & \underset{P \in C}{m i n} \underset{w}{m a x} L (P, w) \end{matrix}$
对偶问题是：
$\begin{matrix} (12) & \underset{w}{m a x} \underset{P \in C}{m i n} L (P, w) \end{matrix}$
求对偶问题中的极小化问题
$\underset{P \in \mathcal{C}}{min} \; L(P, w)$ $\underset{P \in \mathcal{C}}{min} \; L(P, w)$ $w$ 的函数，将其记作：
$\begin{matrix} (13) & Ψ (w) = min_{P \in C} L (P, w) = L (P_{w}, w) \end{matrix}$
$\Psi(w)$ 称为对偶函数，同时，将其解记作：
$\begin{matrix} (14) & P_{w} = \arg min_{P \in C} L (P, w) = P_{w} (y ∣ x) \end{matrix}$
$\Psi(w)$ $L(p, w)$ $P(y \mid x)$ 的偏导数：
$\begin{matrix} (15) & \begin{aligned} \frac{\partial L (P, w)}{\partial P (y ∣ x)} & = \sum_{x, y} \tilde{P} (x) (\log P (y ∣ x) + 1) - \sum_{y} w_{0} - \sum_{x, y} (\tilde{P} (x) \sum_{i = 1}^{m} w_{i} f_{i} (x, y)) \\ = \sum_{x, y} \tilde{P} (x) (\log P (y ∣ x) + 1 - w_{0} - \sum_{i = 1}^{m} w_{i} f_{i} (x, y)) \end{aligned} \end{matrix}$
$\tilde{P}(x) > 0$ 的情况下，解得：
$\begin{matrix} (16) & P (y ∣ x) = \exp (\sum_{i = 1}^{m} w_{i} f_{i} (x, y) + w_{0} - 1) = \frac{\exp (\sum_{i = 1}^{m} w_{i} f_{i} (x, y))}{\exp (1 - w_{0})} \end{matrix}$
$\sum_y P(y \mid x) = 1$ ,两边求和得：
$\begin{matrix} (17) & \begin{matrix} P_{w} (y ∣ x) = \frac{1}{Z_{w} (x)} \exp (\sum_{i = 1}^{m} w_{i} f_{i} (x, y)) \\ 其中， Z_{w} (x) = \sum_{y} \exp (\sum_{i = 1}^{m} w_{i} f_{i} (x, y)) \\ Z_{w} (x) 称为规范化因子， f_{i} (x, y) 是特征函数， w_{i} 是特征的权值 \end{matrix} \end{matrix}$
$P_w = P_w(y \mid x)$ $w$ 是最大熵模型中的参数向量。
求对偶问题中的极大化问题
求解对偶问题外部的极大化问题：
$\begin{matrix} (18) & max_{w} Ψ (w) \end{matrix}$
$w^*$ ，即：
$\begin{matrix} (19) & w^{*} = \underset{w}{\arg max} Ψ (w) \end{matrix}$
$\Psi(w)$ $w^*$ $P^*$ $P^* = P_{w^*} = P_{w^*}(y \mid x)$ 是学习到的最优化模型（最大熵模型）。

对上述总结，最大熵模型的一般形式为：

\begin{matrix} (20) & \begin{matrix} P_{w} (y ∣ x) = \frac{1}{Z_{w} (x)} \exp (\sum_{i = 1}^{m} w_{i} f_{i} (x, y)) \\ 其 中 ， Z_{w} (x) = \sum_{y} \exp (\sum_{i = 1}^{m} w_{i} f_{i} (x, y)) \end{matrix} 这 里, x \in R^{n} 为 输 入, y \in {1, 2, \dots, K} 为 输 出, w \in R^{n} 为 权 值 向 量, f_{i} (x, y), i = 1, 2, \dots, m 为 任 意 实 值 特 征 函 数 。 \end{matrix}

极大似然估计

$\tilde{P}(X,Y)$ $P(Y \mid X)$ 的对数似然函数表示为：

\begin{matrix} (21) & L_{\tilde{P}} (P_{w}) = \log \prod_{x, y} P (y ∣ x)^{\tilde{P} (x, y)} = \sum_{x, y} \tilde{P} (x, y) \log P (y ∣ x) \end{matrix}

$P(y \mid x)$ $公式17$ $L_{\tilde{P}}\left(P_{w}\right)$ 为：

\begin{matrix} (22) & \begin{aligned} L_{\tilde{P}} (P_{w}) & = \sum_{x, y} \tilde{P} (x, y) \log P (y ∣ x) \\ = \sum_{x, y} \tilde{P} (x, y) \sum_{i = 1}^{m} w_{i} f_{i} (x, y) - \sum_{x, y} \tilde{P} (x, y) \log Z_{w} (x) \\ = \sum_{x, y} \tilde{P} (x, y) \sum_{i = 1}^{m} w_{i} f_{i} (x, y) - \sum_{x} \tilde{P} (x) \log Z_{w} (x) \end{aligned} \end{matrix}

$公式17$ $\Psi(w)$ 可化简为：

\begin{matrix} (23) & \begin{aligned} Ψ (w) = & \sum_{x, y} \tilde{P} (x) P_{w} (y ∣ x) \log P_{w} (y ∣ x) + \\ \sum_{i = 1}^{m} w_{i} (\sum_{x, y} \tilde{P} (x, y) f_{i} (x, y) - \sum_{x, y} \tilde{P} (x) P_{w} (y ∣ x) f_{i} (x, y)) \\ = & \sum_{x, y} \tilde{P} (x, y) \sum_{i = 1}^{m} w_{i} f_{i} (x, y) + \sum_{x, y} \tilde{P} (x) P_{w} (y ∣ x) (\log P_{w} (y ∣ x) - \sum_{i = 1}^{m} w_{i} f_{i} (x, y)) \\ = & \sum_{x, y} \tilde{P} (x, y) \sum_{i = 1}^{m} w_{i} f_{i} (x, y) - \sum_{x, y} \tilde{P} (x) P_{w} (y ∣ x) \log Z_{w} (x) \\ = & \sum_{x, y} \tilde{P} (x, y) \sum_{i = 1}^{m} w_{i} f_{i} (x, y) - \sum_{x} \tilde{P} (x) \log Z_{w} (x) \end{aligned} \end{matrix}

$式(21)$ $式(22)$ ，可得：

\begin{matrix} (24) & Ψ (w) = L_{\tilde{P}} (P_{w}) \end{matrix}

$\Psi(w)$ $L_{\tilde{P}}\left(P_{w}\right)$ 。因此，最大熵模型学习中的对偶函数极大化等价于最大熵模型的极大似然估计。

模型学习的最优化算法

已知最大熵模型为：

\begin{matrix} (25) & \begin{matrix} P_{w} (y ∣ x) = \frac{1}{Z_{w} (x)} \exp (\sum_{i = 1}^{m} w_{i} f_{i} (x, y)) \\ 其 中 ， Z_{w} (x) = \sum_{y} \exp (\sum_{i = 1}^{m} w_{i} f_{i} (x, y)) \end{matrix} \end{matrix}

最大熵模型的对数似然函数为：

\begin{matrix} (26) & L (w) = \sum_{x, y} \tilde{P} (x, y) \sum_{i = 1}^{m} w_{i} f_{i} (x, y) - \sum_{x} \tilde{P} (x) \log Z_{w} (x) \end{matrix}

$w^*$ 。

改进的迭代尺度法

改进的迭代尺度法 (improved iterative scaling, IIS) 是一种最大熵模型学习的最优化算法。

IIS的思想：

$w = (w_1,w_2,\cdots,w_n)^T$ 。
$w+\delta = (w_1+\delta_1,w_2+\delta_2,\cdots,w_n+\delta_n)$ ，使得模型的对数似然函数值增大。
$步骤2$ $w = w + \delta$ ，直到满足退出条件。

推导过程：

寻找下界函数1
$\tilde{P}(x, y)$ $w$ $w+\delta$ ，对数似然函数的改变量是：
$\begin{matrix} (27) & \begin{aligned} L (w + δ) - L (w) & = \sum_{x, y} \tilde{P} (x, y) \log P_{w + δ} (y ∣ x) - \sum_{x, y} \tilde{P} (x, y) \log P_{w} (y ∣ x) \\ = \sum_{x, y} \tilde{P} (x, y) \sum_{i = 1}^{m} δ_{i} f_{i} (x, y) - \sum_{x} \tilde{P} (x) \log \frac{Z_{w + δ} (x)}{Z_{w} (x)} \end{aligned} \end{matrix}$
$-\log \alpha \geq 1 - \alpha,\quad \alpha > 0$
建立对数似然函数改变量的下界：
$\begin{matrix} (28) & \begin{aligned} L (w + δ) - L (w) & ⩾ \sum_{x, y} \tilde{P} (x, y) \sum_{i = 1}^{m} δ_{i} f_{i} (x, y) + 1 - \sum_{x} \tilde{P} (x) \frac{Z_{w + δ} (x)}{Z_{w} (x)} \\ = \sum_{x, y} \tilde{P} (x, y) \sum_{i = 1}^{m} δ_{i} f_{i} (x, y) + 1 - \sum_{x} \tilde{P} (x) \sum_{y} P_{w} (y ∣ x) \exp \sum_{i = 1}^{m} δ_{i} f_{i} (x, y) \end{aligned} \end{matrix}$
将右端记为：
$\begin{matrix} (29) & A (δ ∣ w) = \sum_{x, y} \tilde{P} (x, y) \sum_{i = 1}^{m} δ_{i} f_{i} (x, y) + 1 - \sum_{x} \tilde{P} (x) \sum_{y} P_{w} (y ∣ x) \exp \sum_{i = 1}^{m} δ_{i} f_{i} (x, y) \end{matrix}$
于是有：
$\begin{matrix} (30) & L (w + δ) - L (w) \geq A (δ ∣ w) \end{matrix}$
$A(\delta \mid w)$ 是对数似然函数改变量的一个下界。
$A(\delta \mid w)$ $\delta_i$ $g = \exp \sum_{i=1}^{m} \delta_{i} f_{i}(x, y) = \prod_{i=1}^{m} \exp \left ( \delta_{i} f_{i}(x, y) \right )$ $\large \frac{\partial g}{\partial \delta_i} = \prod_{i=1}^{m} \exp \left ( \delta_{i} f_{i}(x, y) \right )$ $\delta_i$ $\delta_i$ $\delta_j, \; i \neq j$ 。
寻找下界函数2
$f^{\#}(x,y) = \sum_{i=1}^{m} f_i(x,y)$ $f_i$ $f^{\#}(x,y)$ $(x,y)$ 出现的次数。
$A(\delta \mid w)$ 进行改写：
$\begin{matrix} (31) & \begin{aligned} A (δ ∣ w) = & \sum_{x, y} \tilde{P} (x, y) \sum_{i = 1}^{m} δ_{i} f_{i} (x, y) + 1 - \sum_{x} \tilde{P} (x) \sum_{y} P_{w} (y ∣ x) \exp (f^{#} (x, y) \sum_{i = 1}^{m} \frac{δ_{i} f_{i} (x, y)}{f^{#} (x, y)}) \end{aligned} \end{matrix}$
$i$ $\large \frac{f_i(x,y)}{f^{\#}(x,y)} \geq 0 且 \sum_{i=1}^{m} \frac{f_i(x,y)}{f^{\#}(x,y)} = 1$ ，根据Jensen不等式，得到：
$\begin{matrix} (32) & \exp (\sum_{i = 1}^{m} \frac{f_{i} (x, y)}{f^{#} (x, y)} δ_{i} f^{#} (x, y)) ⩽ \sum_{i = 1}^{m} \frac{f_{i} (x, y)}{f^{#} (x, y)} \exp (δ_{i} f^{#} (x, y)) \end{matrix}$
于是：
$\begin{matrix} (33) & \begin{aligned} A (δ ∣ w) ⩾ & \sum_{x, y} \tilde{P} (x, y) \sum_{i = 1}^{m} δ_{i} f_{i} (x, y) + 1 - \\ \sum_{x} \tilde{P} (x) \sum_{y} P_{w} (y ∣ x) \sum_{i = 1}^{m} (\frac{f_{i} (x, y)}{f^{#} (x, y)}) \exp (δ_{i} f^{#} (x, y)) \end{aligned} \end{matrix}$
记不等式右侧为：
$\begin{matrix} (34) & \begin{aligned} B (δ ∣ w) = & \sum_{x, y} \tilde{P} (x, y) \sum_{i = 1}^{m} δ_{i} f_{i} (x, y) + 1 - \\ \sum_{x} \tilde{P} (x) \sum_{y} P_{w} (y ∣ x) \sum_{i = 1}^{m} (\frac{f_{i} (x, y)}{f^{#} (x, y)}) \exp (δ_{i} f^{#} (x, y)) \end{aligned} \end{matrix}$
于是得到：
$\begin{matrix} (35) & L (w + δ) - L (w) \geq B (δ ∣ w) \end{matrix}$
$B(\delta \mid w)$ 为对数似然函数改变量的一个新的下界。

$B(\delta \mid w)$ $\delta_i$ 的偏导数：
$\begin{matrix} (36) & \frac{\partial B (δ ∣ w)}{\partial δ_{i}} = \sum_{x, y} \tilde{P} (x, y) f_{i} (x, y) - \sum_{x} \tilde{P} (x) \sum_{y} P_{w} (y ∣ x) f_{i} (x, y) \exp (δ_{i} f^{#} (x, y)) \end{matrix}$
$\delta_i$ 外不含任何其它变量。令偏导数为0得到：
$\begin{matrix} (37) & \sum_{x, y} \tilde{P} (x) P_{w} (y ∣ x) f_{i} (x, y) \exp (δ_{i} f^{#} (x, y)) = E_{\tilde{P}} (f_{i}) \end{matrix}$
$\delta_i$ $\delta$ $w$ ，从而可以重复迭代过程。

基于上述推导，给出改进的迭代尺度法IIS。
$算法1.1 (改进的迭代尺度法 \mathbf{IIS})$
$输入：特征函数f_1,f_2,\cdots,f_m;经验分布 \tilde{P}(X,Y);模型 P_w(y \mid x)$
$输出：最优参数值w_i^*; 最优模型 P_{w^*}$
$算法步骤：$
1. $对所有的 i \in \{1,2,\cdots,n \}，取初值 w_i = 0$
2. $对每一个 i \in \{1,2,\cdots,n \}$
  1. $令 \delta_i 是方程 \sum_{x, y} \tilde{P}(x) P_{w}(y \mid x) f_{i}(x, y) \exp \left(\delta_{i} f^{\#}(x, y)\right)=E_{\tilde{P}}\left(f_{i}\right) 的解。 \\ 其中，f^{\#}(x,y) = \sum_{i=1}^{m} f_i(x,y)$
  2. $更新 w_i 的值：w_i \leftarrow w_i + \delta_i$
3. $如果不是所有的 w_i 都收敛，重复步骤(2)$
$\delta_i$ 。分以下情况进行讨论：
1. $f^{\#}(x,y)是常数$
  $x,y$ $f^{\#}(x,y) = M$ $\delta_i$ 可以显式地表示为：
  $\begin{matrix} (38) & δ_{i} = \frac{1}{M} \log \frac{E_{\tilde{P}} (f_{i})}{E_{P} (f_{i})} \end{matrix}$
2. $f^{\#}(x,y) 不是常数$
  $\delta_i$ $g(\delta_i) = \sum_{x, y} \tilde{P}(x) P_{w}(y \mid x) f_{i}(x, y) \exp \left(\delta_{i} f^{\#}(x, y)\right)=E_{\tilde{P}}\left(f_{i}\right)$ $\delta_i^*$ $g(\delta_i^*) = 0$ ，迭代公式是：
  $\begin{matrix} (39) & δ_{i}^{(k + 1)} = δ_{i}^{(k)} - \frac{g (δ_{i}^{(k)})}{g^{'} (δ_{i}^{(k)})} \end{matrix}$
  $\delta_i^{(0)}$ $g(\delta_i)$ 有单根，因此牛顿法恒收敛，而且收敛速度很快。

拟牛顿法

最大熵模型：

\begin{matrix} (40) & P_{w} (y ∣ x) = \frac{\exp (\sum_{i = 1}^{m} w_{i} f_{i} (x, y))}{\sum_{y} \exp (\sum_{i = 1}^{m} w_{i} f_{i} (x, y))} \end{matrix}

目标函数：

\begin{matrix} (41) & min_{w \in R^{m}} f (w) = \sum_{x} \tilde{P} (x) \log \sum_{y} \exp (\sum_{i = 1}^{m} w_{i} f_{i} (x, y)) - \sum_{x, y} \tilde{P} (x, y) \sum_{i = 1}^{m} w_{i} f_{i} (x, y) \end{matrix}

梯度：

\begin{matrix} (42) & g (w) = {(\frac{\partial f (w)}{\partial w_{1}}, \frac{\partial f (w)}{\partial w_{2}}, \dots, \frac{\partial f (w)}{\partial w_{m}})}^{T} \end{matrix}

其中，梯度具体为：

\begin{matrix} (43) & \frac{\partial f (w)}{\partial w_{i}} = \sum_{x, y} \tilde{P} (x) P_{w} (y ∣ x) f_{i} (x, y) - E_{\tilde{P}} (f_{i}), i = 1, 2, \dots, m \end{matrix}

相应的拟牛顿法BFGS算法如下。

$算法1.2 (最大熵模型学习的 \mathbf{BFGS} 算法)$

$输入：特征函数f_1,f_2,\cdots,f_m;经验分布 \tilde{P}(X,Y);目标函数 f(w);梯度 g(w) = \nabla f(w), \text { 精度要求 } \varepsilon$

$输出：最优参数值w^*; 最优模型 P_{w^*}(y \mid x)$

$算法步骤：$

$选定初始点 w^{(0)}，取 B_0 为正定对称矩阵，置 k=0$
$计算 g_k = g(w^{(k)})。\text { 若 }\left\|g_{k}\right\|<\varepsilon \text {, 则停止计算, 得 } w^{*}=w^{(k)} \text {; 否则转 }(3) \text {; }$
$\text { 由 } B_{k} p_{k}=-g_{k} \text { 求出 } p_{k} \text {; }$
$一维搜索：求 \lambda_k 使得： \\ f\left(w^{(k)}+\lambda_{k} p_{k}\right)=\min _{\lambda \geqslant 0} f\left(w^{(k)}+\lambda p_{k}\right)$
$\text { 置 } w^{(k+1)}=w^{(k)}+\lambda_{k} p_{k} \text {; }$
$计算 g_{k+1} = g \left(w^{(k+1)} \right)，若 \left\|g_{k+1}\right\|<\varepsilon ，则停止计算，得 w^{*}=w^{(k+1)}；否则，按下式求出 B_{k+1}： \\ \large B_{k+1}=B_{k}+\frac{y_{k} y_{k}^{\mathrm{T}}}{y_{k}^{\mathrm{T}} \delta_{k}}-\frac{B_{k} \delta_{k} \delta_{k}^{\mathrm{T}} B_{k}}{\delta_{k}^{\mathrm{T}} B_{k} \delta_{k}}， \\ 其中， \\ y_{k}=g_{k+1}-g_{k}, \quad \delta_{k}=w^{(k+1)}-w^{(k)}$
$置 k=k+1，转(3)。$

例题：最大熵模型学习

$X$ ${A,B,C,D,E}$ $P(A) + P(B) = \frac{3}{10}$ $P(A),P(B),P(C),P(D),P(E)$ 。

$解$ $y_1,y_2,y_3,y_4,y_5$ ${A,B,C,D,E}$ 。于是，最大熵模型学习的最优化问题是：

\begin{matrix} (44) & \begin{array}{ll} min & - H (P) = \sum_{i = 1}^{5} P (y_{i}) \log P (y_{i}) \\ s.t. & P (y_{1}) + P (y_{2}) = \tilde{P} (y_{1}) + \tilde{P} (y_{2}) = \frac{3}{10} \\ \sum_{i = 1}^{5} P (y_{i}) = \sum_{i = 1}^{5} \tilde{P} (y_{i}) = 1 \end{array} \end{matrix}

$w_0、w_1$ ，定义拉格朗日函数：

\begin{matrix} (45) & L (P, w) = \sum_{i = 1}^{5} P (y_{i}) \log P (y_{i}) + w_{1} (P (y_{1}) + P (y_{2}) - \frac{3}{10}) + w_{0} (\sum_{i = 1}^{5} P (y_{i}) - 1) \end{matrix}

根据拉格朗日对偶性，可以通过求解对偶最优化问题得到原始最优化问题的解，因此，接下来求解：

\begin{matrix} (46) & max_{w} min_{P} L (P, w) \end{matrix}

$L(P,w)$ $P$ $w_0、w_1$ ，求偏导数：

\begin{matrix} (47) & \begin{aligned} \frac{\partial L (P, w)}{\partial P (y_{1})} = 1 + \log P (y_{1}) + w_{1} + w_{0} \\ \frac{\partial L (P, w)}{\partial P (y_{2})} = 1 + \log P (y_{2}) + w_{1} + w_{0} \\ \frac{\partial L (P, w)}{\partial P (y_{3})} = 1 + \log P (y_{3}) + w_{0} \\ \frac{\partial L (P, w)}{\partial P (y_{4})} = 1 + \log P (y_{4}) + w_{0} \\ \frac{\partial L (P, w)}{\partial P (y_{5})} = 1 + \log P (y_{5}) + w_{0} \end{aligned} \end{matrix}

令各偏导数等于0，解得：

\begin{matrix} (48) & \begin{aligned} P (y_{1}) = P (y_{2}) = e^{- w_{1} - w_{0} - 1} \\ P (y_{3}) = P (y_{4}) = P (y_{5}) = e^{- w_{0} - 1} \end{aligned} \end{matrix}

于是：

\begin{matrix} (49) & min_{P} L (P, w) = L (P_{w}, w) = - 2 e^{- w_{1} - w_{0} - 1} - 3 e^{- w_{0} - 1} - \frac{3}{10} w_{1} - w_{0} \end{matrix}

$L(P_w,w)$ $w$ 的极大化问题：

\begin{matrix} (50) & max_{w} L (P_{w}, w) = - 2 e^{- w_{1} - w_{0} - 1} - 3 e^{- w_{0} - 1} - \frac{3}{10} w_{1} - w_{0} \end{matrix}

$L(P_w,w)$ $w_0、w_1$ 的偏导数并令其为0，得到：

\begin{matrix} (51) & \begin{aligned} e^{- w_{1} - w_{0} - 1} = \frac{3}{20} \\ e^{- w_{0} - 1} = \frac{7}{30} \end{aligned} \end{matrix}

于是，得到所要求的概率分布为：

\begin{matrix} (52) & \begin{aligned} P (y_{1}) = P (y_{2}) = \frac{3}{20} \\ P (y_{3}) = P (y_{4}) = P (y_{5}) = \frac{7}{30} \end{aligned} \end{matrix}