损失函数2021-11-20

交叉熵损失函数

二分类

以逻辑回归为例，Sigmoid函数的输出表示当前样本被预测为1的概率为：

\begin{matrix} (1) & \hat{y} = P (y = 1 ∣ x) \end{matrix}

因此，被预测为0的概率为：

\begin{matrix} (2) & 1 - \hat{y} = P (y = 0 ∣ x) \end{matrix}

将上述公式整合，如下：

\begin{matrix} (3) & P (y ∣ x) = {\hat{y}}^{y} \cdot (1 - \hat{y})^{1 - y} \end{matrix}

$P(y \mid x)$ 越大越好。

$\log$ $P(y \mid x)$ 取对数得：

\begin{matrix} (4) & \log P (y ∣ x) = \log ({\hat{y}}^{y} \cdot (1 - \hat{y})^{1 - y}) = y \log \hat{y} + (1 - y) \log (1 - \hat{y}) \end{matrix}

$\log P(y \mid x)$ $- \log P(y \mid x)$ 越小越好。由此，定义损失函数如下：

\begin{matrix} (5) & L o s s = - \log P (y ∣ x) = - [y \log \hat{y} + (1 - y) \log (1 - \hat{y})] \end{matrix}

以上为单个样本的损失，如果是多个样本叠加即可，损失函数为：

\begin{matrix} (6) & L o s s = - {\sum_{i = 1}^{N} y^{(i)} \log {\hat{y}}^{(i)} + (1 - y^{(i)}) \log (1 - {\hat{y}}^{(i)})} \end{matrix}

多分类

信息量
香农认为：信息是用来消除不确定性的东西。因此，衡量信息量的大小，就是看这个信息消除不确定性的程度。
“太阳从东方升起”：因为太阳肯定从东方升起，因此没有减少不确定性，信息量为0。
“张三把狗咬了”：因为张三咬狗这件事存在很大不确定性，而这句话消除了不确定性，因此，信息量很大。
$P(x)$ ，其信息量定义为：
$\begin{matrix} (7) & I (x) = - \log P (x) \end{matrix}$
信息熵
信息熵也被称为熵，用来表示所有信息量的期望。
$X$ 为离散型随机变量，则其信息熵为：
$\begin{matrix} (8) & H (X) = - \sum_{i = 1}^{n} P (x_{i}) \log P (x_{i}) (X = x_{1}, x_{2}, \dots, x_{n}) \end{matrix}$
相对熵（KL散度）
$X$ $P(x)$ $Q(x)$ ，则可以使用KL散度来衡量两个概率之间的差异。
$\begin{matrix} (9) & D_{K L} (p ∥ q) = \sum_{i = 1}^{n} p (x_{i}) \log (\frac{p (x_{i})}{q (x_{i})}) \end{matrix}$
$P(x)$ $Q(x)$ $x=(x_1,x_2,x_3)$ $P(x)=[1,0,0]$ $Q(x)=[0.7,0.2,0.1]$ ，计算KL散度为：
$\begin{matrix} (10) & \begin{aligned} D_{K L} (p ∥ q) & = \sum_{i = 1}^{n} p (x_{i}) \log (\frac{p (x_{i})}{q (x_{i})}) \\ = p (x_{1}) \log (\frac{p (x_{1})}{q (x_{1})}) + p (x_{2}) \log (\frac{p (x_{2})}{q (x_{2})}) + p (x_{3}) \log (\frac{p (x_{3})}{q (x_{3})}) \\ = 1 * \log (\frac{1}{0.7}) = 0.36 \end{aligned} \end{matrix}$
$P(x)$ $Q(x)$ $Q(x)$ $Q(x)$ $P(x)$ 。

KL散度不对称，为了解决该问题，对KL散度进行变体可得到 JL散度：
$\begin{matrix} (11) & \begin{aligned} D_{J S} (p ∥ q) & == 0.5 * [D_{K L} (p ∥ \frac{p + q}{2}) + D_{K L} (q ∥ \frac{p + q}{2})] \\ = 0.5 * [\sum_{i} p (x_{i}) \cdot \log \frac{2 p (x_{i})}{p (x_{i}) + q (x_{i})} + \sum_{i} q (x_{i}) \cdot \log \frac{2 q (x_{i})}{p (x_{i}) + q (x_{i})}] \end{aligned} \end{matrix}$
交叉熵
将KL散度公式进行拆解：
$\begin{matrix} (12) & \begin{aligned} D_{K L} (p ∥ q) & = \sum_{i = 1}^{n} p (x_{i}) \log (\frac{p (x_{i})}{q (x_{i})}) \\ = \sum_{i = 1}^{n} p (x_{i}) \log (p (x_{i})) - \sum_{i = 1}^{n} p (x_{i}) \log (q (x_{i})) \\ = - H (p (x)) + [- \sum_{i = 1}^{n} p (x_{i}) \log (q (x_{i}))] \\ = [- \sum_{i = 1}^{n} p (x_{i}) \log (q (x_{i}))] - H (p (x)) \end{aligned} \end{matrix}$
前者表示为交叉熵，后者为信息熵。
因此，KL散度 = 交叉熵 - 信息熵
交叉熵公式为：
$\begin{matrix} (13) & H (p, q) = - \sum_{i = 1}^{n} p (x_{i}) \log (q (x_{i})) \end{matrix}$
$P(x)$ $P(x)$ $Q(x)$ $loss$ 。
$3$ $Loss$ 为：
$\text { loss }=-(0 * \log (0.2)+1 * \log (0.7)+0 * \log (0.1))=0.36$

$m$ $n$ ，那么交叉熵损失函数为：
$\begin{matrix} (14) & L o s s = - \frac{1}{m} \sum_{j = 1}^{m} \sum_{i = 1}^{n} p (x_{j i}) \log (q (x_{j i})) \end{matrix}$
在分类问题中，交叉熵损失函数通常与softmax搭配。softmax将预测值映射为概率，使多个分类的预测值和为1，类别的真实值使用one-hot表示，然后使用交叉熵计算损失值。