评估指标2021-08-31

分类混淆矩阵准确率精确率召回率F1-ScoreROC and PRROCPRROC vc PR回归MAEMSERMSEMAPE $R^2$ 参考链接

分类

混淆矩阵

准确率

准确率：预测正确的结果占总样本的百分比。

\begin{matrix} (1) & 准 确 率 = a c c u r a c y = \frac{T P + T N}{T P + T N + F P + F N} \end{matrix}

问题：样本不均衡时，该指标不能很好得衡量结果。例如，正样本占比95%，负样本占比为5%，如果将所有样本预测为正样本，则准确率为95%。

精确率

精确率：在所有被预测为正的样本中实际为正样本的概率。

\begin{matrix} (2) & 精 确 率 = 查 准 率 = p r e c i s i o n = \frac{T P}{T P + F P} \end{matrix}

召回率

召回率：又叫查全率，在实际为正的样本中被预测为正样本的概率。

\begin{matrix} (3) & 召 回 率 = r e c a l l = \frac{T P}{T P + F N} \end{matrix}

使用场景：以网贷违约为例，相对正常用户，更关心违约用户，不能放过任何一个违约用户。

召回率越高，“坏用户”被预测出来的概率越高，宁可错杀一千，绝不放过一个。

F1-Score

\begin{matrix} (4) & F 1_S c o r e = \frac{2 P R}{P + R} \end{matrix}

适用场景：对precision和recall要求都较高的情况下，可以选择F1-score。

micro-F1
计算方法：计算所有类别总的Precision和Recall，然后再计算F1
效果特点：当样本不均衡时，更容易受到常见类别的影响
适用场景：注重样本真实分布，只考虑全局结果
macro-F1
计算方法：单独计算每个类别的F1值，然后取各类F1的均值作为最终F1
效果特点：相对更考虑稀有类别的影响，同时受高P&R的类别的影响较大
适用场景：样本不均衡，且各个类别同等重要，可保障小样本的性能

ROC and PR

ROC

\begin{matrix} (5) & \begin{matrix} T P R = \frac{T P}{T P + F N} = \frac{T P}{P} \\ F P R = \frac{F P}{F P + T N} = \frac{F P}{N} \end{matrix} \end{matrix}

$TPR$ $FPR$ $TPR = NPR$ $B$ 点，无论样本数量和类别如何变化，始终将75%的样本预测为正例。

ROC2

$AUC$ 含义：

$A$ $B$ $A$ $B$ $TPR$ $FPR$ $ROC$ $AUC$ $A$ $B$ $AUC$ 越大，自然排序能力越好，即分类器将越多的正例排在负例之前。
$M$ $N$ $AUC$ 的物理含义是穷举所有的正负样本对，正样本预测概率大于负样本预测概率的样本对的占比。

$ROC$ 特点：

$ROC$ $ROC$ $N$ $FP$ $FPR$ $ROC$ $FPR=\frac{20}{20+9980}=0.002$ $FPR=\frac{40}{40+9960}=0.004$ 。

$M$ $N$ $AUC$ 的方式：

$FPR、TPR$ ，然后计算矩形面积。
$S$ $AUC=\frac{S}{M*N}$ $S$ $正样本i,负样本j$ )，更新公式如下：
$\begin{matrix} (6) & \begin{array}{r} S = {\begin{array}{c} S + 1, & pred_score[i] > pred_score[j] \\ S + 0.5, & pred_score[i] = pred_score[j] \\ S & pred_score[i] < pred_score[j] \end{array} \end{array} \end{matrix}$
$S$ $1到M+N$ $n$ $n-1$ $M-1$ $S = \sum_{i \in 正例} (rank(i)-1) - \frac{(M-1)M}{2} = \sum_{i \in 正例} rank(i) - \frac{(M+1)M}{2}$ 。

PR

$PR$ $PR$ $PR$ $PR$ $F1\_Score$ 进行比较。

ROC vc PR

ROC曲线由于兼顾正例与负例，所以适用于评估分类器的整体性能，相比而言PR曲线完全聚焦于正例。
如果有多份数据且存在不同的类别分布，比如信用卡欺诈问题中每个月正例和负例的比例可能都不相同，这时候如果只想单纯地比较分类器的性能且剔除类别分布改变的影响，则ROC曲线比较适合，因为类别分布改变可能使得PR曲线发生变化时好时坏，这种时候难以进行模型比较；反之，如果想测试不同类别分布下对分类器的性能的影响，则PR曲线比较适合。
如果想要评估在相同的类别分布下正例的预测情况，则宜选PR曲线。
类别不平衡问题中，ROC曲线通常会给出一个乐观的效果估计，所以大部分时候还是PR曲线更好。
$ROC$ 曲线。
$PR$ 曲线。

回归

MAE

\begin{matrix} (7) & M A E = \frac{1}{n} \sum_{i = 1}^{n} | y_{i} - {\hat{y}}_{i} | \end{matrix}

受异常值干扰较明显。

MSE

\begin{matrix} (8) & M S E = \frac{1}{n} \sum_{i = 1}^{n} (y_{i} - {\hat{y}}_{i})^{2} \end{matrix}

RMSE

\begin{matrix} (9) & R M S E = \sqrt{\frac{\sum_{i = 1}^{n} (y_{i} - {\hat{y}}_{i})^{2}}{n}} \end{matrix}

MAPE

\begin{matrix} (10) & M A P E = \sum_{i = 1}^{n} | \frac{y_{i} - {\hat{y}}_{i}}{y_{i}} | \times \frac{100}{n} \end{matrix}

$R^2$

\begin{matrix} (11) & \begin{matrix} R^{2} = 1 - \frac{\sum_{i = 1}^{n} (y_{i} - {\hat{y}}_{i})^{2}}{\sum_{i = 1}^{n} (y_{i} - \bar{y})^{2}} \\ 其 中 ， \bar{y} = \frac{1}{n} \sum_{i = 1}^{n} y_{i} \end{matrix} \end{matrix}

分类