Apriori2022-11-06

数据集

基本概念

项集
购买商品的集合。
频繁项集
经常出现在一起的商品的集合。
关联规则
$X \rightarrow Y$ $X$ $Y$ $X$ $Y$ 是规则后件。

评估指标

支持度
$X$ （可能是一个商品，也可能是多个商品）出现的概率，公式如下：
$\begin{matrix} (1) & \begin{matrix} Support (X) = P (X) = \frac{N (X)}{N (A l l S a m p l e s)} \\ 其中， N (X) 是项集 X 在数据集中出现的次数 \\ N (A l l S a m p l e s) 是数据集的总数目 \end{matrix} \end{matrix}$
$X = \{啤酒，尿布 \}$
$\mathrm{Support}(X) = \{啤酒，尿布 \} = \frac{3}{5} = 0.6$
置信度
$X$ $Y$ 出现的概率，公式如下：
$\begin{matrix} (2) & \begin{matrix} Confidence (X \to Y) = P (Y ∣ X) = \frac{N (X Y)}{N (X)} \\ 其中， N (X) 是项集 X 在数据集中出现的次数 \\ N (Y ∣ X) 是在项集 X 出现的条件下项集 Y 出现的次数 \end{matrix} \end{matrix}$
$X = \{尿布 \}$ $Y = \{啤酒 \}$
$\large \mathrm{Confidence}(X \rightarrow Y) = P(Y \mid X) = \frac{\mathrm{N}(\{啤酒,尿布\})}{\mathrm{N}(\{尿布\})} = \frac{3}{4}$
提升度
$X$ $Y$ 出现的提升程度，公式如下：
$\begin{matrix} (3) & \begin{matrix} Lift (X \to Y) = \frac{P (Y ∣ X)}{P (Y)} = \frac{P (X, Y)}{P (X) P (Y)} \\ 其中， P (Y ∣ X) 指项集 X 出现的条件下项集 Y 出现的概率 \\ P (X) 指项集 X 出现的概率 \\ P (Y) 指项集 Y 出现的概率 \\ P (X, Y) 指项集 X 和 Y 同时出现的概率 \end{matrix} \end{matrix}$
$X = \{尿布 \}$ $Y = \{啤酒 \}$

$\large \mathrm{Lift}(X \rightarrow Y) = \frac{P(Y \mid X)}{P(Y)} = \frac{P(\{啤酒\}) \mid P(\{尿布 \}) }{P(\{啤酒\})} = \frac{P(\{啤酒,尿布 \}) }{P(\{啤酒\}) P(\{尿布\})} = \frac{0.6}{0.6 * 0.8} = 1.25$

Apriori

对于Apriori算法，通常使用支持度作为判断频繁项集的标准，Apriori算法的目标是找到最大的K项频繁集。

Apriori采用迭代的方法寻找最大的K项频繁集。具体如下：

搜索出候选1项集及对应的支持度，剪枝去掉低于支持度阈值的1项集，得到频繁1项集；
对剩下的频繁1项集进行连接，得到候选的频繁2项集，筛选去掉低于支持度的候选频繁2项集，得到真正的频繁2项集；
依次类推，迭代下去，直到无法找到频繁K+1项集为止，对应的频繁K项集的集合即为算法的输出结果。

下图为Apriori算法过程示例：

Apriori示例

在该例中，共有4条记录：134、235、1235、25。使用Apriori算法寻找频繁K项集，设最小支持度为0.5。步骤如下：

$C_1$ $L_1$
$L_1$ $C_2$ $C_2$ $L_2$
$L_2$ $C_3$ $C_3$ $L_3$
由于无法再进行连接得到频繁4项集，最终的结果即为频繁3项集235

数据集

基本概念

评估指标

Apriori

参考文档