协同过滤2022-11-08

相似度的度量方法

度量的基本要求

$d$ $M$ $x,y \in M$ $d(x,y) \in M$ $d$ 满足：

\begin{matrix} (1) & \begin{matrix} sim (i, j) = \frac{\sum_{p \in P} (R_{i, p} - {\bar{R}}_{i}) (R_{j, p} - {\bar{R}}_{j})}{\sqrt{\sum_{p \in P} (R_{i, p} - {\bar{R}}_{i})^{2}} \sqrt{\sum_{p \in P} (R_{j, p} - {\bar{R}}_{j})^{2}}} \\ 其 中 ， R_{i, p} 代 表 用 户 i 对 物 品 p 的 打 分 \\ R_{j, p} 代 表 用 户 j 对 物 品 p 的 打 分 \\ {\bar{R}}_{i} 代 表 用 户 i 对 所 有 物 品 的 平 均 评 分 \\ {\bar{R}}_{j} 代 表 用 户 j 对 所 有 物 品 的 平 均 评 分 \\ P 代 表 所 有 物 品 的 集 合 \end{matrix} \end{matrix}

\begin{matrix} (2) & \begin{matrix} \cos (i, j) = \frac{i \cdot j}{∥ i ∥ ∥ j ∥} \\ 其 中 ， i 和 j 为 用 户 向 量 或 物 品 向 量 \end{matrix} \end{matrix}

协同过滤（Collaborative Filtering，CF）推荐算法是通过在用户的行为中寻找特定的模式，并通过该模式为用户产生有效推荐的算法。该算法依赖系统中用户的行为数据，通过对用户历史行为数据的挖掘发现用户的偏好，基于不同的偏好对用户进行群组划分并推荐品味相似的物品。

下图为模拟数据，后续将根据该数据进行模拟计算：

data

根据物品相似度进行计算。例如，当用户购买了一个物品后，向其推荐该物品的相似物品。

如下图示例：

基于物品

因为物品A和物品C都被两个用户（用户A和用户B）购买过，因此这两个物品比较相似。对用户C，因为购买过物品A，此时可以向其推荐物品C。

根据用户行为（如购买记录、电影评分等），找到行为相似的客户，然后对于当前用户，利用其相似用户的购买行为进行推荐。

如下图示例：

基于用户

用户A购买了{物品A、物品C}，用户C购买了{物品A、物品C、物品D}，两个用户比较类似。用户A没有购买物品D，因此可以向其推荐。

物品相似度矩阵
$\begin{matrix} (3) & \begin{aligned} I_{n \times n} & = \frac{Y Y^{T}}{| | Y | |_{2} | | Y^{T} | |_{2}} \\ | | Y | |_{2} & = n p . l i n a l g . n o r m (Y, o r d = 2, a x i s = 1) . r e s h a p e (n, 1) # 1 : 按行归一化 \\ | | Y^{T} | |_{2} & = n p . l i n a l g . n o r m (Y^{T}, o r d = 2, a x i s = 0) . r e s h a p e (1, n) # 0 : 按列归一化 \end{aligned} \end{matrix}$
$\mathbf{P}$
$i$ $j$ $\rightarrow$ $\rightarrow$ $\rightarrow$ $j$ $i$ $i$ $j$ $i$ 的评分。计算示例如下：

公式如下：

\begin{matrix} (4) & \begin{matrix} P_{n \times m} = \frac{I Y}{| | I | |_{1}} \\ P_{m \times n} = P^{T} \\ | | I | |_{1} = n p . l i n a l g . n o r m (I, o r d = 1, a x i s = 1) . r e s h a p e (n, 1) \end{matrix} \end{matrix}

通俗解释：如果想判断阿Q对樱桃键盘的喜爱程度，首先计算未庄所有人对樱桃键盘的喜爱程度，其次计算未庄人与阿Q的相似度，最后，将相似度作为权重，与喜爱程度相乘，得到阿Q对樱桃键盘的喜爱程度。

$\mathbf{U}$
$\begin{matrix} (5) & \begin{aligned} U_{m \times m} & = \frac{X X^{T}}{| | X | |_{2} | | X^{T} | |_{2}} \\ | | X | |_{2} & = n p . l i n a l g . n o r m (X, o r d = 2, a x i s = 1) . r e s h a p e (m, 1) # 1 : 按行归一化 \\ | | X^{T} | |_{2} & = n p . l i n a l g . n o r m (X^{T}, o r d = 2, a x i s = 0) . r e s h a p e (1, m) # 0 : 按列归一化 \end{aligned} \end{matrix}$
$\mathbf{P}$
$i$ $j$ $\rightarrow$ $\rightarrow$ $\rightarrow$ $i$ $j$ $j$ $i$ $j$ 的评分。计算示例如下：
公式如下：
$\begin{matrix} (6) & \begin{matrix} P_{m \times n} = \frac{U X}{| | U | |_{1}} \\ | | U | |_{1} = n p . l i n a l g . n o r m (U, o r d = 1, a x i s = 1) . r e s h a p e (m, 1) \end{matrix} \end{matrix}$