LSA简介

LSA（latent semantic analysis），即潜在语义分析，是一种无监督方法。主要用于文本的话题分析，其特点是通过矩阵分解发现文本与单词之间的基于话题的语义关系。具体地，将文本集合表示为单词-文本矩阵，对单词-文本矩阵进行分解，从而得到话题向量空间，即文本在话题向量空间的表示。

矩阵分解可以选择奇异值分解（SVD）或非负矩阵分解。

单词向量空间

$n$ $D=\{d_1, d_2, \cdots, d_n \}$ $m$ $W = \{w_1, w_2, \cdots, w_m \}$ $X$ ：

\begin{matrix} (1) & \begin{matrix} X = {[\begin{matrix} x_{11} & x_{12} & \dots & x_{1 n} \\ x_{21} & x_{22} & \dots & x_{2 n} \\ ⋮ & ⋮ & ⋮ \\ x_{m 1} & x_{m 2} & \dots & x_{m n} \end{matrix}]}_{m \times n} \end{matrix} \end{matrix}

$x_{ij}$ $w_{i}$ $d_j$ 中出现的频数或权值。

权值一般使用单词频率-逆文本频率（TF-IDF）表示，其定义如下：

\begin{matrix} (2) & \begin{matrix} {TFIDF}_{i j} = \frac{{tf}_{i j}}{{tf}_{\cdot j}} \log \frac{df}{{df}_{i}} \\ 其 中 ， {tf}_{i j} 是 单 词 w_{i} 在 文 本 d_{j} 中 出 现 的 频 数 \\ {tf}_{\cdot j} 是 文 本 d_{j} 中 所 有 单 词 的 频 数 之 和 \\ df 是 文 本 集 合 D 的 全 部 文 本 数 \\ {df}_{i} 是 含 有 单 词 w_{i} 的 文 本 数 \end{matrix} \end{matrix}

直观上讲，一个单词在文本中出现的频数越高，该单词在该文本中的重要度越高，含有该单词的文本数越少，该单词越能表示其所在文本的特点。

单词向量空间模型直接使用单词-文本矩阵的信息。每个列向量可以看成该文本的单词向量表示形式，可以使用余弦相似度计算不同文本之间的相似度。该模型的优点是模型简单，计算效率高，缺点是对一词多义或多词一义未必能够准确表达。

话题向量空间

$k$ $m$ 维的向量表示， $T$ 的表示如下：

\begin{matrix} (3) & \begin{matrix} T = {[\begin{matrix} t_{11} & t_{12} & \dots & t_{1 k} \\ t_{21} & t_{22} & \dots & t_{2 k} \\ ⋮ & ⋮ & ⋮ \\ t_{m 1} & t_{m 2} & \dots & t_{m k} \end{matrix}]}_{m \times k} \\ 其 中 ， t_{i j} 表 示 单 词 w_{i} 在 话 题 t_{j} 的 权 值 ， 权 值 越 大 ， 该 单 词 在 该 话 题 的 重 要 度 越 高 \end{matrix} \end{matrix}

文本在话题向量空间的表示

$Y$ 表示话题在文本中出现的情况，称为话题-文本矩阵，记作：

\begin{matrix} (4) & \begin{matrix} Y = {[\begin{matrix} y_{11} & y_{12} & \dots & y_{1 n} \\ y_{21} & y_{22} & \dots & y_{2 n} \\ ⋮ & ⋮ & ⋮ \\ y_{k 1} & y_{k 2} & \dots & y_{k n} \end{matrix}]}_{k \times n} \\ 其 中 ， y_{i j} 表 示 话 题 t_{i} 在 文 本 d_{j} 的 权 值 ， 权 值 越 大 ， 该 话 题 在 该 文 档 的 重 要 度 越 高 \end{matrix} \end{matrix}

单词向量空间->话题向量空间

$X$ 可以近似地表示为 $T$ 与 $Y$ 的乘积形式，即：

\begin{matrix} (5) & X \approx T Y \end{matrix}

下图示意性地表示实现潜在语义分析的矩阵因子分解过程：

LSA

LSA分析算法

SVD分解

对 $X$ 进行SVD分解，将其左矩阵作为话题向量空间，将其对角矩阵与右矩阵的乘积作为文本在话题向量空间的表示。具体如下述公式表示：

\begin{matrix} (6) & X \approx U_{k} (Σ_{k} V_{k}^{T}) = T Y \end{matrix}

非负矩阵分解

对 $X$ 进行非负矩阵分解，将其左矩阵作为话题向量空间，将其右矩阵作为文本在话题向量空间的表示。