名词术语距离闵科夫斯基距离欧式距离(P=2)曼哈顿距离(P=1)切比雪夫距离马氏距离余弦距离K-means优化目标算法步骤算法优化数据预处理K值选择中心点初始化非线性映射常见问题为什么会收敛算法复杂度适用场景如何评估效果优缺点比较层次聚类算法原理Top-down(divisive)Bottom-up(agglomerative)常见问题时间复杂度DBSCANGMM谱聚类参考链接
凸聚类:若聚类结果中每个簇都是一个凸包(包含簇中所有样本的凸多面体),且凸包不相交,这称该数据集是凸数据集,该聚类算法是凸聚类;反之,称为非凸聚类。
原型聚类:输出线性分类边界的聚类算法显然都是凸聚类,这样的算法有:K均值,LVQ;而曲线分类边界的也显然是非凸聚类,高斯混合聚类,在簇间方差不同时,其决策边界为弧线,所以高混合聚类为非凸聚类。
密度聚类:DBSCAN,如下图情况,显然当领域参数符合一定条件时,会生成两个簇,其中外簇会包括内簇,所以DBSCAN显然也是非凸聚类。
缺点:对高维数据聚类时通常无效,因为样本之间的距离随着维数的增加而增加。
当
马氏距离,即数据的协方差距离,于欧式距离不同的是它考虑到各属性之间的联系,如考虑性别信息时会带来一条关于身高的信息,因为二者有一定的关联度,而且独立于测量尺度。马氏距离在非奇异变换下是不变的,可用来检测异常值(outliers)。
优点:量纲无关,排除变量之间的相关性干扰。
余弦距离测量两个矢量之间的夹角,而不是两个矢量之间的幅值差。它适用于高维数据聚类时相似度测量。
设数据集有
损失函数:
为了求损失函数的最小值,对损失函数求偏导,并令偏导数为0:
得:
可以看出,新的中心点就是所有该类的质心。
初始化
针对数据集中的每个样本点
针对每个类别
重复2~3步骤,直到达到某个中止条件(迭代次数、最小误差变化等)。
K-means 的本质是基于欧式距离的数据划分算法,均值和方差大的维度将对数据的聚类产生决定性影响。所以未做归一化处理和统一单位的数据是无法直接参与运算和比较的。常见的数据预处理方式有:数据归一化,数据标准化。 此外,离群点或者噪声数据会对均值产生较大的影响,导致中心偏移,因此我们还需要对数据进行异常点检测。
交叉验证
肘方法:loss下降的速度
ISODATA
当属于某个类别的样本数过少时把这个类别去除,当属于某个类别的样本数过多、分散程度较大时把这个类别分为两个子类别。
Gap statistic,见 《参考文档-gap.pdf》
随机产生:当原始数据符合高斯分布,而随机产生的点如果在同一个组,效果会很差。
最远化:先随机选择一个点,然后选择距离该点最远的点作为第二点,再选择距离前两个点最远的点作为第三点,以此类推。但是,该方法受噪声点影响较大。
k-menas++:对最远化进行了改进,最远化方法直接选择最远的点,k-means++则以一定概率选择每一个点。当然,最远的点概率相对会大,但是如果最远的点仅仅是较少的异常点,而正常的成簇的点虽然距离较近(单个点的概率较小),但点数众多,那么整体上能够选择到该簇中的点作为中心点的概率也会较大(点多力量大)。
随机选择第一个点作为中心点
对第
基于欧式距离的 K-means 假设了了各个数据簇的数据具有一样的的先验概率并呈现球形分布,但这种分布在实际生活中并不常见。面对非凸的数据分布形状时我们可以引入核函数来优化,这时算法又称为核 K-means 算法,是核聚类方法的一种。核聚类方法的主要思想是通过一个非线性映射,将输入空间中的数据点映射到高位的特征空间中,并在新的特征空间中进行聚类。非线性映射增加了数据点线性可分的概率,从而在经典的聚类算法失效的情况下,通过引入核函数可以达到更为准确的聚类结果。
解释一:每次迭代损失函数都会下降,并且损失函数有下界,因此能够收敛。
解释二:EM算法
回顾K-means步骤:先随机选择初始节点作为中心点,然后计算每个样本所属类别,再通过类别更新中心点。
K-Means | EM算法 | 解释 |
---|---|---|
确认中心点后,对数据集重新进行标记 | E步:求当前参数条件下的Exceptation | 找到一个最逼近目标的函数 |
根据标记重新求中心点 | M步:求似然函数最大化(损失函数最小)时对应的参数 | 固定函数 |
凸形簇。
轮廓系数(Silhouette Coefficient)
单个点的轮廓系数为:
整个数据集的轮廓系数为所有点轮廓系数的均值。
优点:
缺点:
CH index
优点:
缺点:
将数据分为2组(e.g. 2-means)
递归地处理每一组
每两个点形成一个cluster
重复合并两个最近的cluster。
如何度量两个cluster之间的距离?可以使用两个cluster两两点之间min/max/avg距离作为两个cluster之间的距离。
基于密度的聚类算法。DBSCAN的核心思想是从某个核心点出发,不断向密度可达的区域扩张,从而得到一个包含核心点和边界点的最大化区域,区域中任意两点密度相连。
优点:
缺点:
如何选择聚类中心数?AIC、BIC
待补充。