一.引言

前面介绍了 K-means 聚类与高斯混合聚类，本文介绍另外一种聚类方法 Power Iteration Cluster 快速迭代聚类，简称 PIC。快速迭代聚类是谱聚类的一种，是由 Lin 和 Cohen 开发的可拓展图聚类算法。

二.PIC 理论

1.谱聚类

谱聚类是最近聚类研究的一个热点问题，是建立在图论理论上的一种新的聚类算法。谱聚类基于谱图原理，根据数据集的相似度矩阵进行聚类，它具有更强的数据分布适应性。

A.计算相似度矩阵

前面我们讲到过 GraphEmbedding -GraphEmbedding 之获取图结构，里面有带权图的概念。谱聚类思想为将带权无向图划分为两个或两个以上的最优子图，要求子图内尽量相似而不同子图间距离尽量较远，以达到每个子图构成一个聚类 cluster 的目的。在无向图中，对于点1和点2，我们可以定义两点之间的距离 dst 为 w，从而构建相似度矩阵：

其中 D 为度矩阵，W为相似度矩阵。后续涉及到特征值与特征向量的计算，通过对特征向量使用类似 K-means 的算法衡量相似度并按照 K 进行聚类。

2.快速迭代聚类

关于 PIC 完整的推理与论文描述大家可以参考：Power Iteration Clustering。下面对算法做简单分解：

A.Input

输入一个按行归一化的关联矩阵 W 和期望的聚类 Cluster 数目，并随机选取一个初始化向量 v0。

B.Repeat

令

C.Until

不断增加 t，直到：

K-Means、GMM 高斯混合聚类两种聚类算法，几种算法各有优势：

K-Means 简单高效，适用于线性可分的数据以及快速聚类，可以获得聚类中心并重复使用。

GMM 高斯混合聚类其实本质上是数据分布拟合，相比 K-Means 其可以获得多个 GM 高斯分布模型，并获得每个样本属于不同聚类的概率。

PIC 快速迭代聚类通过 Laplcae 矩阵分解获取特征值特征向量，更适合非凸模型数据的聚类，但不可复用。

Spark 3.0 – 15.ML PIC 快速迭代聚类理论与实战

一.引言

二.PIC 理论

1.谱聚类

2.快速迭代聚类

最新关注

热文推荐

RabbitMQ-业务的幂等性

C/C++数据结构（十）—— 二叉查找树

〖ChatGPT实践指南 – 零基础扫盲篇⑦〗- 基于 Python 实现的 OpenAI-Library 的简单使用

学习CSS3，模拟春雪漫天飘的动画效果

如何解决 npm 安装依赖报错 ERESOLVE unable to resolve dependency tree

conda安装软件报兼容性问题的解决 Found conflicts! Looking for incompatible packages.failed.UnsatisfiableError

Spark 3.0 – 15.ML PIC 快速迭代聚类理论与实战

一.引言

二.PIC 理论

1.谱聚类

2.快速迭代聚类

相关文章

最新关注

热文推荐