K-means

k means算法及其优化方式

k-means算法本身不难,很比较好理解,整体的思路为:

由于本身算法较为简单直接,不再赘述. 但是纯 k-means 存在很多局限性,比如初始点的选择? 计算时间复杂度? 聚类效果? 本身由于其算法局限性我们也要考虑很多问题

由此衍生出了一些改进的 K-means 算法,比如 rough k-means,带权 k-means, 与蚁群算法结合等等

Use

cd homework-2/k-means
python main.py -r

arguments:

这是一次随机生成的数据

之后下方会出现提示,如果认为该数据生成的不够理想选择 y 重新生成, 如果满意的话输入 n 开始聚类

Does the data satisfy? Do you want to restart?(y/n)

以下是该次聚类的动态图,聚类的过程也就是 k-means 算法的过程

nk表示正确划入第 k 簇中样本的个数,聚类结果中任意一个簇的下近似中,若其中含有k类别的样本数目最多,则认为该集合为第K类数据的分布.

对于两个标准数据集,由于初始点的选择不同有可能有不同的 Rand 值,以下是我在两个数据集中计算得到的 Rand 值