假设你有n个样本,想聚成k类。
从n个样本中随机抽取k个,作为最初的类中心。
计算每个样本,到这k个中心的距离,离谁近就归为哪一类。
这样就得到了k类,对新的每一类计算类中心,计算方法就是此类中包含的所有样本的均值。
计算每个样本到k个新的类中心的距离,离谁近就归为哪一类。
重复以上两步,即计算新的类中心,每个样本重新归类。知道分类没有变化了为止。
以上就是k-means聚类的基本原理,基于以上原理,后来又有很多的改进算法,无非就是在初始类中心的选取、距离计算等环节做文章。