聚类分析的算法划分

　　聚类分析有一个通俗的解释和比喻，那就是“物以类聚，人以群分”。

　　针对几个特定的业务指标，可以将观察对象的群体按照相似性和相异性进行不同群组的划分。

　　经过划分后，每个群组内部各对象间的相似度会很高，而在不同群组之间的对象彼此间将具有很高的相异度。

　　聚类分析的算法可以分为划分的方法、层次的方法、基于密度的方法、基于网络的方法、基于模型的方法等，其中，前面两种方法最为常用。

　　对于划分的方法，当给定m个对象的数据集，以及希望生成的细分群体数量k后，即可采用这种方法将这些对象分成k组(k<=m),使得每个组内对象是相似的，而组间的对象是相异的。

　　最常用的划分方法是K-Means方法，其具体原理是：首先，随机选择K个对象，并且所选择的每个对象都代表一个组的初始均值或初始的组中心值；

　　对剩余的每个对象，根据其与各个组初始均值的距离，将它们分配给最近的小组；

　　然后，重新计算每个小组新的均值；

　　这个过程不断重复，直到所有的对象在K组分布中都找到离自己最近的组。

　　层次的方法则是指依次让最相似的数据对象两两合并，这样不断地合并，最后就形成了一棵聚类树。

　　聚类技术在数据分析和数据化运营中的主要用途表现在：既可以直接作为模型对观察对象进行群体划分，为业务方的精细化运营提供具体的细分依据和相应的运营方案建议，又可在数据处理阶段用作数据探索的工具，包括发现离群点、孤立点，数据降维的手段和方法，通过聚类发现数据间的深层次的关系等。