如何确定聚类的数目_如何确定聚类数目-数据分析

采用聚类分析时，如何确定聚类的数目？

采用聚类分析时，如何确定聚类的数目？这个聚类数目的确定有一定的方法吗？

确定聚类个数的方法：
相似系数：指变量或样本间的亲密程度（即阈值），相似系数较大的聚为一类。常用的有夹角余弦、相关系数、指数相似系数。
标尺值：0～25进行分类。
伪F统计量：应该取伪F统计量较大而类数较小的聚类水平。如下图所示，应该分为4类最合适。
统计量R2：应该取R2统计量较大的类数数目。
伪t2统计量：伪t2统计量大说明不应该合并这两类，应该取合并前的水平。
实际意义：根据你做得试验，必须有实际意义。比如我的水稻食味的，那一定是好吃、一般、不好吃。只能是三个类别。

聚类数目的真正确定在于你研究的问题是什么，以及你事先有无一个大致的判断标准。在你用spss运行完你的样品数据得出聚类谱系图后，你可以根据你所研究问题的需要来划分样品的类别，不同的方法，甚至相同方法（比如系统聚类）因为运用了不同的距离公式，都有可能得出不同的分类结论。无所谓哪种是最好的方法，关键是看哪种方法最后得出的结论能让你满意。另外，你不可能得出让你完全满意的结论，你在写报告时可以就那些不满意的地方作出解释，说明大概是因为什么原因（比如收集数据的误差、所选项目与所研究问题之间的联系不够密切等等），不要试图掩饰或置之不理。最后，要强调的一点是，如果你是第一次用spss做聚类，最好找一些现成的例子熟悉下基本操作，等把每一步骤的操作都弄熟悉后再去输入你的数据用spss运行。最好用不同方法都试试，而且每一种方法反复做几遍，这样可以避免因为操作失误而得到错误的结论。这是我上学期学多元统计学时的心得，可能不是很好，会让专家笑话，但是还是写出来，希望对刚学习的人有用。

The NUMCLUSTERS subcommand specifies the number of clusters into which the data will
be partitioned.
AUTO Automatic selection of the number of clusters. Under AUTO, you may specify
a maximum number of possible clusters. TWOSTEP CLUSTER will search for
the best number of clusters between 1 and the maximum using the criterion
that you specify. The criterion for deciding the number of clusters can be
either the Bayesian Information Criterion (BIC) or Akaike Information Criterion
(AIC). TWOSTEP CLUSTER will find at least one cluster if the AUTO
keyword is given.
FIXED User-specified number of clusters. Specify a positive integer

Examples
TWOSTEP CLUSTER
/CONTINUOUS VARIABLES = INCOME
/CATEGORICAL VARIABLES = GENDER RACE
/NUMCLUSTERS AUTO 10 AIC
/PRINT SUMMARY COUNT.
TWOSTEP CLUSTER uses the variables RACE, GENDER and INCOME for clustering. Specifications
on the NUMCLUSTERS subcommand will instruct the procedure to automatically
search for the number of clusters using the Akaike Information Criterion and require the
answer to lie between 1 and 10.

===================================================================
TWOSTEP CLUSTER
/CONTINUOUS VARIABLES = INCOME
/CATEGORICAL VARIABLES = RACE GENDER
/NUMCLUSTERS FIXED 7
/PRINT SUMMARY COUNT.
Here the procedure will find exactly seven clusters.

最常见的聚类方法是系统聚类，其基本思想是：先将待聚类的n个样品（或者变量）各自看成一类，共有n类；然后按事先选定的方法计算每两类之间的聚类统计量，即某种距离（或者相似系数），将关系最密切的两类并为一类，其余不变，即得n－1类；再按前面的计算方法计算新类与其他类之间的距离（或者相似系数），再将关系最密切的两类并为一类，其余不变，即得n－2类；如此继续下去，每次重复都减少一类，直到最后所有样品（或变量）归为一类为止。

在用系统聚类法进行聚类的过程中，涉及到两个类之间的距离（或相似系数）问题。当每类含有两个以上的样品时，不同定义类与类之间距离的方法就产生了不同的系统聚类方法，它们包括：最短距离法、最长距离法、中间距离法、重心法、类平均法以及离差平方和法

如何确定最佳的分类？这个问题是聚类分析历史中尚未完全解决的问题之一，主要的障碍是对类的结构和内容很难给出一个统一的定义，这样就给不出从理论上和实践中都可行的虚无假设。往往在实际应用中人们主要根据研究的目的，从使用的角度出发，选择合适的分类数。Demirmen（1972）曾提出了根据树状结构图来分类的准则：

Ø1.任何类都必须在邻近各类中是突出的，即各类重心之间距离必须大；

Ø2.各类所包含的元素都不要过分地多；

Ø3.分类的数目应该符合使用的目的；

Ø4.若采用几种不同的聚类方法处理，则在各自的聚类结果上应该发现相同的类

简单的方法，

1.就是先多做几组分类，比如说从5类—8类；
2.并比较这几类之间有无显著差异；
3.从中得到你可以接受的结论；

转载请注明：数据分析 » 如何确定聚类的数目_如何确定聚类数目