spss聚类分析结果解释

上传人:仙*** 文档编号:180427761 上传时间:2023-01-06 格式:PPT 页数:83 大小:3.82MB
收藏 版权申诉 举报 下载
spss聚类分析结果解释_第1页
第1页 / 共83页
spss聚类分析结果解释_第2页
第2页 / 共83页
spss聚类分析结果解释_第3页
第3页 / 共83页
资源描述:

《spss聚类分析结果解释》由会员分享,可在线阅读,更多相关《spss聚类分析结果解释(83页珍藏版)》请在装配图网上搜索。

1、第14章 聚类分析与判别分析介绍:介绍:1、聚类分析、聚类分析2、判别分析、判别分析分类学是人类认识世界的基础科学。聚类分析分类学是人类认识世界的基础科学。聚类分析和判别分析是研究事物分类的基本方法,广泛地应和判别分析是研究事物分类的基本方法,广泛地应用于自然科学、社会科学、工农业生产的各个领域。用于自然科学、社会科学、工农业生产的各个领域。14.1.1 聚类分析根据事物本身的特性研究个体分类的方法,原根据事物本身的特性研究个体分类的方法,原则是同一类中的个体有较大的相似性,不同类则是同一类中的个体有较大的相似性,不同类中的个体差异很大。中的个体差异很大。根据分类对象的不同,分为样品(观测量)

2、聚根据分类对象的不同,分为样品(观测量)聚类和变量聚类两种:类和变量聚类两种:样品聚类:对观测量样品聚类:对观测量(Case)进行聚类(不同的目的进行聚类(不同的目的选用不同的指标作为分类的依据,如选拔运动员与选用不同的指标作为分类的依据,如选拔运动员与分课外活动小组)分课外活动小组)变量聚类:找出彼此独立且有代表性的自变量,而变量聚类:找出彼此独立且有代表性的自变量,而又不丢失大部分信息。在生产活动中不乏有变量聚又不丢失大部分信息。在生产活动中不乏有变量聚类的实例,如:衣服号码(身长、胸围、裤长、腰类的实例,如:衣服号码(身长、胸围、裤长、腰围)、鞋的号码。变量聚类使批量生产成为可能。围)、

3、鞋的号码。变量聚类使批量生产成为可能。14.1.2 判别分析判别分析是根据表明事物特点的变量值和它们判别分析是根据表明事物特点的变量值和它们所属的类,求出判别函数。根据判别函数对未所属的类,求出判别函数。根据判别函数对未知所属类别的事物进行分类的一种分析方法。知所属类别的事物进行分类的一种分析方法。在自然科学和社会科学的各个领域经常遇到需在自然科学和社会科学的各个领域经常遇到需要对某个个体属于哪一类进行判断。如动物学要对某个个体属于哪一类进行判断。如动物学家对动物如何分类的研究和某个动物属于哪一家对动物如何分类的研究和某个动物属于哪一类、目、纲的判断。类、目、纲的判断。不同:判别分析和聚类分析

4、不同的在于判别分不同:判别分析和聚类分析不同的在于判别分析要求已知一系列反映事物特征的数值变量的析要求已知一系列反映事物特征的数值变量的值,并且已知各个体的分类(值,并且已知各个体的分类(训练样本训练样本)。)。14.1.3 聚类分析与判别分析的SPSS过程在在Analyze?Classify下:下:1.2.3.K-Means Cluster:观测量快速聚类分观测量快速聚类分析过程析过程Hierarchical Cluster:分层聚类(进行:分层聚类(进行观测量聚类和变量聚类的过程观测量聚类和变量聚类的过程Discriminant:进行判别分析的过程:进行判别分析的过程14.2 快速样本聚类

5、过程(Quick Cluster)使用使用 k 均值分类法对观测量进行聚类均值分类法对观测量进行聚类可使用系统的默认选项或自己设置选项,如分为几类、可使用系统的默认选项或自己设置选项,如分为几类、指定初始类中心、是否将聚类结果或中间数据数据存指定初始类中心、是否将聚类结果或中间数据数据存入数据文件等。入数据文件等。快速聚类实例快速聚类实例(P342,data14-01a):使用系统的默认使用系统的默认值进行:对运动员的分类(分为值进行:对运动员的分类(分为4类)类)?Analyze?Classify?K-Means ClusterVariables:x1,x2,x3Label Case By:

6、noNumber of Cluster:4比较有用的结果:聚类结果形成的最后四类中心点比较有用的结果:聚类结果形成的最后四类中心点(Final Cluster Centers)和每类的观测量数目(和每类的观测量数目(Number of Cases in each Cluster)?但不知每个运动员究竟属于哪一类?这就要用到但不知每个运动员究竟属于哪一类?这就要用到Save选项选项?14.2 快速样本聚类过程(Quick Cluster)中的选项使用快速聚类的选择项:使用快速聚类的选择项:?类中心数据的输入与输出:类中心数据的输入与输出:Centers选项选项?输出数据选择项:输出数据选择项:S

7、ave选项选项?聚类方法选择项:聚类方法选择项:Method选项选项?聚类何时停止选择项:聚类何时停止选择项:Iterate选项选项?输出统计量选择项:输出统计量选择项:Option选项选项14.2 指定初始类中心的聚类方法例题P343数据同上(数据同上(data14-01a):以四个四类成绩突出者的数据为初始):以四个四类成绩突出者的数据为初始聚类中心聚类中心(种子种子)进行聚类。类中心数据文件进行聚类。类中心数据文件data14-01b(但缺一(但缺一列列Cluster_,不能直接使用,要修改),不能直接使用,要修改)。对运动员的分类(还是分。对运动员的分类(还是分为为4类)类)Analy

8、ze?Classify?K-Means Cluster?Variables:x1,x2,x3?Label Case By:no?Number of Cluster:4?Center:Read initial from:data14-01bSave:Cluster membership和和Distance from Cluster Center?比较有用的结果(可将结果与前面没有初始类中心比较):比较有用的结果(可将结果与前面没有初始类中心比较):?聚类结果形成的最后四类中心点聚类结果形成的最后四类中心点(Final Cluster Centers)?每类的观测量数目(每类的观测量数目(Numb

9、er of Cases in each Cluster)?在数据文件中的两个新变量在数据文件中的两个新变量qc1_1(每个观测量最终被分配(每个观测量最终被分配到哪一类)和到哪一类)和 qc1_2(观测量与所属类中心点的距离)(观测量与所属类中心点的距离)14.3 分层聚类(Hierarchical Cluster)分层聚类方法:分层聚类方法:?分解法分解法:先视为一大类,再分成几类先视为一大类,再分成几类凝聚法凝聚法:先视每个为一类先视每个为一类,再合并为几大类再合并为几大类可用于观测量可用于观测量(样本样本)聚类聚类(Q型型)和变量聚类和变量聚类(R型型)一般分为两步(自动一般分为两步(自

10、动,可从可从Paste的语句知道的语句知道,P359):):?Proximities:先对数据进行的预处理:先对数据进行的预处理(标准化和计算距离等标准化和计算距离等)?Cluster:然后进行聚类分析:然后进行聚类分析两种统计图:树形图两种统计图:树形图(Dendrogram)和冰柱图和冰柱图(Icicle)各类型数据的标准化、距离和相似性计算各类型数据的标准化、距离和相似性计算P348-354?定距变量、分类变量、二值变量定距变量、分类变量、二值变量标准化方法标准化方法p353:Z Scores、Range-1 to 1、Range 0 to 1等等14.3.4 用分层聚类法进行观测量聚类

11、实例 P358对对20种啤酒进行分类种啤酒进行分类(data14-02),变量包括:变量包括:Beername(啤酒名啤酒名称称)、calorie(热量热量)、sodium(钠含量钠含量)、alcohol(酒精含量酒精含量)、cost(价格价格)AnalyzeClassify Hierarchical Cluster:?Variables:calorie,sodium,alcohol,cost 成分和价格成分和价格Label Case By:BeernameCluster:Case,Q聚类聚类Display:选中选中Statistics,单击,单击Statistics?Agglomeratio

12、n Schedule Agglomeration Schedule 凝聚状态表凝聚状态表?Proximity matrixProximity matrix:距离矩阵:距离矩阵?Cluster membershipCluster membership:Single solutionSingle solution:4 4 显示分为显示分为4 4类时,各观测类时,各观测量所属的类量所属的类?Method:Cluster(Furthest Neighbor),Measure-Interval(Squared Euclidean distance),Transform Value(Range 0-1/B

13、y variable(值值-最小值最小值)/极差极差)Plots:(Dendrogram)Icicle(Specified range of cluster,Start-1,Stop-4,by-1),Orientation(Vertical纵向作图纵向作图)Save:Cluster Membership(Single solution 4)比较有用的结果:根据需要进行分类,在数据文件中的分类新变量比较有用的结果:根据需要进行分类,在数据文件中的分类新变量clu4_1等等?14.3.5 用分层聚类法进行变量聚类变量聚类,是一种降维的方法,用于在变量聚类,是一种降维的方法,用于在变量众多时寻找有代

14、表性的变量,以便变量众多时寻找有代表性的变量,以便在用少量、有代表性的变量代替大变量在用少量、有代表性的变量代替大变量集时,损失信息很少。集时,损失信息很少。与进行观测量聚类雷同,不同点在于:与进行观测量聚类雷同,不同点在于:?选择选择Variable而非而非Case?Save选项失效,不建立的新变量选项失效,不建立的新变量14.3.6 变量聚类实例1 P366上面啤酒分类问题上面啤酒分类问题data14-02。AnalyzeClassify Hierarchical Cluster:?Variables:calorie,sodium,alcohol,cost 成分和价格成分和价格Cluste

15、r:Variable,R聚类聚类Method:?Cluster Method:Furthest Neighbor?Measure-Interval:Pearson Correlation?Transform Values:Z Score(By Variable)?Plots:Dendrogram 树型图树型图Statistics:Proximity matrixProximity matrix:相关矩阵:相关矩阵比较有用的结果:根据相关矩阵和树型图,可知比较有用的结果:根据相关矩阵和树型图,可知calorie(热量热量)和和alcohol(酒酒精含量精含量)的相关系数最大,首先聚为一类。从整体

16、上看,聚为三类是比较好的相关系数最大,首先聚为一类。从整体上看,聚为三类是比较好的结果。至于热量和酒精含量选择哪个作为典型指标代替原来的两个变量,的结果。至于热量和酒精含量选择哪个作为典型指标代替原来的两个变量,可以根据专业知识或测度的难易程度决定。可以根据专业知识或测度的难易程度决定。14.3.6 变量聚类实例2 P368有有10个测试项目,分别用变量个测试项目,分别用变量 X1-X10表示,表示,50名学生参加测试。想从名学生参加测试。想从 10个变量中选择几个变量中选择几个典型指标。个典型指标。data14-03AnalyzeClassify Hierarchical Cluster:?

17、Variables:X1-X10Cluster:Variable,R聚类聚类Method:?Cluster Method:Furthest Neighbor?Measure-Interval:Pearson Correlation?Plots:Dendrogram 树型图树型图Statistics:Proximity matrixProximity matrix相关矩阵相关矩阵比较有用的结果:可以从树型图中看出聚类过程。具体聚为几类最为合理,比较有用的结果:可以从树型图中看出聚类过程。具体聚为几类最为合理,根据专业知识来定。而每类中的典型指标的选择,可用根据专业知识来定。而每类中的典型指标的选

18、择,可用p370的相关指数公的相关指数公式的计算,然后比较类中各个变量间的相关指数,哪个大,就选哪个变量作式的计算,然后比较类中各个变量间的相关指数,哪个大,就选哪个变量作为此类的代表变量。为此类的代表变量。14.4 判别分析P374判别分析的概念:是根据观测到的若干变量值,判断判别分析的概念:是根据观测到的若干变量值,判断研究对象如何分类的方法。研究对象如何分类的方法。要先建立判别函数要先建立判别函数 Y=a1x1+a2x2+.anxn,其中,其中:Y为为判别分数判别分数(判别值判别值),x1 x2.xn为反映研究对象特征的变为反映研究对象特征的变量,量,a1 a2.an为系数为系数SPSS

19、对于分为对于分为m类的研究对象,建立类的研究对象,建立m个线性判别函个线性判别函数。对于每个个体进行判别时,把观测量的各变量值数。对于每个个体进行判别时,把观测量的各变量值代入判别函数,得出判别分数,从而确定该个体属于代入判别函数,得出判别分数,从而确定该个体属于哪一类,或计算属于各类的概率,从而判别该个体属哪一类,或计算属于各类的概率,从而判别该个体属于哪一类。还建立标准化和未标准化的典则判别函数。于哪一类。还建立标准化和未标准化的典则判别函数。具体见下面具体见下面吴喜之教授有关判别分析判别分析的讲义补充:补充:聚类分析与判别分析以下的讲义是吴喜之教授有关聚类分析与判别分析聚类分析与判别分析

20、 的讲义,我觉得比书上讲得清楚。先是聚类分析一章先是聚类分析一章再是判别分析一章再是判别分析一章聚类分析聚类分析分类分类俗语说,物以类聚、人以群分。俗语说,物以类聚、人以群分。但什么是分类的根据呢?但什么是分类的根据呢?比如,要想把中国的县分成若干类,就有很比如,要想把中国的县分成若干类,就有很多种分类法;多种分类法;可以按照自然条件来分,可以按照自然条件来分,比如考虑降水、土地、日照、湿度等各方面;比如考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基也可以考虑收入、教育水准、医疗条件、基础设施等指标;础设施等指标;既可以用某一项来分类,也可以同时考虑多既可以用某一项

21、来分类,也可以同时考虑多项指标来分类。项指标来分类。聚类分析聚类分析对于一个数据,人们既可以对变量(指标)进对于一个数据,人们既可以对变量(指标)进行分类行分类(相当于对数据中的列分类相当于对数据中的列分类),也可以对,也可以对观测值(事件,样品)来分类(相当于对数据观测值(事件,样品)来分类(相当于对数据中的行分类)。中的行分类)。比如学生成绩数据就可以对学生按照理科或文比如学生成绩数据就可以对学生按照理科或文科成绩(或者综合考虑各科成绩)分类,科成绩(或者综合考虑各科成绩)分类,当然,并不一定事先假定有多少类,完全可以当然,并不一定事先假定有多少类,完全可以按照数据本身的规律来分类。按照数

22、据本身的规律来分类。本本 章章 要要 介介 绍绍 的的 分分 类类 的的 方方 法法 称称 为为 聚聚 类类 分分 析析(cluster analysis)。对变量的聚类称为)。对变量的聚类称为 R型聚类,而对观测值聚类称为型聚类,而对观测值聚类称为 Q型聚类。这两型聚类。这两种聚类在数学上是对称的,没有什么不同。种聚类在数学上是对称的,没有什么不同。饮料数据(饮料数据(drink.sav)16种饮料的热量、咖啡因、钠及价格四种变量如何度量远近?如何度量远近?如果想要对 100个学生进行分类,如果仅仅知道他们的数学成绩,则只好按照数学成绩来分类;这些成绩在直线上形成 100个点。这样就可以把接

23、近的点放到一类。如果还知道他们的物理成绩,这样数学和物理成绩就形成二维平面上的 100个点,也可以按照距离远近来分类。三维或者更高维的情况也是类似;只不过三维以上的图形无法直观地画出来而已。在饮料数据中,每种饮料都有四个变量值。这就是四维空间点的问题了。两个距离概念两个距离概念按照远近程度来聚类需要明确两个概念:一个是按照远近程度来聚类需要明确两个概念:一个是 点和点点和点之间之间的距离,一个是的距离,一个是类和类之间类和类之间的距离。的距离。点间距离有很多定义方式。最简单的是歐氏距离,还有点间距离有很多定义方式。最简单的是歐氏距离,还有其他的距离。其他的距离。当然还有一些和距离相反但起同样作

24、用的概念,比如相当然还有一些和距离相反但起同样作用的概念,比如相似性等,两点越相似度越大,就相当于距离越短。似性等,两点越相似度越大,就相当于距离越短。由一个点组成的类是最基本的类;如果每一类都由一个由一个点组成的类是最基本的类;如果每一类都由一个点组成,那么点间的距离就是类间距离。但是如果某一点组成,那么点间的距离就是类间距离。但是如果某一类包含不止一个点,那么就要确定类间距离,类包含不止一个点,那么就要确定类间距离,类间距离是基于点间距离定义的:比如类间距离是基于点间距离定义的:比如 两类之间最近点两类之间最近点之间的距离之间的距离可以作为这两类之间的距离,也可以用可以作为这两类之间的距离

25、,也可以用 两类两类中最远点之间的距离中最远点之间的距离作为这两类之间的距离;当然也可作为这两类之间的距离;当然也可以用各类的中心之间的距离来作为类间距离。在计算时,以用各类的中心之间的距离来作为类间距离。在计算时,各种点间距离和类间距离的选择是通过统计软件的选项各种点间距离和类间距离的选择是通过统计软件的选项实现的。不同的选择的结果会不同,但一般不会差太多。实现的。不同的选择的结果会不同,但一般不会差太多。向量向量x=(x1,xp)与与y=(y1,yp)之间的距离或相似系数之间的距离或相似系数:欧氏距离欧氏距离:Euclidean?(xi?yi)i2平方欧氏距离平方欧氏距离:Squared

26、Euclidean?(x?y)iii2夹角余弦夹角余弦(相似系数相似系数 1):xy?iicosineiC1)?cos?xy?xy(2iBlock(绝对距离绝对距离):Si|xi-yi|2iChebychev:Maxi|xi-yi|Minkowski:?qx?y?Pearson correlationii(相似系数相似系数 2):1q?(xi?yi)?i?C2)?rxy(xy?(x?x)(y?y)?iii(x?x)?(y?y)?2iiii2当变量的测量值相差悬殊时当变量的测量值相差悬殊时,要先进行要先进行标准化标准化.如如R为极差为极差,s 为标准差为标准差,则标则标准化的数据为每个观测值减去

27、均值后准化的数据为每个观测值减去均值后再除以再除以R或或s.当观测值大于当观测值大于0时时,有人有人采用采用Lance和和Williams的距离的距离|xi?yi|1?pixi?yi类类Gp与类与类Gq之间的距离之间的距离Dpq(d(xi,xj)表示点表示点xi Gp和和xj Gq之间的距离之间的距离)最短距离法最短距离法:最长距离法最长距离法:Dmaxdx(i,xDmindx(i,xpq?j)pq?j)类平均法类平均法:1重心法重心法:D?d(x,x)D?mindx(,x)?pqijpqpqnnGG12xi?pxj?q离差平方和离差平方和:D?(x?x)(x?x),D?(x?x)(x?x),

28、?1ipip2jqjq(Wald)x?Gx?GipjqD12?x?G?Gkpq(x?x)(x?x)?D?D?D?D?kipq12?12(中间距离中间距离,可变平均法可变平均法,可变法等可参考各书可变法等可参考各书).在用欧氏距离时在用欧氏距离时,有统一的递推公式有统一的递推公式(假设假设Gr是从是从Gp和和Gq合并而来合并而来):Lance和和Williams给出给出(对欧氏距离对欧氏距离)统一统一递推递推公式公式:2D(k,r)=ap2D(k,p)+a22+g|D(k,p)-D(k,q)|q22D(k,q)+bD(p,q)前面方法的递推公式可选择参数而得前面方法的递推公式可选择参数而得:方法

29、方法ai(i=p,q)bg最短距离最短距离?最长距离最长距离?重心重心ni/nr类平均类平均ni/nr离差平方和离差平方和(ni+nk)/(nr+nk)中间距离中间距离1/2可变法可变法(1-b)/2可变平均可变平均(1-b)n/n00-apaq 0-1/4b(1)b(1)-1/21/2000000-nk/(nr+nk)有了上面的点间距离和类间有了上面的点间距离和类间距离的概念,就可以介绍聚距离的概念,就可以介绍聚类的方法了。这里介绍两个类的方法了。这里介绍两个简单的方法。简单的方法。事先要确定分多少类:事先要确定分多少类:k-均值聚类均值聚类前面说过,聚类可以走着瞧,不一定事先确定有多少类;

30、前面说过,聚类可以走着瞧,不一定事先确定有多少类;但是这里的但是这里的k-均值聚类(均值聚类(k-means cluster,也叫快速聚,也叫快速聚类,类,quick cluster)却要求你先说好要分多少类。看起来)却要求你先说好要分多少类。看起来有些主观,是吧!有些主观,是吧!假定你说分假定你说分3类,这个方法还进一步要求你事先确定类,这个方法还进一步要求你事先确定3个点个点为为“聚类种子聚类种子”(SPSS软件软件自动自动为你选种子为你选种子);也就是说,;也就是说,把这把这3个点作为三类中每一类的基石。个点作为三类中每一类的基石。然后,根据和这三个点的距离远近,把所有点分成三类。然后,

31、根据和这三个点的距离远近,把所有点分成三类。再把这三类的中心(均值)作为新的基石或种子(原来的再把这三类的中心(均值)作为新的基石或种子(原来的“种子种子”就没用了),重新按照距离分类。就没用了),重新按照距离分类。如此叠代下去,直到达到停止叠代的要求(比如,各类最如此叠代下去,直到达到停止叠代的要求(比如,各类最后变化不大了,或者叠代次数太多了)。显然,前面的聚后变化不大了,或者叠代次数太多了)。显然,前面的聚类种子的选择并不必太认真,它们很可能最后还会分到同类种子的选择并不必太认真,它们很可能最后还会分到同一类中呢。下面用饮料例的数据来做一类中呢。下面用饮料例的数据来做k-均值聚类。均值聚

32、类。?假定要把这假定要把这1616种饮料分成种饮料分成3 3类。利用类。利用SPSSSPSS,只,只叠代了三次就达到目标了(计算机选的种子还叠代了三次就达到目标了(计算机选的种子还可以)。这样就可以得到最后的三类的中心以可以)。这样就可以得到最后的三类的中心以及每类有多少点及每类有多少点F F inin a a l l C C lulu s s tete r r C C e e ntnt e e rsrs1CALORIE203.10CAFFEINE1.65SODIUM13.05PRICE3.15Cluster233.714.1610.062.693107.343.498.762.94umum

33、bebe r r o o f f C C asas eses inin e e a a chch C C l l usus teteCluster123ValidMissing2.0007.0007.00016.000.000根据需要,可以输出哪些根据需要,可以输出哪些点分在一起。结果是:第点分在一起。结果是:第一类为饮料一类为饮料 1、10;第二;第二类为饮料类为饮料2、4、8、11、12、13、14;第三类为剩下的;第三类为剩下的饮料饮料3、5、6、7、9、15、16。SPSSSPSS实现实现(聚类分析聚类分析)K-均值聚类均值聚类以以数数据据drink.sav 为为例例,在在SPSS 中

34、中选选择择Analyze Classify K-Menas Cluster,然后把然后把calorie(热量)、(热量)、caffeine(咖啡(咖啡因)、因)、sodium(钠)、(钠)、price(价格)选(价格)选入入Variables,在在Number of Clusters处选择处选择3(想要分(想要分的类数),的类数),如果想要知道哪种饮料分到哪类如果想要知道哪种饮料分到哪类,则选则选Save,再选,再选Cluster Membership等。等。注意注意k-均值聚类只能做均值聚类只能做 Q型聚类,如要做型聚类,如要做 R型聚类,需要把数据阵进行转置。型聚类,需要把数据阵进行转置。

35、事先不用确定分多少类:分层聚类事先不用确定分多少类:分层聚类另一种聚类称为分层聚类或系统聚类另一种聚类称为分层聚类或系统聚类(hierarchical cluster)。开始时,)。开始时,有多少点就是多少类。有多少点就是多少类。它第一步先把最近的两类(点)合并它第一步先把最近的两类(点)合并成一类,然后再把剩下的最近的两类成一类,然后再把剩下的最近的两类合并成一类;合并成一类;这样下去,每次都少一类,直到最后这样下去,每次都少一类,直到最后只有一大类为止。显然,越是后来合只有一大类为止。显然,越是后来合并的类,距离就越远。再对饮料例子并的类,距离就越远。再对饮料例子来实施分层聚类。来实施分层

36、聚类。对于我们的数据,对于我们的数据,SPSSSPSS输出的树型图为输出的树型图为聚类要注意的问题聚类要注意的问题聚类结果主要受所选择的变量影响。如果去聚类结果主要受所选择的变量影响。如果去掉一些变量,或者增加一些变量,结果会很掉一些变量,或者增加一些变量,结果会很不同。不同。相比之下,聚类方法的选择则不那么重要了。相比之下,聚类方法的选择则不那么重要了。因此,聚类之前一定要目标明确。因此,聚类之前一定要目标明确。另外就分成多少类来说,也要有道理。只要另外就分成多少类来说,也要有道理。只要你高兴,从分层聚类的计算机结果可以得到你高兴,从分层聚类的计算机结果可以得到任何可能数量的类。但是,聚类的

37、目的是要任何可能数量的类。但是,聚类的目的是要使各类距离尽可能的远,而类中点的距离尽使各类距离尽可能的远,而类中点的距离尽可能的近,而且分类结果还要有令人信服的可能的近,而且分类结果还要有令人信服的解释。这一点就不是数学可以解决的了。解释。这一点就不是数学可以解决的了。SPSSSPSS实现实现(聚类分析聚类分析)分层聚类对 drink.sav 数 据 在 SPSS 中 选 择 Analyze ClassifyHierarchical Cluster,然后把calorie(热量)、caffeine(咖啡因)、sodium(钠)、price(价格)选入Variables,在Cluster选Case

38、s(这是Q型聚类:对观测值聚类),如果要对变量聚类(R型聚类)则选Variables,为了画出树状图,选 Plots,再点Dendrogram等。啤酒成分和价格数据(啤酒成分和价格数据(data14-02)啤酒名啤酒名Budweiser Schlitz Ionenbrau Kronensourc Heineken Old-milnaukeeAucsberger Strchs-bohemiMiller-lite Sudeiser-lichCoors Coorslicht Michelos-lichSecrs Kkirin Pabst-extra-lHamms Heilemans-oldOlymp

39、ia-gold-Schlite-light热量热量144.00181.00157.00170.00152.00145.00175.00149.0099.00113.00140.00102.00135.00150.00149.0068.00136.00144.0072.0097.00钠含量钠含量酒精酒精19.004.7019.004.9015.004.907.005.2011.005.0023.004.6024.005.5027.004.7010.004.306.003.7016.004.6015.004.1011.004.2019.004.706.005.0015.002.3019.004.4

40、024.004.906.002.907.004.20价格价格.43.43.48.73.77.26.40.42.43.44.44.46.50.76.79.36.43.43.46.47StatisticsClassify Hierarchical Cluster:Variables:啤酒名和成分价格等Cluster(Case,Q型聚类)Display:(Statistics)(Agglomeration Schedule凝聚状态表),(Proximity matrix),Cluster membership(Single solution,4)Method:Cluster(Furthest Nei

41、ghbor),Measure-Interval(Squared Euclidean distance),Transform Value(Range 0-1/By variable(值-最小值)/极差)Plots:(Dendrogram)Icicle(Specified range of cluster,Start-1,Stop-4,by-1),Orientation(Vertical)Save:Cluster Membership(Single solution 4)C Ca a s s e e P P r ro o c c e essssi i n ng g S Sa aumumm ma a

42、 r r y y啤酒例子啤酒例子CasesValidMissingTotalNPercentNPercentNPercent20 100.0%0.0%20 100.0%a.Squared Euclidean Distance us下表下表(Proximity matrix)中行列交叉点为中行列交叉点为两种啤酒之间各变量的欧氏距离平方和两种啤酒之间各变量的欧氏距离平方和Proximity MatrixProximity Matrix Squared Euclidean Distance4:6:8:9:10:12:13:16:18:19:20:Case:Budweise2:Schlitz:Ione

43、nbraronensourc:Heinekeld-milnauke:Aucsbergetrchs-bohemiller-liteudeiser-lic11:CoorsCoorslichtichelos-lic14:Secrs15:Kkirinabst-extra-17:Hammseilemans-ollympia-goldchlite-ligh1:Budwei.000.111.062.724.570.140.198.147.358.556.023.213.193.391.8551.069.014.0611.109.5302:Schlit.111.000.090.665.623.249.098.

44、230.745.886.161.591.376.467.9261.714.183.1641.708.9333:Ionenb.062.090.000.390.339.337.267.348.364.482.039.301.123.323.5321.332.104.2061.142.4754:Kronen.724.665.390.000.0711.4511.0541.308.815.776.589.885.418.385.0542.269.8001.0371.531.7565:Heinek.570.623.339.071.0001.272.9361.026.682.729.471.653.345.

45、155.0591.899.612.8011.331.6566:Old-mi.140.249.3371.4511.272.000.222.130.661.930.228.457.555.9291.6721.162.149.1141.497.9347:Aucsbe.198.098.2671.054.936.222.000.1371.0411.358.326.805.709.6301.3542.086.297.1142.2391.3148:Strchs.147.230.3481.3081.026.130.137.000.8671.201.283.540.643.5571.4961.416.168.0

46、271.7861.1529:Miller.358.745.364.815.682.6611.041.867.000.087.222.065.122.791.741.540.292.638.288.02710:Sudei.556.886.482.776.729.9301.3581.201.087.000.363.210.132.953.703.556.473.951.196.05011:Coors.023.161.039.589.471.228.326.283.222.363.000.141.087.394.685.948.026.156.873.34712:Coors.213.591.301.

47、885.653.457.805.540.065.210.141.000.128.572.823.443.139.388.395.14813:Miche.193.376.123.418.345.555.709.643.122.132.087.128.000.428.434.810.167.455.538.15314:Secrs.391.467.323.385.155.929.630.557.791.953.394.572.428.000.3951.695.412.4511.496.87015:Kkiri.855.926.532.054.0591.6721.3541.496.741.703.685

48、.823.434.395.0002.068.8931.1991.283.64116:Pabst1.0691.7141.3322.2691.8991.1622.0861.416.540.556.948.443.810 1.6952.068.000.8471.314.256.60717:Hamms.014.183.104.800.612.149.297.168.292.473.026.139.167.412.893.847.000.086.927.45518:Heile.061.164.2061.037.801.114.114.027.638.951.156.388.455.4511.1991.3

49、14.086.0001.535.88219:Olymp1.1091.7081.1421.5311.3311.4972.2391.786.288.196.873.395.538 1.4961.283.256.9271.535.000.21720:Schli.530.933.475.756.656.9341.3141.152.027.050.347.148.153.870.641.607.455.882.217.000This is a dissimilarity matrix凝聚过程凝聚过程:Coefficients为不相似系数为不相似系数,由于是欧氏距离由于是欧氏距离,小小的先合并的先合并.A

50、gglomeration ScheduleAgglomeration ScheduleCluster CombinedCluster 1Cluster 2117111818920415459102312136812912671619164149161419Stage Cluster FirstAppearsCluster 1Cluster 200100000005040000003287910000111360121415161817Stage12345678910111213141516171819Coefficients.014.026.027.027.054.071.087.090.12

51、8.130.183.210.222.256.348.395.8101.6722.269Next Stage2111076161211121315171517181819190Cluster MembershipCluster MembershipCase1:Budweiser2:Schlitz3:Ionenbrau4:Kronensourc5:Heineken6:Old-milnaukee7:Aucsberger8:Strchs-bohemi9:Miller-lite10:Sudeiser-lich11:Coors12:Coorslicht13:Michelos-lich14:Secrs15:

52、Kkirin16:Pabst-extra-l17:Hamms18:Heilemans-old19:Olympia-gold-20:Schlite-light4 Clusters11122111331332241143分为四分为四类的聚类的聚类结果类结果1:Bu d w ei s er1 7:H a ms1:C or s2:Sc h li t z3:Io n e nb r au6:O l d-m i ln a uk e8:S t rc h s-b o he mi1 8:H e il e ma n s-o ldV V e er r titic c a a l l I I cicic c l l e

53、 e XXXXNumber o1XX2XX3XX4XXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX7:A uc s be r ge rCase4:K ro n en s ou r c15:K k ir i n5:He i ne k e n1 4:S e cr s9:M iler-li t e2 0:S c hl i te-li g ht1 0:S u de i se

54、r-l i ch1 2:Cors l ic h t1 3:M i ch e lo s-l i ch1 6:P a bs t-e x tr a-l1 9:O l ym p ia-go l d-冰柱图冰柱图(icicle)XXXX聚类树型图聚类树型图学生测验数据(学生测验数据(data14-03)50个学生,个学生,X1-X10个测验项目个测验项目要对这要对这10个变量进行变量聚类个变量进行变量聚类(R 型聚类),过程和型聚类),过程和Q型聚型聚类(观测量聚类,对类(观测量聚类,对cases)一样一样StatisticsClassify Hierarchical Cluster:Variables

55、:x1-x10Cluster(Variable,R型聚类)Display:(Statistics)(Proximity matrix),Cluster membership(Single solution,2)Method:Cluster(Furthest Neighbor),Measure-Interval(Pearson correlation,用Pearson相关系数),Plots:Icicle(All Cluster)a aCase Processing SummaryCase Processing Summary学生测验例子学生测验例子CasesValidMissingTotalNP

56、ercentNPercentNPercent50100.0%0.0%50100.0%a.Correlation between Vectors of下表下表(Proximity matrix)中行列交叉点为中行列交叉点为两个变量之间变量的欧氏距离平方和两个变量之间变量的欧氏距离平方和ProximiProximity Matrixty MatrixCaseX1X2X3X4X5X6X7X8X9X10X1.000.133.290.099.331.198.449.323.320.112X2.133.000.026.411.201.328.134.199.268.271X3.290.026.000.15

57、1.274.406.443.509.598.318Matrix File InputX4X5X6X7.099.331.198.449.411.201.328.134.151.274.406.443.000.072.282.145.072.000.317.191.282.317.000.370.145.191.370.000.401.063.312.337.324.356.306.313.407.084.296.246X8.323.199.509.401.063.312.337.000.611.584X9.320.268.598.324.356.306.313.611.000.325X10.11

58、2.271.318.407.084.296.246.584.325.000分为两类的聚类结果分为两类的聚类结果Cluster MembershipCluster MembershipCaseX1X2X3X4X5X6X7X8X9X102 Clusters1121111222冰柱图冰柱图(icicle)Vertical IcicleVertical IcicleCaseNumber of clus1X2X3X4X5X6X7X8X9XX1 X7 X5 X6 X2 X4 X3 X8 X9 X10XXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXX X

59、XXXXXXXXXXXXXX XXXXXXXXXXX XXXXXXXXXXXXX XXXXXXXXXXXX XXXXXXXXXXXXXXXX XXXXXXXXX判别分析判别判别有一些昆虫的性别很难看出,只有通过解剖才能够判别;但是雄性和雌性昆虫在若干体表度量上有些综合的差异。于是统计学家就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并且利用这个标准来判别其他未知性别的昆虫。这样的判别虽然不能保证百分之百准确,但至少大部分判别都是对的,而且用不着杀死昆虫来进行判别了。判别分析判别分析(discriminant analysis)这就是本章要讲的是判别分析。判别分析

60、和前面的聚类分析有什么不同呢?主要不同点就是,在聚类分析中一般人们事先并不知道或一定要明确应该分成几类,完全根据数据来确定。而在判别分析中,至少有一个已经明确知道类别的“训练样本”,利用这个数据,就可以建立判别准则,并通过预测变量来为未知类别的观测值进行判别了。判别分析例子判别分析例子数据disc.sav:企图用一套打分体系来描绘企业的状况。该体系对每个企业的一些指标(变量)进行评分。这些指标包括:企业规模(is)、服务(se)、雇员工资比例(sa)、利润增长(prr)、市场份额(ms)、市场份额增长(msr)、流动资金比例(cp)、资金周转速度(cs)等等。另外,有一些企业已经被某杂志划分为

61、上升企业、稳定企业和下降企业。我们希望根据这些企业的上述变量的打分和它们已知的类别(三个类别之一:group-1代表上升,group-2代表稳定,group-3代表下降)找出一个分类标准,以对没有被该刊物分类的企业进行分类。该数据有90个企业(90个观测值),其中30个属于上升型,30个属于稳定型,30个属于下降型。这个数据就是一个“训练样本”。Disc.savDisc.sav数据数据根据距离的判别(不用投影)根据距离的判别(不用投影)Disc.sav数据有 8个用来建立判别标准(或判别函数)的(预测)变量,另一个(group)是类别。因此每一个企业的打分在这 8个变量所构成的 8维空间中是一

62、个点。这个数据有 90个点,由于已经知道所有点的类别了,所以可以求得每个类型的中心。这样只要定义了如何计算距离,就可以得到任何给定的点(企业)到这三个中心的三个距离。显然,最简单的办法就是离哪个中心距离最近,就 属 于 哪 一 类。通 常 使 用 的 距 离 是 所 谓 的Mahalanobis 距离。用来比较到各个中心距离的数学函数称为判别函数(discriminant function).这种根据远近判别的方法,原理简单,直观易懂。FisherFisher判别法判别法(先进行投影先进行投影)所谓所谓Fisher判别法,就是一种先投影的方法。判别法,就是一种先投影的方法。考虑只有两个(预测)

63、变量的判别分析问题。考虑只有两个(预测)变量的判别分析问题。假定这里只有两类。数据中的每个观测值是二维空间假定这里只有两类。数据中的每个观测值是二维空间的一个点。见图(下一张幻灯片)。的一个点。见图(下一张幻灯片)。这里只有两种已知类型的训练样本。其中一类有这里只有两种已知类型的训练样本。其中一类有 38个个点(用点(用“o”表示),另一类有表示),另一类有 44个点(用个点(用“*”表表示)。按照原来的变量(横坐标和纵坐标),很难将示)。按照原来的变量(横坐标和纵坐标),很难将这两种点分开。这两种点分开。于是就寻找一个方向,也就是图上的虚线方向,沿着于是就寻找一个方向,也就是图上的虚线方向,

64、沿着这个方向朝和这个虚线垂直的一条直线进行投影会使这个方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚。可以看出,如果向其他方向投得这两类分得最清楚。可以看出,如果向其他方向投影,判别效果不会比这个好。影,判别效果不会比这个好。有了投影之后,再用前面讲到的距离远近的方法来得有了投影之后,再用前面讲到的距离远近的方法来得到到判判别别准准则则。这这种种首首先先进进行行投投影影的的判判别别方方法法就就是是Fisher判别法。判别法。-40123-3-2-1-4-20246逐步判别法逐步判别法(仅仅是在前面的方仅仅是在前面的方法中加入变量选择的功能法中加入变量选择的功能)有时,一些变量对于

65、判别并没有什么作用,为了得到对判别最合适的变量,可以使用逐步判别。也就是,一边判别,一边引进判别能力最强的变量,这个过程可以有进有出。一个变量的判别能力的判断方法有很多种,主要利用各种检验,例如Wilks Lambda、Raos V、TheSquared Mahalanobis Distance、SmallestFratio 或 TheSumofUnexplainedVariations等检验。其细节这里就不赘述了;这些不同方法可由统计软件的各种选项来实现。逐步判别的其他方面和前面的无异。Disc.sav例子例子利用SPSS软件的逐步判别法淘汰了不显著的流动资金比例(cp),还剩下七个变量 i

66、s,se,sa,prr,ms,msr,cs,得 到 两 个 典 则 判 别 函 数(Canonical Discriminant Function Coefficients):?0.035IS+3.283SE+0.037SA-0.007PRR+0.068MS-0.023MSR-0.385CS-3.1660.035IS+3.283SE+0.037SA-0.007PRR+0.068MS-0.023MSR-0.385CS-3.1660.005IS+0.567SE+0.041SA+0.012PRR+0.048MS+0.044MSR-0.159CS-4.3840.005IS+0.567SE+0.041SA+0.012PRR+0.048MS+0.044MSR-0.159CS-4.384这两个函数实际上是由这两个函数实际上是由 Fisher判别法得到的向判别法得到的向两个方向的投影。这两个典则判别函数的系数两个方向的投影。这两个典则判别函数的系数是下面的是下面的SPSS输出得到的:输出得到的:Disc.sav例子例子Canonical Discriminant Function Coefficien

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!