0实验5 聚类分析
实训 5 聚类分析实验目的:学习利用SPSS进行聚类分析实验内容:聚类分析的意义;层次聚类的原理;欧氏距离的计算;组间平均 链锁距离;树形图的读解。(一)聚类分析1. 聚类分析的意义聚类分析是统计学 研究“物以类聚”问题的多元统计方法。聚类分析在统计 分析的应用领域已得到了极为广泛的应用。 “物以类聚”问题在经济社会研究中十分常见。例如,市场营销中的市场细分和 可户细分问题。大型商厦收集到了客户人口特征、消费行为和喜好方面的数据, 并希望对这些客户进行特征分析。可从客户分类入手,根据客户的年龄、职业、 收入、消费金额、喜好等方面进行单变量或多变量的客户分组。这种分组是极为 常见的客户细分方式,但存在的不足是客户群划分带有明显的主观色彩,需要丰 富的行业经验才能够比较合理和理想的客户+细分,否则得到的分组可能无法充 分反映和展现客户的特点,主要表现在,同一客户细分段的客户在某些特征方面 并不相似,而不同客户细分段中的客户在某些特征方面却又很相似。因此,这种 客户细分并没有真正起到划分客户群的作用。为解决该问题,会希望从数据本身 出发,充分利用数据进行客户的客观分组,使诸多特征有相似性的客户能被分在 同一组内,而不相似的客户分到另一些组中。这时便可采用聚类分析的方法。再例如,学校里有些同学经常在一起,关系比较密切,而他们与另一些同学却 很少来往,关系比较疏远。究其原因可能会发现,经常在一起的同学的家庭情况、 性格、学习成绩、课余爱好等方面有许多共同之处,而关系较疏远的同学在这些 方面有较大的差异性。为了研究家庭情况、性格、学习成绩、课余爱好等是否会 成为划分学生小群体的主要决定因素,可以从这些方面的数据入手,对数据进行 客观分组,然后比较所得的分组是否与实际吻合。对同学的客观分组可采用聚类 分析方法。聚类分析正是一种建立分类的多元统计分析方法,它能够将一批样本(或变 量)数据根据其诸多特征,按照在性质上的亲疏程度在没有先验知识的情况下进 行自动分类,产生多个分类结果。类内部的个体在特征上具有相似性,不同类间 个体特征的差异性较大。2. 聚类分析中“亲疏程度”的度量方法聚类分析中,个体之间的“亲疏程度”是极为重要的,它将直接影响最终的 聚类结果。对“亲疏程度”的测度一般有两个角度:第一,个体间的相似程度; 第二,个体间的差异程度。衡量个体间的相似程度通常采用简单相关系数。个体 间差异程度通常采用通过某种距离来测度,这里将对此做重点讨论。为定义个体间的距离应先将每个样本数据看成 k 维空间上的一个点。计算出 点与点之间的某种距离,点与点之间的距离越小,意味着它们越“亲密”,越有 可能聚成一类。点与点之间的距离越大,意味着它们越“疏远”,越有可能分别 属于不同的类。定距型变量个体间距离的计算方式如果所涉及的 k 个变量都是定距型变量,那么个体间距离的定义通常有欧氏距离、平方欧氏距离、切比雪夫距离、 Block 距离、明考斯基距离等,而我 们主要掌握欧氏距离和平方欧氏距离的计算。丄欧氏距离两个体(x, y)间欧氏距离是两个体k个变量值之差的平方和的平方根,数学定义为:EUCLID(x, y)=丈(x - y )2i i丫 i=1表1 商厦的客户评分数据编号购物环境服务质量A商厦7368B商厦6664C商厦8482D商厦9188E商厦9490例,A商厦与B商厦间的欧氏距离是斗(73 - 66)2 + (68 - 64)2丄平方欧氏距离两个体(x, y)间的平方欧氏距离是两个体k个变量值之差的平方和,其数学定义为:SEUCLID(X, Y)仝(x - y )2iiI=13. 聚类分析的几点说明(1) 所选择的变量应符合聚类的要求聚类分析是在所选变量的基础上对样本数据进行分类,因此分类结果是 各个变量综合计算的结果。在选择参与聚类分析的变量时,应注意所选变量 是否符合聚类的要求。例如,如果希望依照学校的科研情况对高校进行分类,那么可以选择参加科 研的人数、 年投入经费、立项课题数、支出经费、科研成果费、获奖数等变 量,而不选择诸如在校学生人数、校园面积、年用水量等变量。因为它们不 符合聚类的要求,分类的结果也就无法真实反映科研分类的情况。(2) 各变量的变量值不应有数量级上的差异 聚类分析是以各种距离来度量个体间的“亲疏”程度的。数量级对距离产生 较大的影响,并影响最终的聚类结果。表 2 高校科研的三个样本数据学校参加科研人数投入经费立项课题数1410438000019233617300002134902200008如果分别以“元”和“万元”为计量单位计算两两个体间的欧氏距离,结果如下:表 3 三个高校科研的两两距离距阵样本的欧氏距离元万元(1, 2)26500081.623(1, 3)218000193.7000(2, 3)47000254.897由上表可知,以“元”为计量单位时,样本 2和 3 的距离最小,关系最“亲 近”其次是(1,3)和(1,2),这里投入经费起了决定性作用;当以“万元” 为计量单位时,样本 1和样本 2 的距离最近,这里参加科研人数起了决定性 作用。由此可见,变量的数量级对距离有较大影响,进而影响最终的聚类结 果。为解决上述问题,聚类分析之前应首先消除数量级对聚类的影响。消除 数量级方法有很多,其中标准化处理是最常见的。(3)各变量不应有较强的线性相关关系4. 层次聚类4.1 定义 层次聚类又称系统聚类,简单地讲就是指聚类过程是按照一定层次进行的。层次聚类有两种类型,分别是Q型聚类和R型聚类;层次聚类的聚类方式又分 两种,分别是凝聚方式聚类和分解方式聚类。R型聚类R 型聚类就是对变量进行聚类,它使具有相似性的变量聚集在一起,差异 性大的变量分离开来,可在相似变量中选择少数具有代表性的变量参与其他 分析,实现减少变量个数,达到变量降维的目的。Q型聚类Q 型聚类是对样本进行聚类,它使具有相似性特征的样本聚集在一起, 使差异性大的样本分离开来。凝聚方式聚类凝聚方式聚类的过程是,首先,每个个体自成一类;然后,按照某种方法 度量所有个体间的亲疏程度,并将其中最“亲密”的个体聚成一小类,形成 n-1 个类,接下来,再次度量剩余个体和小类间的亲疏程度,并将当前最亲密 的个体或小类再聚成一类;重复上述过程,不断将所有个体和小类聚集成越 来越大的类,直到所有个体聚到一起,形成一个大类为止。可见,在凝聚式 聚类过程中,随着聚类的进行,类内的“亲密”程度在逐渐降低。对n个个 体通过 n-1 步可凝聚成一大类。分解方式聚类首先,所有个体都属一大类;然后,按照某种方法度量所有个体间的亲 疏程度,将大类中彼此间最“疏远”的个体分离出去,接下来,再次度量类 中剩余个体间的亲疏程度,并将类中最“疏远”的个体再次分离出去;重复 上述过程,不断进行类分解,直到所有个体自成一类为止。SPSS 中的层次聚类分析采用的是凝聚方式。4.2 个体与小类、小类与小类间“亲疏程度”的度量方法常见的有最近邻居距离、最远邻居距离、组间平均链锁距离、组内平均链 锁距离、重心距离等。常用的是最近邻居距离和组内平均链锁距离。(1)最近邻居距离:个体与小类间的最近距离是该个体与小类中每个个体距离的最小值。下表 是五座商厦两两个体间欧氏距离的矩阵。表 4五座商厦两两个体间欧氏距离的矩阵Euclidean D)istance1.A 商厦2.B商厦3.C商厦4.D 商厦5.E商厦1.A 商厦08.60217.80426.90730.4142.B商厦8.062025.45634.65538.2103.C商厦17.80425.45609.22012.8604.D 商厦26.90734.6559.22003.6065.E商厦30.41438.21012.8603.6060由上表可知,D商厦和E商厦的距离最小(3.606),在层次聚类中将首先聚到一起形成一个小类。于是,A、B、C商厦与该小类(D、E)的最近邻居距离 依次为26.907、 34,655 和9.22。(2)组间平均链锁距离 个体与小类间的组间平均链锁距离是该个体与小类中每个个体距离的平均值。如表4,A、B、C商厦与(D、E)小类的组间平均链锁距离依次为(26.907+30.414)三2,(34.655+38.21)三2,(9.22+12.86)三2。可见,组间平均链锁法利用了个体与小类的所有距离的信息,克服了最近邻 居距离中距离易受极端值影响的弱点。4.3 基本操作(a)层次聚类的(Hierarchical Cluster 过程)(1) 选择菜单 Analyze Classify Hierarchical Cluster(2) 把参与层次聚类分析的变量选到 Variables 框中。(3) 把一个字符型变量作为标记变量选到 LabelCases by 框中,它将大 大增强聚类分析结果的可读性。(4) 在 Cluster 框中选择聚类类型。其中 Cases 表示进行 Q 型聚类, Variables 表示进行 R 型聚类。(5) 在 Display 框中选择输出内容。其中 Statistics 表示输出聚类分析的 相关统计量;Plots表示输出聚类分析的相关图形。(6) Method 按钮指定距离的计算方法。 Measure 框中给出的是不同变量类 型下的个体距离的计算方式。其中 Interval 框中的方法适用于连续型定距 变量,这也是我们学科需要掌握的。Cluster Method框中给出的是计算个体 与小类、小类与小类间距离的方法, 通常选择组间平均链锁距离(Between-groups Linkage)。( 7)如果参与聚类分析的变量存在数量级上的差异,应在 Transform Values 框中的 Standardize 选项中选择消除数量级差的方法。并指定处理 是针对变量的还是针对样本的。 By variable 表示针对变量,适于 Q 型聚类 分析; By case 表示针对样本,适于 R 型聚类分析。消除数量的方法包括: None表示不进行任何处理 Z scores表示计算Z分数。它将各变量值减去均值后除以标准 差。标准化后的变量值平均值为 0,标准差为 1。 Range -11:表示将各变量值除以全距,处理以后的变量值的范 围在-1+1之间。该方法适于变量值中有负值的变量。 Range 0 to 1,表示各变量值减去最小值后除以全距。 Maximum magnitude of 1:表示将各变量值除以最大值。处理以后 的变量值的最大值为 1。 Mean of 1:表示将各变量值除以均值。 St andard devia tion of 1:表示将各变量值除以标准差。(8)Statistics 按钮指定输出哪些统计量。 Agglomeration schedule 表示输 出聚类分析的凝聚状态表; Proximity matrix 表示输出个体间的距离矩阵;Cluster Membership框中,None表示不输出样本属类,Single Solution表示 指定输出当分成 n 类时各样本所属类,是单一解。 Rangeofsolution 表示指定 输出当分成m至n类时各样本所属类,是多个解。(9)单击Plots按钮指定输出哪种聚类图。Dendrogram选项表示输出聚类分析 图;在Icicle框中指定输出冰桂图。以“表 1 商厦的客户评分数据”为例进行讲解:表5五座商厦两两个体间欧氏距离的矩阵 Proximity MatrixSquaredEuclidea nDista neeCase1:A商厦2:B商厦3:C商厦4:D 商 厦5:E商 厦1:A商厦65.000317.000724.000925.0002:B商厦65.000648.0001201.0001460.0003:C商厦317.000648.00085.000164.0004:D商厦724.0001201.00085.00013.0005:E商 厦925.0001460.000164.00013.000This is a dissimilarity matrix表6 层次聚类分析中的凝聚状态表Agglomeration ScheduleCluster CombinedCoefficientsStage Cluster First AppearsNext StageStageCluster 1Cluster 2Cluster 1Cluster 214513.00000321265.000004334124.500014413879.167230上表,第一列表示聚类分析的第几步;第二、第三列表示本步聚类中哪两个样本 或小类聚成一类;第四列是个体距离或小类距离;第五、第六列表示本不聚类中 参与聚类的是个体还是小类,0 表示样本,非0 表示由第 n 步聚类生成的小类参 与本步聚类;第七列表示本步骤的结果将在以下第几步中用到。表7 层次聚类分析中的类成员 Cluster MembershipCase3 Clusters2 Clusters1:A商厦112:B商厦113:C商厦224:D商厦325:E商 厦32* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *Dendrogram using Average Linkage (Between Groups)Rescaled Distance Cluster CombineC A S E0510152025Label Num+D商厦4卩xgggE商厦5卩吃口卩卩卩卩卩卩卩卩卩卩卩卩卩卩WWW卩卩卩卩卩卩卩卩卩卩WWWWWgC商厦3卩卩卩卩卩卩卩吃OA商厦1卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩吃B商厦2卩卩卩吃图 1 层次聚类分析的树形图(二)快速聚类法(K-Means Cluster过程)实验内容:为研究儿童生长发育的分期,调查1253名1月至7岁儿童的身高(cm)、体重(kg)、 胸围(cm)和坐高(cm)资料。资料作如下整理:先把1月至7岁划成19个月份段,分月 份算出各指标的平均值,将第1月的各指标平均值与出生时的各指标平均值比较,求出月平 均增长率(%),然后第2月起的各月份指标平均值均与前一月比较,亦求出月平均增长率 (%),结果见下表。欲将儿童生长发育分为四期,故指定聚类的类别数为 4,请通过聚类 分析确定四个儿童生长发育期的起止区间。月份月平均增长率()身高体重胸围坐高111.0350.3011.8111.2725.4719.305.207.1833.589.853.142.1142.014.171.471.5862.135.651.042.1182.061.740.171.57101.632.041.041.46121.171.600.890.76151.032.340.530.89180.691.330.480.58240.771.410.520.42300.591.250.300.14360.651.190.490.38420.510.930.160.25480.731.130.350.55540.530.820.160.34600.360.520.190.21660.521.030.300.55720.340.490.180.16实验步骤:1建立数据文件。定义变量名:月份的变量名为mon th;身高、体重、胸围和坐高的变量名分别为xl、 x2、x3和x4,输入原始数据。2.选择菜单“AnalyzeClassifyK-Means Cluster”,弹出“K-Means Cluster Analysis” 对话框。从对话框左侧的变量列表中选x1、x2、x3、x4,使之进入Variables框;在Number of Clusters处输入需要聚合的组数4;在聚类方法选择“Iterate and classify” ,如下图。3.单击“Save”按钮,弹出“K-Means Cluster: Save New Variables”对话框,选择“Clustermembership”项,在原始数据库中逐一显示分类结果。K-Means Cluster: Save New Variables Ijl_ni t ial cluster centAITOVA tableClust er informat ion foreaStat i st i ceK-Means Cluster Analysis: Options项,对聚类结果进行方差分析。Mi EsinE VaiuhsC*- Ezelude castjE Xi stm eejEzelude cases i:ii rm eeFFF5.单击“Options”按钮,弹出“K-Means Cluster: Options” 对话框,在“Statistics” 栏中选择“ ANOVA table”6.单击“OK”按钮,得到输出结果。
收藏
编号:117568087
类型:共享资源
大小:94.24KB
格式:DOCX
上传时间:2022-07-09
15
积分
- 关 键 词:
-
0实验5聚类分析
- 资源描述:
-
实训 5 聚类分析
实验目的:
学习利用SPSS进行聚类分析
实验内容:
聚类分析的意义;层次聚类的原理;欧氏距离的计算;组间平均 链锁距离;树形图的读解。
(一)聚类分析
1. 聚类分析的意义
聚类分析是统计学 研究“物以类聚”问题的多元统计方法。聚类分析在统计 分析的应用领域已得到了极为广泛的应用。 “物以类聚”问题在经济社会研究中十分常见。例如,市场营销中的市场细分和 可户细分问题。大型商厦收集到了客户人口特征、消费行为和喜好方面的数据, 并希望对这些客户进行特征分析。可从客户分类入手,根据客户的年龄、职业、 收入、消费金额、喜好等方面进行单变量或多变量的客户分组。这种分组是极为 常见的客户细分方式,但存在的不足是客户群划分带有明显的主观色彩,需要丰 富的行业经验才能够比较合理和理想的客户+细分,否则得到的分组可能无法充 分反映和展现客户的特点,主要表现在,同一客户细分段的客户在某些特征方面 并不相似,而不同客户细分段中的客户在某些特征方面却又很相似。因此,这种 客户细分并没有真正起到划分客户群的作用。为解决该问题,会希望从数据本身 出发,充分利用数据进行客户的客观分组,使诸多特征有相似性的客户能被分在 同一组内,而不相似的客户分到另一些组中。这时便可采用聚类分析的方法。
再例如,学校里有些同学经常在一起,关系比较密切,而他们与另一些同学却 很少来往,关系比较疏远。究其原因可能会发现,经常在一起的同学的家庭情况、 性格、学习成绩、课余爱好等方面有许多共同之处,而关系较疏远的同学在这些 方面有较大的差异性。为了研究家庭情况、性格、学习成绩、课余爱好等是否会 成为划分学生小群体的主要决定因素,可以从这些方面的数据入手,对数据进行 客观分组,然后比较所得的分组是否与实际吻合。对同学的客观分组可采用聚类 分析方法。
聚类分析正是一种建立分类的多元统计分析方法,它能够将一批样本(或变 量)数据根据其诸多特征,按照在性质上的亲疏程度在没有先验知识的情况下进 行自动分类,产生多个分类结果。类内部的个体在特征上具有相似性,不同类间 个体特征的差异性较大。
2. 聚类分析中“亲疏程度”的度量方法
聚类分析中,个体之间的“亲疏程度”是极为重要的,它将直接影响最终的 聚类结果。对“亲疏程度”的测度一般有两个角度:第一,个体间的相似程度; 第二,个体间的差异程度。衡量个体间的相似程度通常采用简单相关系数。个体 间差异程度通常采用通过某种距离来测度,这里将对此做重点讨论。
为定义个体间的距离应先将每个样本数据看成 k 维空间上的一个点。计算出 点与点之间的某种距离,点与点之间的距离越小,意味着它们越“亲密”,越有 可能聚成一类。点与点之间的距离越大,意味着它们越“疏远”,越有可能分别 属于不同的类。
定距型变量个体间距离的计算方式
如果所涉及的 k 个变量都是定距型变量,那么个体间距离的定义通常有欧氏
距离、平方欧氏距离、切比雪夫距离、 Block 距离、明考斯基距离等,而我 们主要掌握欧氏距离和平方欧氏距离的计算。
丄欧氏距离
两个体(x, y)间欧氏距离是两个体k个变量值之差的平方和的平方根,
数学定义为:
EUCLID(x, y)=[丈(x - y )2
i i
丫 i=1
表1 商厦的客户评分数据
编号
购物环境
服务质量
A商厦
73
68
B商厦
66
64
C商厦
84
82
D商厦
91
88
E商厦
94
90
例,A商厦与B商厦间的欧氏距离是斗(73 - 66)2 + (68 - 64)2
丄平方欧氏距离
两个体(x, y)间的平方欧氏距离是两个体k个变量值之差的平方和,其数
学定义为:
SEUCLID(X, Y)仝(x - y )2
ii
I=1
3. 聚类分析的几点说明
(1) 所选择的变量应符合聚类的要求
聚类分析是在所选变量的基础上对样本数据进行分类,因此分类结果是 各个变量综合计算的结果。在选择参与聚类分析的变量时,应注意所选变量 是否符合聚类的要求。
例如,如果希望依照学校的科研情况对高校进行分类,那么可以选择参加科 研的人数、 年投入经费、立项课题数、支出经费、科研成果费、获奖数等变 量,而不选择诸如在校学生人数、校园面积、年用水量等变量。因为它们不 符合聚类的要求,分类的结果也就无法真实反映科研分类的情况。
(2) 各变量的变量值不应有数量级上的差异 聚类分析是以各种距离来度量个体间的“亲疏”程度的。数量级对距离产生 较大的影响,并影响最终的聚类结果。
表 2 高校科研的三个样本数据
学校
参加科研人数
投入经费
立项课题数
1
410
4380000
19
2
336
1730000
21
3
490
220000
8
如果分别以“元”和“万元”为计量单位计算两两个体间的欧氏距离,结果
如下:
表 3 三个高校科研的两两距离距阵
样本的欧氏距离
元
万元
(1, 2)
265000
81.623
(1, 3)
218000
193.7000
(2, 3)
47000
254.897
由上表可知,以“元”为计量单位时,样本 2和 3 的距离最小,关系最“亲 近”其次是(1,3)和(1,2),这里投入经费起了决定性作用;当以“万元” 为计量单位时,样本 1和样本 2 的距离最近,这里参加科研人数起了决定性 作用。由此可见,变量的数量级对距离有较大影响,进而影响最终的聚类结 果。为解决上述问题,聚类分析之前应首先消除数量级对聚类的影响。消除 数量级方法有很多,其中标准化处理是最常见的。
(3)各变量不应有较强的线性相关关系
4. 层次聚类
4.1 定义 层次聚类又称系统聚类,简单地讲就是指聚类过程是按照一定层次进行的。
层次聚类有两种类型,分别是Q型聚类和R型聚类;层次聚类的聚类方式又分 两种,分别是凝聚方式聚类和分解方式聚类。
R型聚类
R 型聚类就是对变量进行聚类,它使具有相似性的变量聚集在一起,差异 性大的变量分离开来,可在相似变量中选择少数具有代表性的变量参与其他 分析,实现减少变量个数,达到变量降维的目的。
Q型聚类
Q 型聚类是对样本进行聚类,它使具有相似性特征的样本聚集在一起, 使差异性大的样本分离开来。
凝聚方式聚类
凝聚方式聚类的过程是,首先,每个个体自成一类;然后,按照某种方法 度量所有个体间的亲疏程度,并将其中最“亲密”的个体聚成一小类,形成 n-1 个类,接下来,再次度量剩余个体和小类间的亲疏程度,并将当前最亲密 的个体或小类再聚成一类;重复上述过程,不断将所有个体和小类聚集成越 来越大的类,直到所有个体聚到一起,形成一个大类为止。可见,在凝聚式 聚类过程中,随着聚类的进行,类内的“亲密”程度在逐渐降低。对n个个 体通过 n-1 步可凝聚成一大类。
分解方式聚类
首先,所有个体都属一大类;然后,按照某种方法度量所有个体间的亲 疏程度,将大类中彼此间最“疏远”的个体分离出去,接下来,再次度量类 中剩余个体间的亲疏程度,并将类中最“疏远”的个体再次分离出去;重复 上述过程,不断进行类分解,直到所有个体自成一类为止。
SPSS 中的层次聚类分析采用的是凝聚方式。
4.2 个体与小类、小类与小类间“亲疏程度”的度量方法
常见的有最近邻居距离、最远邻居距离、组间平均链锁距离、组内平均链 锁距离、重心距离等。常用的是最近邻居距离和组内平均链锁距离。
(1)最近邻居距离:
个体与小类间的最近距离是该个体与小类中每个个体距离的最小值。下表 是五座商厦两两个体间欧氏距离的矩阵。
表 4 五座商厦两两个体间欧氏距离的矩阵
Euclidean D
)istance
1.A 商厦
2.B商厦
3.C商厦
4.D 商厦
5.E商厦
1.A 商厦
0
8.602
17.804
26.907
30.414
2.B商厦
8.062
0
25.456
34.655
38.210
3.C商厦
17.804
25.456
0
9.220
12.860
4.D 商厦
26.907
34.655
9.220
0
3.606
5.E商厦
30.414
38.210
12.860
3.606
0
由上表可知,D商厦和E商厦的距离最小(3.606),在层次聚类中将首先聚
到一起形成一个小类。于是,A、B、C商厦与该小类(D、E)的最近邻居距离 依次为26.907、 34,655 和9.22。
(2) 组间平均链锁距离 个体与小类间的组间平均链锁距离是该个体与小类中每个个体距离的平均
值。如表4,A、B、C商厦与(D、E)小类的组间平均链锁距离依次为
(26.907+30.414)三2,(34.655+38.21)三2,(9.22+12.86)三2。
可见,组间平均链锁法利用了个体与小类的所有距离的信息,克服了最近邻 居距离中距离易受极端值影响的弱点。
4.3 基本操作
(a)层次聚类的(Hierarchical Cluster 过程)
(1) 选择菜单 Analyze > Classify ► Hierarchical Cluster
(2) 把参与层次聚类分析的变量选到 Variables 框中。
(3) 把一个字符型变量作为标记变量选到 LabelCases by 框中,它将大 大增强聚类分析结果的可读性。
(4) 在 Cluster 框中选择聚类类型。其中 Cases 表示进行 Q 型聚类, Variables 表示进行 R 型聚类。
(5) 在 Display 框中选择输出内容。其中 Statistics 表示输出聚类分析的 相关统计量;Plots表示输出聚类分析的相关图形。
(6) Method 按钮指定距离的计算方法。 Measure 框中给出的是不同变量类 型下的个体距离的计算方式。其中 Interval 框中的方法适用于连续型定距 变量,这也是我们学科需要掌握的。Cluster Method框中给出的是计算个体 与小类、小类与小类间距离的方法, 通常选择组间平均链锁距离
(Between-groups Linkage)。
( 7)如果参与聚类分析的变量存在数量级上的差异,应在 Transform Values 框中的 Standardize 选项中选择消除数量级差的方法。并指定处理 是针对变量的还是针对样本的。 By variable 表示针对变量,适于 Q 型聚类 分析; By case 表示针对样本,适于 R 型聚类分析。消除数量的方法包括:
• None表示不进行任何处理
• Z scores表示计算Z分数。它将各变量值减去均值后除以标准 差。标准化后的变量值平均值为 0,标准差为 1。
• Range -1〜1:表示将各变量值除以全距,处理以后的变量值的范 围在-1〜+1之间。该方法适于变量值中有负值的变量。
• Range 0 to 1,表示各变量值减去最小值后除以全距。
• Maximum magnitude of 1:表示将各变量值除以最大值。处理以后 的变量值的最大值为 1。
• Mean of 1:表示将各变量值除以均值。
• St andard devia tion of 1:表示将各变量值除以标准差。
(8)Statistics 按钮指定输出哪些统计量。 Agglomeration schedule 表示输 出聚类分析的凝聚状态表; Proximity matrix 表示输出个体间的距离矩阵;
Cluster Membership框中,None表示不输出样本属类,Single Solution表示 指定输出当分成 n 类时各样本所属类,是单一解。 Rangeofsolution 表示指定 输出当分成m至n类时各样本所属类,是多个解。
(9)单击Plots按钮指定输出哪种聚类图。Dendrogram选项表示输出聚类分析 图;在Icicle框中指定输出冰桂图。
以“表 1 商厦的客户评分数据”为例进行讲解:
表5 五座商厦两两个体间欧氏距离的矩阵 Proximity Matrix
Squared
Euclidea n
Dista nee
Case
1:A商厦
2:B商厦
3:C商厦
4:D 商 厦
5:E商 厦
1:A商厦
65.000
317.000
724.000
925.000
2:B商厦
65.000
648.000
1201.000
1460.000
3:C商厦
317.000
648.000
85.000
164.000
4:D商厦
724.000
1201.000
85.000
13.000
5:E商 厦
925.000
1460.000
164.000
13.000
This is a dissimilarity matrix
表6 层次聚类分析中的凝聚状态表 Agglomeration Schedule
Cluster Combined
Coefficients
Stage Cluster First Appears
Next Stage
Stage
Cluster 1
Cluster 2
Cluster 1
Cluster 2
1
4
5
13.000
0
0
3
2
1
2
65.000
0
0
4
3
3
4
124.500
0
1
4
4
1
3
879.167
2
3
0
上表,第一列表示聚类分析的第几步;第二、第三列表示本步聚类中哪两个样本 或小类聚成一类;第四列是个体距离或小类距离;第五、第六列表示本不聚类中 参与聚类的是个体还是小类,0 表示样本,非0 表示由第 n 步聚类生成的小类参 与本步聚类;第七列表示本步骤的结果将在以下第几步中用到。
表7 层次聚类分析中的类成员 Cluster Membership
Case
3 Clusters
2 Clusters
1:A商厦
1
1
2:B商厦
1
1
3:C商厦
2
2
4:D商厦
3
2
5:E商 厦
3
2
* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *
Dendrogram using Average Linkage (Between Groups)
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num + + + + + +
D商厦 4 卩xggg
E商厦 5 卩吃
口卩卩卩卩卩卩卩卩卩卩卩卩卩卩WWW卩卩卩卩卩卩卩卩卩卩WWWWWg
C商厦 3 卩卩卩卩卩卩卩吃 O
A商厦 1
卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩卩吃
B商厦 2 卩卩卩吃
图 1 层次聚类分析的树形图
(二)快速聚类法(K-Means Cluster过程)
实验内容:
为研究儿童生长发育的分期,调查1253名1月至7岁儿童的身高(cm)、体重(kg)、 胸围(cm)和坐高(cm)资料。资料作如下整理:先把1月至7岁划成19个月份段,分月 份算出各指标的平均值,将第1月的各指标平均值与出生时的各指标平均值比较,求出月平 均增长率(%),然后第2月起的各月份指标平均值均与前一月比较,亦求出月平均增长率 (%),结果见下表。欲将儿童生长发育分为四期,故指定聚类的类别数为 4,请通过聚类 分析确定四个儿童生长发育期的起止区间。
月份
月平均增长率(%)
身高
体重
胸围
坐高
1
11.03
50.30
11.81
11.27
2
5.47
19.30
5.20
7.18
3
3.58
9.85
3.14
2.11
4
2.01
4.17
1.47
1.58
6
2.13
5.65
1.04
2.11
8
2.06
1.74
0.17
1.57
10
1.63
2.04
1.04
1.46
12
1.17
1.60
0.89
0.76
15
1.03
2.34
0.53
0.89
18
0.69
1.33
0.48
0.58
24
0.77
1.41
0.52
0.42
30
0.59
1.25
0.30
0.14
36
0.65
1.19
0.49
0.38
42
0.51
0.93
0.16
0.25
48
0.73
1.13
0.35
0.55
54
0.53
0.82
0.16
0.34
60
0.36
0.52
0.19
0.21
66
0.52
1.03
0.30
0.55
72
0.34
0.49
0.18
0.16
实验步骤:
1.建立数据文件。
定义变量名:月份的变量名为mon th;身高、体重、胸围和坐高的变量名分别为xl、 x2、x3和x4,输入原始数据。
2.选择菜单“Analyze—Classify—K-Means Cluster”,弹出“K-Means Cluster Analysis” 对话框。从对话框左侧的变量列表中选x1、x2、x3、x4,使之进入Variables框;在Number of Clusters处输入需要聚合的组数4;在聚类方法选择“Iterate and classify” ,如下图。
3.单击“Save”按钮,弹出“K-Means Cluster: Save New Variables”对话框,选择“Cluster
membership”项,在原始数据库中逐一显示分类结果。
K-Means Cluster: Save New Variables I—
jl_ni t ial cluster cent
AITOVA table
Clust er informat ion for
ea>
Stat i st i ce
K-Means Cluster Analysis: Options
项,对聚类结果进行方差分析。
Mi EsinE Vaiuhs
C*- Ezelude castjE Xi stm eej
Ezelude cases i«:ii rm ee
FFF
5.单击“Options”按钮,弹出“K-Means Cluster: Options” 对话框,在“Statistics” 栏中选择“ ANOVA table”
6.单击“OK”按钮,得到输出结果。
展开阅读全文
- 温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
装配图网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。