第8章-因子分析与聚类分析(含SPSS)课件

上传人:沈*** 文档编号:172078337 上传时间:2022-11-30 格式:PPT 页数:55 大小:1.64MB
收藏 版权申诉 举报 下载
第8章-因子分析与聚类分析(含SPSS)课件_第1页
第1页 / 共55页
第8章-因子分析与聚类分析(含SPSS)课件_第2页
第2页 / 共55页
第8章-因子分析与聚类分析(含SPSS)课件_第3页
第3页 / 共55页
资源描述:

《第8章-因子分析与聚类分析(含SPSS)课件》由会员分享,可在线阅读,更多相关《第8章-因子分析与聚类分析(含SPSS)课件(55页珍藏版)》请在装配图网上搜索。

1、第八章第八章 因子分析与聚类分析因子分析与聚类分析本章内容本章内容v第一节第一节 因子分析因子分析v第二节第二节 聚类分析聚类分析第一节第一节 因子分析因子分析v一、因子分析的概念和特点一、因子分析的概念和特点v(一)因子分析的概念(一)因子分析的概念v 因子分析(因子分析(factor analysis)是利用降维的思)是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。几个综合因子的一种多变量统计分析方法。v 在会计实证研究

2、中,因子分析发挥着重要的在会计实证研究中,因子分析发挥着重要的作用,如变量构造、变量筛选和综合评价等。作用,如变量构造、变量筛选和综合评价等。v(二)因子分析的特点(二)因子分析的特点v 1、因子变量的数量远少于原有指标变量的、因子变量的数量远少于原有指标变量的数量。数量。v 2、因子变量并不是原有变量的简单取舍,、因子变量并不是原有变量的简单取舍,而是对原有变量的重新组构。而是对原有变量的重新组构。v 3、因子之间线性关系不显著。、因子之间线性关系不显著。v 4、因子变量具有命名解释性。、因子变量具有命名解释性。v二、因子分析的数学模型和相关概念二、因子分析的数学模型和相关概念v(一)因子分

3、析的数学模型(一)因子分析的数学模型v 因子分析的数学模型为:因子分析的数学模型为:v (8.1)v 写成矩阵形式为写成矩阵形式为 ,其中,其中 为原始变量向量,为原始变量向量,为公因子载荷矩阵,为公因子载荷矩阵,为公共因子,为公共因子,为特殊因子。为特殊因子。pkpkppppkkkkkkfafafafaxfafafafaxfafafafaxfafafafax332211333332321313223232221212113132121111 AFXXFAv(二)因子分析中的基本概念(二)因子分析中的基本概念v1、因子的含义、因子的含义v 因子分析法中提到两种因子:公共因子和特殊因子。因子分析

4、法中提到两种因子:公共因子和特殊因子。v 公共因子是每个原有变量的线性表达式中都共同出现的因公共因子是每个原有变量的线性表达式中都共同出现的因子,各公因子都是均值为子,各公因子都是均值为0,方差为,方差为1的独立正态随机变量。的独立正态随机变量。其协方差矩阵为单位矩阵。其协方差矩阵为单位矩阵。v 特殊因子表示原有变量不能被公共因子解释的部分,其均特殊因子表示原有变量不能被公共因子解释的部分,其均值为值为0。v 各特殊因子之间以及特殊因子与所有公共因子之间都是互各特殊因子之间以及特殊因子与所有公共因子之间都是互相独立的。相独立的。v2、因子载荷、因子载荷 v 模型中各公共因子的系数模型中各公共因

5、子的系数 称为因子载荷,反映了第称为因子载荷,反映了第 个变量在第个变量在第 个公共因子上的相对重要性,个公共因子上的相对重要性,的绝的绝对值越大,表明对值越大,表明 与与 的相依程度越大。的相依程度越大。ijaij1ijaijaixjFv3、变量共同度、变量共同度 v 因子载荷矩阵中第因子载荷矩阵中第 行元素的平方和,称为变量行元素的平方和,称为变量 的共的共同度,即变量方差。此值越接近同度,即变量方差。此值越接近1,表明该变量的几乎全部,表明该变量的几乎全部原始信息都被所选择的公共因子说明了。此值接近于原始信息都被所选择的公共因子说明了。此值接近于0,说,说明公共因子对明公共因子对 的影响

6、很小,主要由特殊因子来描述。的影响很小,主要由特殊因子来描述。v4、因子的方差贡献、因子的方差贡献 v 因子因子 的方差贡献是因子载荷矩阵的方差贡献是因子载荷矩阵 中第中第 列元素的平列元素的平方和,反映了因子方和,反映了因子 对原有变量总方差的解释能力,是衡量对原有变量总方差的解释能力,是衡量公共因子相对重要性的指标。此值越大,表明相应因子的重公共因子相对重要性的指标。此值越大,表明相应因子的重要性越高。计算出所有的指标,按其大小排序,就可以提炼要性越高。计算出所有的指标,按其大小排序,就可以提炼出最有影响的公共因子。出最有影响的公共因子。iixixjfAjjfv三、因子分析的步骤三、因子分

7、析的步骤v(一)因子分析的适合性检验(一)因子分析的适合性检验v 1、相关矩阵和反映像相关矩阵、相关矩阵和反映像相关矩阵v 相关矩阵中大部分相关系数都小于相关矩阵中大部分相关系数都小于0.3,那么原则上这些,那么原则上这些数据不适合做因子分析。另外,如果反映像相关矩阵中除数据不适合做因子分析。另外,如果反映像相关矩阵中除对角元素外,其他大多数元素的绝对值均较小,对角线上对角元素外,其他大多数元素的绝对值均较小,对角线上元素的值较接近元素的值较接近1,则适合进行因子分析。,则适合进行因子分析。v2、检验检验v 检验统计量是用于比较变量间简单相关系数和偏检验统计量是用于比较变量间简单相关系数和偏相

8、关系数的指标,取值在相关系数的指标,取值在0和和1之间。值越接近于之间。值越接近于1,意味,意味着变量间的相关性越强,原有变量越适合做因子分析。着变量间的相关性越强,原有变量越适合做因子分析。KMOKMOv 3、巴特利特球度检验(巴特利特球度检验(Bartlett test of sphericity)v 巴特利特球度检验以原有变量的相关系数矩阵为巴特利特球度检验以原有变量的相关系数矩阵为出发点,其出发点,其零假设是:相关矩阵为单位阵,即相关零假设是:相关矩阵为单位阵,即相关系数矩阵为对角矩阵系数矩阵为对角矩阵。巴特利特球度检验的检验统。巴特利特球度检验的检验统计量是根据相关系数矩阵的行列式计

9、算得到,且近计量是根据相关系数矩阵的行列式计算得到,且近似服从卡方分布。如果该统计量的观察值比较大且似服从卡方分布。如果该统计量的观察值比较大且相伴概率相伴概率 值小于或等于给定的显著性水平,则应值小于或等于给定的显著性水平,则应拒绝原假设;反之,如果该统计量的观察值比较小拒绝原假设;反之,如果该统计量的观察值比较小且相伴概率值大于给定的显著性水平,则不应拒绝且相伴概率值大于给定的显著性水平,则不应拒绝原假设。原假设。v(二)因子提取和因子载荷矩阵的求解(二)因子提取和因子载荷矩阵的求解v 因子分析的关键是根据样本数据求解因子载荷矩阵,因子分析的关键是根据样本数据求解因子载荷矩阵,SPSS提供

10、了提供了7种提取因子的方法,其中占主要地位且使用种提取因子的方法,其中占主要地位且使用最为广泛的是主成分分析法。最为广泛的是主成分分析法。v 因子提取通常有以下三种方法:(因子提取通常有以下三种方法:(1)特征值准则,即取)特征值准则,即取特征值大于等于特征值大于等于1的主成分作为初始因子,放弃特征值小于的主成分作为初始因子,放弃特征值小于1的主成分。(的主成分。(2)累积方差贡献率,因子累积解释的方差)累积方差贡献率,因子累积解释的方差比例也是确定因子个数时可以参考的指标,一般应达到比例也是确定因子个数时可以参考的指标,一般应达到70%-85%或以上。(或以上。(3)碎石检验准则,按照因子被

11、提取)碎石检验准则,按照因子被提取的顺序,画出因子的特征值随因子个数变化的散点图,图的顺序,画出因子的特征值随因子个数变化的散点图,图形由陡变平,曲线开始变平的前一个点被认为是提取的最形由陡变平,曲线开始变平的前一个点被认为是提取的最大因子数。大因子数。v(三)因子命名(三)因子命名v 在因子分析模型中,公共因子与因子载荷阵的解不是唯在因子分析模型中,公共因子与因子载荷阵的解不是唯一的。因子分析的目的不仅是找出主因子,更重要的是知道一的。因子分析的目的不仅是找出主因子,更重要的是知道每个主因子的意义,以利于对公共因子命名和解释结果,便每个主因子的意义,以利于对公共因子命名和解释结果,便于进一步

12、的分析。若每个公共因子的涵义不清,难以找到合于进一步的分析。若每个公共因子的涵义不清,难以找到合理的解释,可对因子载荷矩阵实行旋转,使每个变量仅在一理的解释,可对因子载荷矩阵实行旋转,使每个变量仅在一个公共因子上有较大的载荷,而在其他公共因子上的载荷较个公共因子上有较大的载荷,而在其他公共因子上的载荷较小。小。v SPSS中有中有5种因子旋转的方式可供选择:种因子旋转的方式可供选择:Varimax选项,选项,方差最大旋转;方差最大旋转;Direct Oblimin 选项,直接斜交旋转;选项,直接斜交旋转;Quartimax 选项,四次最大正交旋转;选项,四次最大正交旋转;Equamax 选项,

13、平选项,平均正交旋转;均正交旋转;Promax 选项,斜交旋转方法。选项,斜交旋转方法。v(四)计算因子得分,然后将它们用于各种进一步的分析中(四)计算因子得分,然后将它们用于各种进一步的分析中v 当因子确定以后,便可以计算各因子在每个样本上的具当因子确定以后,便可以计算各因子在每个样本上的具体数值,这些数值称为因子得分,形成的变量称为因子变量。体数值,这些数值称为因子得分,形成的变量称为因子变量。于是在以后的分析中就可以因子变量代替原有变量进行数据于是在以后的分析中就可以因子变量代替原有变量进行数据建模,或者利用因子变量对样本进行分类或评价等研究,进建模,或者利用因子变量对样本进行分类或评价

14、等研究,进而实现降维和简化问题的目标。而实现降维和简化问题的目标。v 由于因子得分函数中方程的个数小于变量的个数,因此由于因子得分函数中方程的个数小于变量的个数,因此不能精确的计算出因子得分,只能对因子得分进行估计。估不能精确的计算出因子得分,只能对因子得分进行估计。估计的方法很多,计的方法很多,SPSS中列示了三种方法,常用的是中列示了三种方法,常用的是Regression回归法。回归法。v 用因子得分还可以计算因子总分,根据因子总分可对样用因子得分还可以计算因子总分,根据因子总分可对样本(变量)进行排序或归类,作为评价的依据。本(变量)进行排序或归类,作为评价的依据。v四、因子分析在四、因

15、子分析在SPSS中的实现中的实现 v1、建立或打开数据文件后,进入AnalyzeData ReductionFactor Analysis主对话框,如图8-1所示。v图图8-1 因子分析主对话框因子分析主对话框v 2、把参与分析的变量选到、把参与分析的变量选到Variables框中。框中。v 3、Selection Variable选择变量栏,用于限制有特殊值选择变量栏,用于限制有特殊值的样本子集的分析,当一个变量进入该栏时,激活右侧的的样本子集的分析,当一个变量进入该栏时,激活右侧的“Value”按钮。待按钮。待“Value”按钮激活后,单击该键,打开按钮激活后,单击该键,打开Set Val

16、ue对话框,如图对话框,如图8-2 所示,可在该对话框键入标识所示,可在该对话框键入标识参与分析的观测量所具有的该变量值。参与分析的观测量所具有的该变量值。v图图8-2 Set Value 对话框对话框v 4、单击、单击“Descriptivs”按钮,展开按钮,展开Descriptives对话框,对话框,如图如图8-3所示,可以选择单变量的描述统计量和初始分析结所示,可以选择单变量的描述统计量和初始分析结果。果。v图图8-3 Descriptives 对话框对话框v(1)Statistics 统计量框统计量框v Univariate descriptive复选项,单变量描述统计量。复选项,单变

17、量描述统计量。v Initial solution复选项,初始分析结果。复选项,初始分析结果。v(2)Correlation Matrix相关矩阵框相关矩阵框v Coefficients 复选项,显示相关系数。复选项,显示相关系数。v Significance levels 复选项,显示相关系数的显著性复选项,显示相关系数的显著性水平。水平。v Determinant 复选项,显示相关系数矩阵的行列式。复选项,显示相关系数矩阵的行列式。v Inverse 复选项,显示相关系数矩阵的逆矩阵。复选项,显示相关系数矩阵的逆矩阵。v Reproduced 选项,显示再生相关阵。选项,显示再生相关阵。v

18、 Anti-image 复选项,选择此项给出反映象相关矩阵。复选项,选择此项给出反映象相关矩阵。v and Bartletts test of Sphericity 复选项,要求复选项,要求进行进行 检验和球形检验和球形Bartlett 检验。检验。KMOKMOv 5、单击、单击“Extraction”按钮,进入按钮,进入Extraction对话框,对话框,如图如图8-4 所示,可以选择不同的提取公因子的方法和控制所示,可以选择不同的提取公因子的方法和控制提取结果的判据。提取结果的判据。v图图8-4 Extraction 对话框对话框v(1)Method框,因子提取方法选择项框,因子提取方法选

19、择项v Principal components 选项,主成份法。选项,主成份法。v Unweighted least Square 选项,不加权最选项,不加权最小平方法。小平方法。v Generalized least squares 选项,用变量选项,用变量值的倒数加权。值的倒数加权。v Maximum Likelihoud 选项,最大似然法。选项,最大似然法。v Principal Axis factoring 选项,使用多元选项,使用多元相关的平方作为对公因子方差的初始估计。相关的平方作为对公因子方差的初始估计。v Alpha factoring 选项,因子提取法。选项,因子提取法。v

20、 Image factoring 选项,映象因子提取法。选项,映象因子提取法。v(2)Analyze 框,指定分析矩阵的选择项。框,指定分析矩阵的选择项。v Correlation Matrix 选项,指定以分析变量的选项,指定以分析变量的相关矩阵为提取因子的依据。相关矩阵为提取因子的依据。v Covariance matrix 选项,指定以分析变量的选项,指定以分析变量的协方差矩阵为提取因子的依据。协方差矩阵为提取因子的依据。v(3)Display 框,指定与因子提取有关的输出项。框,指定与因子提取有关的输出项。v Unrotated factor solution 复选项,要求显复选项,要

21、求显示未经旋转的因子提取结果。示未经旋转的因子提取结果。v Scree plot 复选项,要求显示按特征值大小复选项,要求显示按特征值大小排列的因子序号,以特征值为两个坐标轴的碎石图。排列的因子序号,以特征值为两个坐标轴的碎石图。v(4)Extract 框,控制提取进程和提取结果的选择框,控制提取进程和提取结果的选择项。项。v Eigenvalues over 选项,指定提取的因子应选项,指定提取的因子应该具有的特征值范围,在此项后面的矩形框中给出。该具有的特征值范围,在此项后面的矩形框中给出。v Number of factors 选项,指定提取公因子选项,指定提取公因子的数目。的数目。v(

22、5)Maximum iterations for Convergence 参数参数框,指定因子分析收敛的最大迭代次数。框,指定因子分析收敛的最大迭代次数。v 6、单击、单击“Rotation”按钮,展开按钮,展开Rotation对话框,如图对话框,如图8-5所示,可以选择因子旋转方法。所示,可以选择因子旋转方法。v图图8-5 Rotation 对话框对话框v (1)Method 框,选择旋转方法。其中,框,选择旋转方法。其中,None 表表示不进行旋转,示不进行旋转,Varimax为方差最大旋转法,为方差最大旋转法,Direct Oblilmin为直接斜交旋转法,为直接斜交旋转法,Quartm

23、ax为四次最大为四次最大正交旋转法,正交旋转法,Equamax为平均正交旋转法,为平均正交旋转法,Promax为斜交旋转法。为斜交旋转法。v (2)Display 框,选择有关输出的选项。其中:框,选择有关输出的选项。其中:Rotated solution 选项,显示旋转结果;选项,显示旋转结果;Loading plot(s)选项,显示因子载荷散点图。选项,显示因子载荷散点图。v (3)Maximum iterations for Convergence 参参数框,指定旋转收敛的最大迭代次数。数框,指定旋转收敛的最大迭代次数。v 7、单击、单击“Scores”按钮,进入按钮,进入Factor

24、Scores对话框,对话框,如图如图8-6所示,可以要求计算因子得分,选择显示或作为新所示,可以要求计算因子得分,选择显示或作为新变量保存。变量保存。v图图8-6 Factor Scores 对话框对话框v (1)Save as variables 复选项,将因子得分作复选项,将因子得分作为新变量保存在数据文件中。为新变量保存在数据文件中。v (2)Method 栏,指定计算因子得分的方法。栏,指定计算因子得分的方法。其中,其中,Regression 选项为回归法,选项为回归法,Bartlett 选项为选项为巴特利特法,巴特利特法,Anderson-Rubin 选项是为了保证因选项是为了保证因

25、子的正交性而对子的正交性而对Bartlett 因子得分的调整。因子得分的调整。v (3)Display factor score coefficient matrix 复选项,选择此项将在输出窗中显示因子得分系数复选项,选择此项将在输出窗中显示因子得分系数矩阵,是标准化的得分系数。原始变量值进行标准矩阵,是标准化的得分系数。原始变量值进行标准化后,可以根据该矩阵给出的系数计算各观测量的化后,可以根据该矩阵给出的系数计算各观测量的因子得分,还显示协方差矩阵。因子得分,还显示协方差矩阵。v 8、单击、单击“Options”按钮,进入按钮,进入Options对话框,可以进对话框,可以进一步选择各种输

26、出项。如图一步选择各种输出项。如图8-7 所示。所示。v图图8-7 Options 对话框对话框v(1)Missing Values 栏,选择处理缺失值方法。栏,选择处理缺失值方法。v Exclude cases listwise 选项,在分析过程中对那些选项,在分析过程中对那些指定的分析变量中有缺失值的观测量一律剔除。指定的分析变量中有缺失值的观测量一律剔除。v Exclude cases pairwise 选项,成对剔除带有缺失值选项,成对剔除带有缺失值的观测量。的观测量。v Replace with mean 选项,用该变量的均值代替该变选项,用该变量的均值代替该变量的所有缺失值。量的所

27、有缺失值。v (2)Coefficient Display Format 栏,决定载荷系数的栏,决定载荷系数的显示格式。显示格式。v Sorted by size 复选项,选中此项载荷系数按其数值复选项,选中此项载荷系数按其数值的大小排列并构成矩阵。的大小排列并构成矩阵。v Suppress absolute values less than 复选项,选中复选项,选中此项,不显示那些绝对值小于指定值的载荷系数。此项,不显示那些绝对值小于指定值的载荷系数。第二节第二节 聚类分析聚类分析v一、聚类分析概述一、聚类分析概述v(一)聚类分析的概念(一)聚类分析的概念v 聚类分析是一种建立分类的多元统计

28、分析方法,聚类分析是一种建立分类的多元统计分析方法,它能够将一批样本(或变量)数据根据其诸多特征,它能够将一批样本(或变量)数据根据其诸多特征,按照在性质上的亲疏程度在没有先验知识的情况下按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类,将所有的样本或变量分别聚合到不进行自动分类,将所有的样本或变量分别聚合到不同的类中,使同一类中的个体有较大的相似性,不同的类中,使同一类中的个体有较大的相似性,不同类中的个体差异较大。同类中的个体差异较大。v 所谓所谓“没有先验知识没有先验知识”是指没有事先指定分类标是指没有事先指定分类标准;所谓准;所谓“亲疏程度亲疏程度”是指在各变量(特征)取值是指

29、在各变量(特征)取值上的总体差异程度。上的总体差异程度。v(二)层次聚类和(二)层次聚类和K-Means聚类聚类v1、层次聚类、层次聚类v 层次聚类又称分层聚类、系统聚类,是指聚类过程是按照层次聚类又称分层聚类、系统聚类,是指聚类过程是按照一定层次进行的。层次聚类按照不同特征分为以下两种:一定层次进行的。层次聚类按照不同特征分为以下两种:v (1)按照对象类型分为)按照对象类型分为 型聚类和型聚类和 型聚类型聚类 v 型聚类是对样本进行分类,主要作用为:可综合型聚类是对样本进行分类,主要作用为:可综合利用多个变量的信息对样本进行分类;分类结果直观,聚利用多个变量的信息对样本进行分类;分类结果直

30、观,聚类谱系图非常清楚地表现分类结果;所得结果比传统分类类谱系图非常清楚地表现分类结果;所得结果比传统分类方法更细致、全面、合理。方法更细致、全面、合理。v 型聚类是对变量进行分类处理,主要作用为:可了型聚类是对变量进行分类处理,主要作用为:可了解个别变量之间及变量组合之间的亲疏程度;解个别变量之间及变量组合之间的亲疏程度;根据变量的根据变量的分类结果以及它们之间的关系,可以选择主要变量进行回归分类结果以及它们之间的关系,可以选择主要变量进行回归分析或型聚类分析。分析或型聚类分析。QRQRv(2)根据聚类过程不同分为凝聚法和分解法。)根据聚类过程不同分为凝聚法和分解法。v 分解法:聚类开始把所

31、有个体分解法:聚类开始把所有个体(观测量或变量观测量或变量)都视为属都视为属于一大类,然后根据距离和相似性逐层分解,直到参与聚于一大类,然后根据距离和相似性逐层分解,直到参与聚类的每个个体自成一类为止。类的每个个体自成一类为止。v 凝聚法:聚类开始把参与聚类的每个个体凝聚法:聚类开始把参与聚类的每个个体(观测量或变量观测量或变量)视为一类,根据两类之间的距离或相似性逐步合并,直到视为一类,根据两类之间的距离或相似性逐步合并,直到合并为一个大类为止。合并为一个大类为止。v 无论哪种方法,其聚类原则都是近似的聚为一类,即距无论哪种方法,其聚类原则都是近似的聚为一类,即距离最近或最相似的聚为一类。实

32、际上以上两种方法是方向离最近或最相似的聚为一类。实际上以上两种方法是方向相反的两种聚类过程。相反的两种聚类过程。v2、K-Means聚类聚类v K-Means聚类也称快速聚类,它仍将数据看成维空间上聚类也称快速聚类,它仍将数据看成维空间上的点,仍以距离作为测度个体的点,仍以距离作为测度个体“亲疏程度亲疏程度”的指标,并通的指标,并通过牺牲多个解为代价换得高的执行效率。过牺牲多个解为代价换得高的执行效率。v K-Means聚类的核心步骤为:第一步,指定聚类数目聚类的核心步骤为:第一步,指定聚类数目 ;第二步,确定第二步,确定 个初始类中心;第三步,根据距离最近原个初始类中心;第三步,根据距离最近

33、原则进行分类;第四步,重新确定则进行分类;第四步,重新确定 个类中心;第五步,判个类中心;第五步,判断是否已满足终止聚类分析的条件。断是否已满足终止聚类分析的条件。v 从上述分析过程可以看出,从上述分析过程可以看出,K-Means Cluster快速聚类快速聚类是一个反复迭代的分类过程。在聚类过程中,样本所属的是一个反复迭代的分类过程。在聚类过程中,样本所属的类会不断调整,直到最终达到稳定为止。类会不断调整,直到最终达到稳定为止。快速聚类适用于快速聚类适用于大样本的聚类分析。它能快速的把各观测量分到各类中去。大样本的聚类分析。它能快速的把各观测量分到各类中去。kkkv(三)聚类分析的几点说明(

34、三)聚类分析的几点说明v 1、所选择的变量应符合聚类的要求、所选择的变量应符合聚类的要求v 可根据实际工作经验和所研究问题的特征人为的选择变可根据实际工作经验和所研究问题的特征人为的选择变量,这些变量应该和分析的目标密切相关,反映分类对象的量,这些变量应该和分析的目标密切相关,反映分类对象的特征。特征。v 2、各变量的变量值不应有数量级上的差异、各变量的变量值不应有数量级上的差异v 为了避免对变量单位选择的依赖,数据应当标准化。为了避免对变量单位选择的依赖,数据应当标准化。v 3、各变量间不应有较强的线性相关关系、各变量间不应有较强的线性相关关系v 如果所选变量之间存在较高的线性关系,有两种处

35、理方如果所选变量之间存在较高的线性关系,有两种处理方法:(法:(1)首先进行变量聚类,从每类中选一代表性变量,)首先进行变量聚类,从每类中选一代表性变量,再进行样本聚类;(再进行样本聚类;(2)进行主成分分析或因子分析,降维,)进行主成分分析或因子分析,降维,使之成为不相关的新变量,再进行样本聚类。使之成为不相关的新变量,再进行样本聚类。v二、聚类分析中二、聚类分析中“亲疏程度亲疏程度”的度量的度量v(一)个体间(一)个体间“亲疏程度亲疏程度”的度量的度量v 聚类分析中,对聚类分析中,对“亲疏程度亲疏程度”的测度一般有两个角度:第的测度一般有两个角度:第一,个体之间的相似程度;第二,个体之间的

36、差异程度。在一,个体之间的相似程度;第二,个体之间的差异程度。在SPSS中,对不同度量类型的数据采用了不同的测定亲疏程中,对不同度量类型的数据采用了不同的测定亲疏程度的统计量。度的统计量。v 1、定距型变量个体间距离的计算方式、定距型变量个体间距离的计算方式v 通常有欧式距离(通常有欧式距离(Euclidean distance)、平方欧式距离)、平方欧式距离(Squared Euclidean distance)、夹角余弦()、夹角余弦(Cosine)距离、相关系数距离(距离、相关系数距离(Pearson correlation)、切比雪夫)、切比雪夫距离(距离(Chebychev:Cheb

37、ychev)、)、Block距离(距离(City-Block)或)或Manhattan 距离、明考斯基距离(距离、明考斯基距离(Minkowski)、)、用户自定义距离(用户自定义距离(Customized)等)等8种方法。这些方法分别种方法。这些方法分别适用于适用于 型聚类和型聚类和 型聚类型聚类 QRv 2、计数变量个体间距离的计算方式、计数变量个体间距离的计算方式v 如果所涉及的个变量都是计数(如果所涉及的个变量都是计数(Count)的非连续变量,)的非连续变量,对计数变量的不相似性测度方法,是根据被计算的两个观对计数变量的不相似性测度方法,是根据被计算的两个观测量或两个变量总频数计算其

38、不相似性。期望值来自观测测量或两个变量总频数计算其不相似性。期望值来自观测量或变量的独立模型。个体间距离的定量通常有卡方距离量或变量的独立模型。个体间距离的定量通常有卡方距离(Chi-Square measure)Phi 方距离(方距离(Phi-Square measure)两种方式:)两种方式:v 3、二值变量个体间距离的计算方式、二值变量个体间距离的计算方式v 如果所涉及的个变量都是二值(如果所涉及的个变量都是二值(Binary)变量,那么个)变量,那么个体间距离的定义通常有简单匹配系数(体间距离的定义通常有简单匹配系数(Simple matching和雅科比系数(和雅科比系数(Jacca

39、rd)两种方式。)两种方式。v(二)个体与小类、小类与小类间亲疏程度的度量(二)个体与小类、小类与小类间亲疏程度的度量v 在在SPSS中提供了多种度量个体与小类、小类与小类间中提供了多种度量个体与小类、小类与小类间亲疏程度的方法,如最短距离法(亲疏程度的方法,如最短距离法(Nearest neighbor)、)、最长距离法(最长距离法(Furthest neighbor)、中间距离法)、中间距离法(Median clustering)、组间平均链锁法()、组间平均链锁法(Between-groups linkage)、组内平均链锁法()、组内平均链锁法(Within-groups linkag

40、e)、重心法()、重心法(Centroid clustering)、离差平方和)、离差平方和法(法(Wards method)。)。v 在一般情况下,用不同的方法聚类的结果是不会完全一在一般情况下,用不同的方法聚类的结果是不会完全一致的。在实际应用中,一般采用以下两种处理方法:根致的。在实际应用中,一般采用以下两种处理方法:根据分类问题本身的专业知识结合实际需要来选择分类方法,据分类问题本身的专业知识结合实际需要来选择分类方法,并确定分类个数;多用几种分类方法去作,把结果中的并确定分类个数;多用几种分类方法去作,把结果中的共性提出来,对有争议的样本用判别分析去归类。共性提出来,对有争议的样本用

41、判别分析去归类。v三、层次聚类在三、层次聚类在SPSS中的实现中的实现v 1建立或打开数据文件后,进入建立或打开数据文件后,进入AnalyzeClassify-Hierachical Cluster Analysis 主对话框,如图主对话框,如图8-9所示。所示。v图图8-9 层次聚类对话框层次聚类对话框v 2、把参与分析的变量选到、把参与分析的变量选到Variable(s)框中。)框中。v 3、把一个字符型变量作为标记变量选到、把一个字符型变量作为标记变量选到Label Cases框中,它将大大增加聚类分析结果的可读性。框中,它将大大增加聚类分析结果的可读性。v 4、在、在Cluster框中

42、选择聚类类型。其中框中选择聚类类型。其中Cases 项项表示进行型聚类,表示进行型聚类,Variables 项表示进行型聚类。项表示进行型聚类。v 5、在、在Display框中选择输出内容。其中框中选择输出内容。其中Statistics表示输出聚类分析的相关统计量,表示输出聚类分析的相关统计量,Plots表示输出聚类分析的相关图形。表示输出聚类分析的相关图形。v 6、单击、单击Statistics按钮,选择要求输出的统计量,如图按钮,选择要求输出的统计量,如图8-10所示。所示。v图图8-10 Statistics 对话框对话框v (1)Agglomeration schedule 复选项,表

43、示输出聚类分复选项,表示输出聚类分析的凝聚状态表。析的凝聚状态表。v (2)Proximity Matrix 复选项,表示输出个体间的距离矩复选项,表示输出个体间的距离矩阵。产生什么类型的矩阵取决于在阵。产生什么类型的矩阵取决于在Method 对话框中对话框中Measure 栏中的选择。栏中的选择。v (3)Cluster Membership(类成员栏类成员栏)选项,显示每个观选项,显示每个观测量被分派到的类或显示若干步凝聚过程。其中:测量被分派到的类或显示若干步凝聚过程。其中:v None 选项,不显示类成员表,是系统默认值。选项,不显示类成员表,是系统默认值。v Single solut

44、ion 选项,要求列出聚为一定类数的各观选项,要求列出聚为一定类数的各观测量所属的类。测量所属的类。v Range of solutions 选项,要求列出某个范围中每一选项,要求列出某个范围中每一步各观测量所属的类。步各观测量所属的类。v7、单击、单击Plots 按钮,选择输出统计图表,如图按钮,选择输出统计图表,如图8-11所示。所示。v图图8-11 Plots 对话框对话框v (1)Dendrogram复选项,表示输出聚类分析复选项,表示输出聚类分析的树形图。的树形图。v (2)Icicle复选项,表示输出聚类分析的冰柱图,复选项,表示输出聚类分析的冰柱图,其中:其中:All clust

45、ers 选项,聚类的每一步都表现选项,聚类的每一步都表现在图中。在图中。Specified range of clusters 选项,指选项,指定显示的聚类范围。定显示的聚类范围。None,不生成冰柱图。,不生成冰柱图。v (3)Orientation 栏指定如何显示冰柱图,其中栏指定如何显示冰柱图,其中Vertical表示纵向显示,表示纵向显示,Horizontal表示横向水表示横向水平的冰柱图。平的冰柱图。v 8、单击、单击“Method”按钮,展开按钮,展开Method 分层聚类分析分层聚类分析的方法选择对话框,如图的方法选择对话框,如图8-12所示。所示。v图图8-12 Method

46、对话框对话框 v(1)Cluster Method 表中列出可以选择的聚类方表中列出可以选择的聚类方法有法有Between-groups linkage(类间平均链锁)、(类间平均链锁)、Within-groups linkage(类内平均链锁法)、(类内平均链锁法)、Nearest neighbor(最近邻居法)、(最近邻居法)、Furthest neighbor(最远邻居法)、(最远邻居法)、Centroid clustering(重心法)、(重心法)、Median clustering(中间距离法)、(中间距离法)、Wards method(离差平方和法)。(离差平方和法)。v (2)M

47、easure框中给出的是不同变量类型下的个框中给出的是不同变量类型下的个体距离的计算方法,其中体距离的计算方法,其中Interval框中的方法适用框中的方法适用于连续性定距变量,于连续性定距变量,Counts框中的方法适用于计框中的方法适用于计数型变量,数型变量,Binary框中的方法适用于二值变量。框中的方法适用于二值变量。v (3)单击)单击Transform Values 框中的框中的Standardize右侧向右侧向下的箭头按钮,展开标准化方法列表,只有选择了下的箭头按钮,展开标准化方法列表,只有选择了Interval或或Counts后才可以进行标准化。后才可以进行标准化。By var

48、iable适用于适用于 型聚型聚类分析;类分析;By case适用于适用于 型聚类分析。型聚类分析。v 对数据进行标准化的可选择的方法有:对数据进行标准化的可选择的方法有:None 选项,不选项,不进行标准化;进行标准化;scores 选项,把数值标准化到分数;选项,把数值标准化到分数;Range-1 to 1 选项,把数值标准化到选项,把数值标准化到-1 到到+1 的范围内;的范围内;Range 0 to l 选项,把数值标准化到选项,把数值标准化到0 到到+1 的范围内;的范围内;Maximum magnitude of 1选项,把数值标准化到最大值选项,把数值标准化到最大值1;Mean

49、of 1 选项,把数值标准化到一个均值的范围内;选项,把数值标准化到一个均值的范围内;Standard deviation of 1 选项,把数值标准化到单位标准选项,把数值标准化到单位标准差。差。RQv (4)Transform Measure框为测度的转换方法选框为测度的转换方法选择栏。其中:择栏。其中:v Absolute Values 复选项,把距离值取绝对值。复选项,把距离值取绝对值。当数值符号表示相关方向,且只对负相关关系感兴当数值符号表示相关方向,且只对负相关关系感兴趣时,使用此方法进行变换。趣时,使用此方法进行变换。v Change sign 复选项,把相似性值变为不相复选项,

50、把相似性值变为不相似性值或相反,用求反的方法使距离顺序颠倒。似性值或相反,用求反的方法使距离顺序颠倒。v Rescale to 01 range 复选项,通过首先减去复选项,通过首先减去最小值然后除以范围的方法使距离标准化。最小值然后除以范围的方法使距离标准化。Zv 9、聚类分析的结果可以用新变量保存在工作数据文件、聚类分析的结果可以用新变量保存在工作数据文件中。单击主对话框的中。单击主对话框的“Save”按钮,展开相应的对话框,按钮,展开相应的对话框,如图如图8-13所示。所示。v图图8-13 Save New Variables 对话框对话框v(1)None 选项,不建立新变量。选项,不建

51、立新变量。v(2)Single solution 选项,即单一结果。选项,即单一结果。v(3)Range of solutions 选项,即指定范围内选项,即指定范围内的结果。的结果。v 10、执行、执行Cluster 过程,点击主对话框中的过程,点击主对话框中的“OK”按钮即可。按钮即可。v 四、快速样本聚类在四、快速样本聚类在SPSS中的实现中的实现v 1建立或读入数据文件后,进入建立或读入数据文件后,进入Analyze-Classify-K-Means Cluster Analysis 对话框,如图对话框,如图8-15所示。所示。v图图8-15 K-Means Cluster Analy

52、sis 对话框对话框v 2、指定参与、指定参与K-Means聚类的变量放入聚类的变量放入Variables框中。框中。v 3、把一个字符型变量作为标记变量选到、把一个字符型变量作为标记变量选到Label Cases框中,框中,它将大大增加聚类分析结果的可读性。它将大大增加聚类分析结果的可读性。v 4、在、在Number of Clusters框中输入聚类数目,该数应小框中输入聚类数目,该数应小于样本数。于样本数。v 5、在、在Method框中指定聚类过程是否调整类中心点。其中,框中指定聚类过程是否调整类中心点。其中,Iterate and classify 表示在聚类分析的每一步都重新确定类表

53、示在聚类分析的每一步都重新确定类中心点;中心点;Classify only 表示聚类分析过程中类中心点始终为表示聚类分析过程中类中心点始终为初始类中心点,此时仅进行一次迭代。初始类中心点,此时仅进行一次迭代。v 6、Cluster Centers栏内。栏内。Read initial from 复选框要求复选框要求使用指定数据文件中的观测量作为初始类中心。使用指定数据文件中的观测量作为初始类中心。Write final as 复选框要求把聚类结果中的各类中心数据保存到指定的文复选框要求把聚类结果中的各类中心数据保存到指定的文件中。件中。v 7、控制聚类分析过程的选项。在对话框中单击、控制聚类分析

54、过程的选项。在对话框中单击Iterate 按钮,展开设置迭代参数的对话框,如图按钮,展开设置迭代参数的对话框,如图8-16所示。所示。v图图8-16 指定迭代参数对话框指定迭代参数对话框v (1)Maximum Iterations 参数框:限定参数框:限定K-Means 算法的迭代次数。算法的迭代次数。v (2)Convergence Criterion 参数框:指定限参数框:指定限定定K-Means 算法的收敛判据。算法的收敛判据。v (3)Use running means 复选框:选中该框,复选框:选中该框,限定在每个观测量被分配到一类后,即刻计算新限定在每个观测量被分配到一类后,即刻

55、计算新的类中心。的类中心。v 8、在对话框中单击、在对话框中单击Save按钮,展开按钮,展开Save New Variables(保存新变量保存新变量)对话框,如图对话框,如图8-17所示。所示。v图图8-17 Save New Variables 对话框对话框v (1)选择)选择Cluster Member 复选框,要复选框,要求在当前工作数据文件中(数据窗口中)求在当前工作数据文件中(数据窗口中)建立一个新变量,系统默认变量名为建立一个新变量,系统默认变量名为qxl_1。v (2)选择)选择Distance from cluster center 复选框,要求在当前工作数据文件复选框,要求

56、在当前工作数据文件中(数据窗口中)建立一个新变量,系统中(数据窗口中)建立一个新变量,系统默认变量名为默认变量名为qcl_2。v 9、在对话框中单击、在对话框中单击Options 对话框,打开如图对话框,打开如图8-18的选择对话框。的选择对话框。v图图8-18 Options 对话框对话框v (1)在)在Statistics 栏中可以选择要求计算和输出的统计量栏中可以选择要求计算和输出的统计量有:有:Initial cluster centers复选框,表示输出初始类中心;复选框,表示输出初始类中心;ANOVA table复选框,表示以聚类分析产生的类为控制变量,复选框,表示以聚类分析产生的

57、类为控制变量,以个变量为观测变量进行单因素分析,并输出各个变量的方以个变量为观测变量进行单因素分析,并输出各个变量的方差分析表;差分析表;Cluster information for each case复选框,表示复选框,表示输出每个观测量的分类信息及距所属类中心的距离。输出每个观测量的分类信息及距所属类中心的距离。v (2)在)在Missing Values 栏中选择一种处理带有缺失值观栏中选择一种处理带有缺失值观测量的方法。测量的方法。Exclude cases listwise 选项,将出现在选项,将出现在Variables 变量表中变量带有缺失值得观测量从分析中剔除;变量表中变量带有缺失值得观测量从分析中剔除;Exclude cases pairwise 选项,只有当一个观测量的全部聚选项,只有当一个观测量的全部聚类变量值均缺失时才将其从分析中剔除,否则,根据所有其类变量值均缺失时才将其从分析中剔除,否则,根据所有其他非缺失变量值把它分配到最近的一类中去。他非缺失变量值把它分配到最近的一类中去。谢谢!谢谢!

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!