聚类分析和判别分析课件

上传人:痛*** 文档编号:222792716 上传时间:2023-07-12 格式:PPT 页数:30 大小:226KB
收藏 版权申诉 举报 下载
聚类分析和判别分析课件_第1页
第1页 / 共30页
聚类分析和判别分析课件_第2页
第2页 / 共30页
聚类分析和判别分析课件_第3页
第3页 / 共30页
资源描述:

《聚类分析和判别分析课件》由会员分享,可在线阅读,更多相关《聚类分析和判别分析课件(30页珍藏版)》请在装配图网上搜索。

1、第8章 聚类分析和判别分析俗话说俗话说“物以类聚,人以群分物以类聚,人以群分”,在现实生活中,为了更,在现实生活中,为了更好的认识事物,人们往往需要根据事物的属性对事物进行好的认识事物,人们往往需要根据事物的属性对事物进行分类,分类是人类认识客观世界的一种重要方法。在社会分类,分类是人类认识客观世界的一种重要方法。在社会生活的各个方面和科学研究的各个领域都存在着大量的分生活的各个方面和科学研究的各个领域都存在着大量的分类问题。类问题。聚类分析和判别分析聚类分析和判别分析在实际生活中经常需要使用聚类分析对事物进行分类,在总在实际生活中经常需要使用聚类分析对事物进行分类,在总体类别已知时需要使用判

2、别分析对研究对象进行归类。在体类别已知时需要使用判别分析对研究对象进行归类。在SPSSSPSS中其菜单打开方式为:选择中其菜单打开方式为:选择“分析分析”“”“分类分类”命令,命令,打开如图所示的打开如图所示的“分类分类”菜单。菜单。聚类分析和判别分析聚类分析和判别分析8.1 聚类分析基本原理聚类分析作为一种重要的分类方法,其实质在于通过研究聚类分析作为一种重要的分类方法,其实质在于通过研究对象之间的亲疏关系将相似的对象划分为一类,不相似的对象之间的亲疏关系将相似的对象划分为一类,不相似的对象划分到不同的类别当中。在本节中将介绍聚类分析的对象划分到不同的类别当中。在本节中将介绍聚类分析的概念、

3、计算方法和聚类结果的评价等。概念、计算方法和聚类结果的评价等。聚类分析和判别分析聚类分析和判别分析8.1.1 聚类分析简介聚类分析(聚类分析(Cluster AnalysisCluster Analysis)是根据事物本身的特征通)是根据事物本身的特征通过统计方法对事物进行分类的多元分析方法,可以通过数过统计方法对事物进行分类的多元分析方法,可以通过数据建模达到简化数据的目的。聚类分析也称为分类分析、据建模达到简化数据的目的。聚类分析也称为分类分析、数值分类或集群分析等。根据分类对象的不同,聚类分析数值分类或集群分析等。根据分类对象的不同,聚类分析可分为样本聚类和变量聚类两种。可分为样本聚类和

4、变量聚类两种。聚类分析和判别分析聚类分析和判别分析8.1.2 聚类分析的计算在聚类分析过程中,需要区分为不同的类,事物是怎样划在聚类分析过程中,需要区分为不同的类,事物是怎样划分到不同的类别当中的呢?判断不同事物是否归于一类依分到不同的类别当中的呢?判断不同事物是否归于一类依据的是事物之间的相似性。事物相似性的度量标准一般有据的是事物之间的相似性。事物相似性的度量标准一般有两种:距离和相似性系数,距离一般用来度量样本之间的两种:距离和相似性系数,距离一般用来度量样本之间的相似性,而相似性系数一般是用来度量变量之间的相似性。相似性,而相似性系数一般是用来度量变量之间的相似性。聚类分析和判别分析聚

5、类分析和判别分析1 1距离距离距离的计算根据观测指标数据类型的不同可以分为两种情况:距离的计算根据观测指标数据类型的不同可以分为两种情况:如果观测指标是非连续数据,需要采用卡方分析等计算方法;如果观测指标是非连续数据,需要采用卡方分析等计算方法;如果观测值标是连续数据,则可以采用以下几种算法:如果观测值标是连续数据,则可以采用以下几种算法:(1 1)明氏距离)明氏距离(2 2)马氏距离)马氏距离(3 3)兰氏距离)兰氏距离(4 4)自定义距离)自定义距离聚类分析和判别分析聚类分析和判别分析2 2相似性系数相似性系数前面提到,聚类分析不仅可以对样本进行聚类,而且还可以前面提到,聚类分析不仅可以对

6、样本进行聚类,而且还可以对变量进行聚类,当对变量进行聚类时,考察变量之间关系对变量进行聚类,当对变量进行聚类时,考察变量之间关系的指标一般采用相似性系数来表示。相似性系数是描述测量的指标一般采用相似性系数来表示。相似性系数是描述测量指标之间相关程度的指标,取值范围为指标之间相关程度的指标,取值范围为-1,1-1,1,相似系数越,相似系数越大,变量之间的相似性就越高。根据研究目的的不同,有时大,变量之间的相似性就越高。根据研究目的的不同,有时只需要考察相关系数绝对值的大小,有时还要考虑到相关的只需要考察相关系数绝对值的大小,有时还要考虑到相关的方向,即相关系数的正负。聚类时,相似的变量归入一类,

7、方向,即相关系数的正负。聚类时,相似的变量归入一类,不相似的变量归到不同的类。相似性系数的计算方法常见的不相似的变量归到不同的类。相似性系数的计算方法常见的有积差相关系数和夹角余弦等。有积差相关系数和夹角余弦等。积差相关系数:积差相关系数:聚类分析和判别分析聚类分析和判别分析8.1.3 聚类结果的评价聚类分析是一个探索性的过程,在使用聚类分析过程中,聚类分析是一个探索性的过程,在使用聚类分析过程中,除了要根据不同的数据类型选择其最适合的聚类方法外,除了要根据不同的数据类型选择其最适合的聚类方法外,还往往需要结合数据结构和对聚类样本或变量的先验经验,还往往需要结合数据结构和对聚类样本或变量的先验

8、经验,并且不断探索和尝试才能得到比较好的聚类结果。这里简并且不断探索和尝试才能得到比较好的聚类结果。这里简要介绍一些判断类别数量是否合理的标准和最终分类要介绍一些判断类别数量是否合理的标准和最终分类应该应该符合的要求作为参考。符合的要求作为参考。1 1规定一个阈值规定一个阈值T T2 2查看样本的散点图查看样本的散点图3 3使用统计量使用统计量聚类分析和判别分析聚类分析和判别分析8.2.1 二阶聚类的基本原理顾名思义,二阶聚类是指聚类过程是分为两步进行的,故顾名思义,二阶聚类是指聚类过程是分为两步进行的,故又称为两步聚类。二阶聚类发展较晚,但由于其能同时处又称为两步聚类。二阶聚类发展较晚,但由

9、于其能同时处理连续数据和离散数据,同时还可以自动确定最佳聚类个理连续数据和离散数据,同时还可以自动确定最佳聚类个数,加上处理速度快等优点,使它从一经提出就在多个领数,加上处理速度快等优点,使它从一经提出就在多个领域得到推广,并受到越来越多用户的青睐。域得到推广,并受到越来越多用户的青睐。二阶聚类主要分为以下两个步骤:二阶聚类主要分为以下两个步骤:(1 1)预分类)预分类(2 2)正式聚类)正式聚类聚类分析和判别分析聚类分析和判别分析8.2.2 二阶聚类的操作过程在在SPSSSPSS中二阶聚类的操作过程如下:中二阶聚类的操作过程如下:(1 1)打开或建立数据文件。)打开或建立数据文件。(2 2)

10、选择)选择“分析分析”“”“分类分类”“”“两步聚类两步聚类”命令,打命令,打开开“二阶聚类分析二阶聚类分析”对话框,如图所示。对话框,如图所示。聚类分析和判别分析聚类分析和判别分析(3 3)选择变量)选择变量(4 4)选择距离度量标准)选择距离度量标准(5 5)连续变量计数)连续变量计数(6 6)设定聚类数量)设定聚类数量(7 7)选择聚类准则)选择聚类准则(8 8)选项设置)选项设置(9 9)输出设置)输出设置(1010)设置完成后,单击)设置完成后,单击“确定确定”按钮,执行操作,输出结按钮,执行操作,输出结果。果。聚类分析和判别分析聚类分析和判别分析8.2.3 实例分析:普通高等学校(

11、机构)教职工队伍构成(1)教师队伍的构成影响和制约着高等教育的质量和发展。现教师队伍的构成影响和制约着高等教育的质量和发展。现准备根据准备根据20082008年中国部分省份普通高等学校(机构)教职年中国部分省份普通高等学校(机构)教职工队伍构成情况对这些地区进行分类。收集到的资料包括:工队伍构成情况对这些地区进行分类。收集到的资料包括:正高级职称人数(单位:人)、副高级职称人数、中级职正高级职称人数(单位:人)、副高级职称人数、中级职称人数、初级职称人数和无职称人数。称人数、初级职称人数和无职称人数。1 1操作过程操作过程2 2结果分析结果分析聚类分析和判别分析聚类分析和判别分析8.3 K-均

12、值聚类分析K-K-均值聚类(均值聚类(K-Means-ClusterK-Means-Cluster)是一种快速样本聚类方)是一种快速样本聚类方法,在聚类个数已知的情况下,特别适合于对大样本数据法,在聚类个数已知的情况下,特别适合于对大样本数据进行分析。在本节将介绍进行分析。在本节将介绍K-K-均值聚类的基本原理和操作过均值聚类的基本原理和操作过程。程。聚类分析和判别分析聚类分析和判别分析8.3.1 K-均值聚类的基本原理K-K-均值聚类(均值聚类(K-Means-ClusterK-Means-Cluster)又称快速样本聚类或逐)又称快速样本聚类或逐步样本聚类,是先将样本数据进行初始分类,然后

13、根据中步样本聚类,是先将样本数据进行初始分类,然后根据中心点逐步调整,直至得到最终分类。这种聚类方法具有计心点逐步调整,直至得到最终分类。这种聚类方法具有计算量大、对系统要求低、占用内存少、处理速度快的特点,算量大、对系统要求低、占用内存少、处理速度快的特点,因此特别适合处理大样本数据。但是这种聚类方法只适于因此特别适合处理大样本数据。但是这种聚类方法只适于对样本的聚类,而不能对变量进行聚类。对样本的聚类,而不能对变量进行聚类。K-K-均值聚类分析均值聚类分析的基本步骤如下:的基本步骤如下:(1 1)确定聚类数量。)确定聚类数量。(2 2)确定初始类中心坐标。)确定初始类中心坐标。(3 3)根

14、据距离最近原则进行分类。)根据距离最近原则进行分类。(4 4)重新计算所形成的各个新类别的中心点坐标,并重)重新计算所形成的各个新类别的中心点坐标,并重新归类。新归类。(5 5)重复上一过程,直至达到收敛标准。)重复上一过程,直至达到收敛标准。聚类分析和判别分析聚类分析和判别分析8.3.2 K-均值聚类的操作过程前面介绍了前面介绍了K-K-均值聚类分析的基本原理和步骤,在均值聚类分析的基本原理和步骤,在SPSSSPSS中中K-K-均值聚类的操作过程如下:均值聚类的操作过程如下:(1 1)打开或建立数据文件。)打开或建立数据文件。(2 2)选择)选择“分析分析”“”“分类分类”“K-”“K-均值

15、聚类均值聚类”命令,命令,打开打开“K-“K-均值聚类均值聚类”对话框,如图所示。对话框,如图所示。聚类分析和判别分析聚类分析和判别分析(3 3)选择变量)选择变量(4 4)确定聚类数)确定聚类数(5 5)选择聚类方法)选择聚类方法(6 6)设定聚类中心的读取与输出)设定聚类中心的读取与输出(7 7)设定迭代次数)设定迭代次数(8 8)设定输出结果)设定输出结果(9 9)选择统计量指标和缺失值处理)选择统计量指标和缺失值处理(1010)单击)单击“确定确定”按钮,执行操作,输出结果。按钮,执行操作,输出结果。聚类分析和判别分析聚类分析和判别分析8.3.3 实例分析:不同省份三次产业从业人数优化

16、产业结构,转变经济增长方式对于国民经济平稳较快优化产业结构,转变经济增长方式对于国民经济平稳较快发展有着重要的意义。为了更好的了解全国不同省份的三发展有着重要的意义。为了更好的了解全国不同省份的三次产业结构情况,国家统计局调查了全国次产业结构情况,国家统计局调查了全国3131个省份个省份20082008的的三次产业从业人数情况。这里摘选了其中部分省份的数据,三次产业从业人数情况。这里摘选了其中部分省份的数据,请问如何通过这些数据对各省份三次产业从业人数进行聚请问如何通过这些数据对各省份三次产业从业人数进行聚类分析?类分析?1 1操作过程操作过程2 2结果分析结果分析聚类分析和判别分析聚类分析和

17、判别分析8.4 层次聚类在前面两节的内容中介绍了二阶聚类和在前面两节的内容中介绍了二阶聚类和K-K-均值聚类,这两均值聚类,这两种聚类方法聚类速度快,较适合于样本量较大的数据,但种聚类方法聚类速度快,较适合于样本量较大的数据,但它们也有一些不够完善之处。首先,它们只可以对样本进它们也有一些不够完善之处。首先,它们只可以对样本进行聚类,但是无法对变量进行聚类;其次,由于聚类个数行聚类,但是无法对变量进行聚类;其次,由于聚类个数往往需要研究者事先指定(对于往往需要研究者事先指定(对于K-K-均值聚类必须指定聚类均值聚类必须指定聚类个数),这就需要研究者对研究对象要有一定的先验知识个数),这就需要研

18、究者对研究对象要有一定的先验知识经验和预期,这对新手来说会有一定的困难;最后,在输经验和预期,这对新手来说会有一定的困难;最后,在输出结果中它们对样本之间的关系和结构的描述也不够详细出结果中它们对样本之间的关系和结构的描述也不够详细和直观。而本节的层次聚类方法能很好的克服上述两种聚和直观。而本节的层次聚类方法能很好的克服上述两种聚类方法的缺陷。类方法的缺陷。聚类分析和判别分析聚类分析和判别分析8.4.1 层次聚类的基本原理层次聚类又称系统聚类或分层聚类,是一种常用的聚类方层次聚类又称系统聚类或分层聚类,是一种常用的聚类方法。在层次聚类中,它既可以对样本进行聚类(即法。在层次聚类中,它既可以对样

19、本进行聚类(即Q Q型聚型聚类),也可以对变量进行聚类(即类),也可以对变量进行聚类(即R R型聚类);聚类个数型聚类);聚类个数也无需事先指定(如果了解的话也可以指定或者只是指定也无需事先指定(如果了解的话也可以指定或者只是指定类别数量范围);在聚类过程中系统将所有观测指标纳入类别数量范围);在聚类过程中系统将所有观测指标纳入计算过程,在聚类结果中不仅可以显示不同样本(或变量)计算过程,在聚类结果中不仅可以显示不同样本(或变量)的距离、所属类别,而且还可以根据分类过程绘制出样本的距离、所属类别,而且还可以根据分类过程绘制出样本(或变量)的树状谱系关系图,对于确定类别个数有着重(或变量)的树状

20、谱系关系图,对于确定类别个数有着重要的参考价值。要的参考价值。根据聚类过程的不同,层次聚类又可以分为凝聚法和分解根据聚类过程的不同,层次聚类又可以分为凝聚法和分解法两种方向相反的聚类方法。法两种方向相反的聚类方法。聚类分析和判别分析聚类分析和判别分析8.4.2层次聚类的操作过程在在SPSSSPSS中层次聚类的操作过程如下:中层次聚类的操作过程如下:(1 1)打开或建立数据文件。)打开或建立数据文件。(2 2)选择)选择“分析分析”“”“分类分类”“”“系统聚类系统聚类”命令,打命令,打开开“系统聚类分析系统聚类分析”对话框,如图所示。对话框,如图所示。聚类分析和判别分析聚类分析和判别分析(3

21、3)选择变量:从左边变量列表框中选择要进行聚类的变量)选择变量:从左边变量列表框中选择要进行聚类的变量将其移入右边将其移入右边“变量变量”列表框中,同时选择称名变量移入列表框中,同时选择称名变量移入“标注个案标注个案”文本框中。文本框中。(4 4)选择聚类类型:在)选择聚类类型:在“分群分群”选项组中可以选择聚类对象。选项组中可以选择聚类对象。(5 5)设定输出指标:在)设定输出指标:在“输出输出”选项组中选择输出统计量和选项组中选择输出统计量和图形。图形。(6 6)选择基本统计量)选择基本统计量(7 7)选择输出图形)选择输出图形(8 8)选择聚类方法)选择聚类方法(9 9)聚类结果保存)聚

22、类结果保存(1010)设置完成后,单击)设置完成后,单击“确定确定”按钮,执行操作,输出结按钮,执行操作,输出结果。果。聚类分析和判别分析聚类分析和判别分析8.4.3 实例分析:普通高等学校(机构)教职工队伍构成(2)在此仍采用二阶聚类中使用的在此仍采用二阶聚类中使用的“普通高等学校(机构)教普通高等学校(机构)教职工队伍构成职工队伍构成”案例。案例。1 1操作过程操作过程2 2结果分析结果分析聚类分析和判别分析聚类分析和判别分析8.5 判别分析在前面几节中主要介绍的是聚类分析,在根据一定的指标在前面几节中主要介绍的是聚类分析,在根据一定的指标对一组样本进行分类时就可以使用聚类分析。如果已知一

23、对一组样本进行分类时就可以使用聚类分析。如果已知一组样本总体可以分为几类,但仍有一些样本需要明确其类组样本总体可以分为几类,但仍有一些样本需要明确其类别归属时就需要使用本节的判别分析。别归属时就需要使用本节的判别分析。在实际生活中经常会遇到各种各样的类别归属的判断问题。在实际生活中经常会遇到各种各样的类别归属的判断问题。如医生在给病人诊断时,就需要根据病人的各种症状、生如医生在给病人诊断时,就需要根据病人的各种症状、生化指标、持续时间等方面对病人的疾病类型及严重程度进化指标、持续时间等方面对病人的疾病类型及严重程度进行判断。同样,在生物学中对新发现物种的归类,在社会行判断。同样,在生物学中对新

24、发现物种的归类,在社会学、经济学中对社会发展状况、经济形势的判断也都要涉学、经济学中对社会发展状况、经济形势的判断也都要涉及到本节要学习的判别分析。及到本节要学习的判别分析。聚类分析和判别分析聚类分析和判别分析8.5.1 判别分析简介判别分析(判别分析(Discriminant AnalysisDiscriminant Analysis)是多元统计分析中)是多元统计分析中判断样品所属类别的一种重要的统计方法,它最早是由费判断样品所属类别的一种重要的统计方法,它最早是由费希尔希尔(R.A.Fisher)1936 (R.A.Fisher)1936 年在生物学的植物分类问题年在生物学的植物分类问题中

25、提出来的,但当初只是作为一种分类方法而缺少数学上中提出来的,但当初只是作为一种分类方法而缺少数学上的理论依据,后来出现的贝叶斯(的理论依据,后来出现的贝叶斯(BayesBayes)判别证明了费)判别证明了费希尔判别的合理性,因此一般将这两种判别分析合称为希尔判别的合理性,因此一般将这两种判别分析合称为FisherFisher判别分析。判别分析。聚类分析和判别分析聚类分析和判别分析1 1判别分析的基本原理判别分析的基本原理判别分析是在类别数确定的情况下,根据某一研究对象的判别分析是在类别数确定的情况下,根据某一研究对象的各种特征判断其类别归属的一种多变量统计分析方法。判各种特征判断其类别归属的一

26、种多变量统计分析方法。判别分析的方法很多,根据判别的组数来区分,有两组判别别分析的方法很多,根据判别的组数来区分,有两组判别分析和多组判别分析;根据区分不同总体所用数学模型的分析和多组判别分析;根据区分不同总体所用数学模型的不同,有线性判别和非线性判别;不同,有线性判别和非线性判别;根据判别时变量处理方根据判别时变量处理方法的不同,有逐步判别和序贯判别等。法的不同,有逐步判别和序贯判别等。聚类分析和判别分析聚类分析和判别分析2 2判别分析的适用条件判别分析的适用条件任何一种统计方法在满足其适用条件的前提下才可能得到理任何一种统计方法在满足其适用条件的前提下才可能得到理想的结果和解释。建立理想的

27、判别分析模型需要满足以下前想的结果和解释。建立理想的判别分析模型需要满足以下前提假设:提假设:(1 1)自变量服从多元正态分布且彼此之间不存在多重共线性。)自变量服从多元正态分布且彼此之间不存在多重共线性。(2 2)所有自变量在各组之间方差齐性,协方差矩阵也相等。)所有自变量在各组之间方差齐性,协方差矩阵也相等。(3 3)因变量的取值事先是确定的且独立。)因变量的取值事先是确定的且独立。(4 4)自变量与因变量间关系符合线性假设。)自变量与因变量间关系符合线性假设。聚类分析和判别分析聚类分析和判别分析8.5.2 判别分析的操作过程在在SPSSSPSS中判别分析的操作过程如下:中判别分析的操作过

28、程如下:(1 1)打开或建立数据文件。)打开或建立数据文件。(2 2)选择)选择“分析分析”“”“分类分类”“”“判别判别”命令,打开命令,打开“判别分析判别分析”对话框,如图所示。对话框,如图所示。聚类分析和判别分析聚类分析和判别分析(3 3)选择变量)选择变量(4 4)选择判别分析方法)选择判别分析方法(5 5)选择基本统计量)选择基本统计量(6 6)选择判别方法)选择判别方法(7 7)选择分类)选择分类(8 8)结果保存)结果保存(9 9)设置完成后,单击)设置完成后,单击“确定确定”按钮,执行操作,输出结按钮,执行操作,输出结果。果。聚类分析和判别分析聚类分析和判别分析8.4.3 实例

29、分析:地区职工平均工资水平不同地区工资水平会存在一定的差异,在不同地区工资水平会存在一定的差异,在20042004年全国不同年全国不同地区职工平均工资调查中选取国有单位、城镇集体单位及地区职工平均工资调查中选取国有单位、城镇集体单位及其他单位作为指标,通过对部分数据进行聚类分析总体上其他单位作为指标,通过对部分数据进行聚类分析总体上确立了两个类别,分别为第一、第二组。另外有确立了两个类别,分别为第一、第二组。另外有4 4个地区个地区属于待判别个案,请根据下面数据对这属于待判别个案,请根据下面数据对这4 4个地区进行判别个地区进行判别分析以确定其所属类别。分析以确定其所属类别。1 1操作过程操作过程2 2结果分析结果分析聚类分析和判别分析聚类分析和判别分析8.5 习题聚类分析和判别分析聚类分析和判别分析

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

相关资源

更多
正为您匹配相似的精品文档
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!