主成分分析和因子分析最新课件

上传人:仙*** 文档编号:218762138 上传时间:2023-06-21 格式:PPT 页数:64 大小:334KB
收藏 版权申诉 举报 下载
主成分分析和因子分析最新课件_第1页
第1页 / 共64页
主成分分析和因子分析最新课件_第2页
第2页 / 共64页
主成分分析和因子分析最新课件_第3页
第3页 / 共64页
资源描述:

《主成分分析和因子分析最新课件》由会员分享,可在线阅读,更多相关《主成分分析和因子分析最新课件(64页珍藏版)》请在装配图网上搜索。

1、统计学统计学统统 计计 学学(第三版第三版)200820082008年8月11-2统计学统计学STATISTICS(第三版第三版)模型选择是艺术,而不是科学。William Navidi统计名言统计名言2008年8月第第 11 章章 主成分分析和因子分析主成分分析和因子分析11.1 主成分分析主成分分析11.2 因子分析因子分析 2008年8月11-4统计学统计学STATISTICS(第三版第三版)学习目标学习目标l主成分分析和因子分析的基本原理主成分分析和因子分析的基本原理 l主成分分析和因子分析的异同主成分分析和因子分析的异同l主成分分析和因子分析的数学模型主成分分析和因子分析的数学模型l

2、用用SPSS进行主成分分析和因子分析进行主成分分析和因子分析l用用主主成成分分分分析析和和因因子子分分析析对对实实际际问问题题进进行行综合评价综合评价2008年8月11-5统计学统计学STATISTICS(第三版第三版)n n在在研研究究实实际际问问题题时时,往往往往需需要要收收集集多多个个变变量量。但但这这样样会会使使多多个个变变量量间间存存在在较较强强的的相相关关关关系系,即即这这些些变变量量间间存存在在较较多多的的信信息息重重复复,直直接接利利用用它它们们进进行行分分析析,不不但但模模型型复复杂杂,还还会会因因为为变变量量间间存存在在多多重重共共线线性性而而引引起起较较大的误差大的误差n

3、 n为为能能够够充充分分利利用用数数据据,通通常常希希望望用用较较少少的的新新变变量量代代替替原原来来较较多多的的旧旧变变量量,同同时时要要求求这这些些新新变变量量尽尽可可能能反反映映原变量的信息原变量的信息n n主主成成分分分分析析和和因因子子分分子子正正式式解解决决这这类类问问题题的的有有效效方方法法。它它们们能能够够提提取取信信息息,使使变变量量简简化化降降维维,从从而而使使问问题题更更加简单直观加简单直观主成分分析和因子分析主成分分析和因子分析(Principal Component Analysis&Factor Analysis)(Principal Component Analy

4、sis&Factor Analysis)2008年8月11-6统计学统计学STATISTICS(第三版第三版)因子分析得到的是什么?因子分析得到的是什么?因子分析方法在部分领域应用的一些例子因子分析方法在部分领域应用的一些例子l l心心心心理理理理学学学学:心心理理学学家家瑟瑟斯斯登登对对5656项项测测验验的的得得分分进进行行因因子子分分析析,得得出出了了7 7中中主主要要智智利利因因子子:词词语语理理解解能能力力,语语言言流流畅畅能能力力、计计数数能能力力、空空间间能能力力、记记忆忆力力、知知觉觉速速度度和和推推理理能力能力l l教教教教育育育育学学学学:某某师师范范大大学学在在对对以以幼

5、幼儿儿园园3 36 6岁岁幼幼儿儿为为对对象象,通通过过8080名名幼幼儿儿教教师师对对480480名名幼幼儿儿好好奇奇心心行行为为特特征征描描述述的的开开放放式式问问卷卷调调查查,编编制制出出6060个个项项目目的的初初始始问问卷卷,对对500500名名幼幼儿儿的的初初测测结结果果进进行行探探索索性性因因子子分分析析后后,形形成成了了3333个个项项目目的的正正式式问问卷卷,对对10001000名名幼幼儿儿的的评评价价结结果果进进行行验验证证性性因因子子分分析析,结结果果表表明明:教教师师评评价价的的3 36 6岁岁幼幼儿儿好好奇奇心心结结构构包包括括敏敏感感、对对未未知知事事物物的的关关注

6、注、好好问问、喜喜欢欢摆摆弄弄、探探索索持持久和好奇体验久和好奇体验6 6个因子个因子2008年8月11-7统计学统计学STATISTICS(第三版第三版)因子分析得到的是什么?因子分析得到的是什么?l医医医医学学学学:一一位位研研究究者者对对山山东东某某县县2000200020022002年年3 3年年的的全全死死因因调调查查资资料料中中不不同同地地区区各各恶恶性性肿肿瘤瘤标标化化死死亡亡率率进进行行因因子子分分析析后后发发现现,该该县县居居民民恶恶性性肿肿瘤瘤的的发发病病和和死死亡亡具具有有明明显显的的地地区区分分布布。在在地地区区分分布布中中,各各种种恶恶性性肿肿瘤瘤的的死死亡亡具具有有

7、一一定定程程度度的的聚聚集集性性。经经因因子子分分析析得得到到的的4 4个个主主因因子子可可以以解解释释1010种种恶恶性性肿肿瘤瘤死死亡亡率率的的74.5474.54;1010种种恶恶性性肿肿瘤瘤中中,被被解解释释的的比比例例最最小小也也在在6262以以上上;而而胃胃癌癌、白白血血病病、膀膀胱胱癌癌、乳乳腺腺癌癌、结结肠肠癌癌死死亡亡率率被被解解释释的的比比例例均均在在7777以以上上,表表明明这这1010种种恶恶性性肿肿瘤瘤之之间间存存在在中中等等偏偏强的内在联系和地区分布特点强的内在联系和地区分布特点2008年8月11-8统计学统计学STATISTICS(第三版第三版)因子分析得到的是什

8、么?因子分析得到的是什么?l l地地地地质质质质学学学学:海海南南岛岛的的石石绿绿铁铁矿矿及及外外围围地地区区有有透透辉辉石石透透闪闪岩岩石石和和阳阳起起石石两两种种岩岩石石。地地质质工工作作者者对对两两种种岩岩石石标标本本的的1111种种化化验验数数据据进进行行了了因因子子分分析析,分分别别得得到到5 5种种和和4 4种种主主要要因因子子。结结果果表表明明,透透辉辉石石透透闪闪岩岩石石与与阳阳起起石石有有明明显显区区别别,前前者者的的元元素素组组合合属属碳碳酸酸盐盐沉沉积积型型,后后者者属属岩岩浆浆分分异异型型。透透辉辉石石透透闪闪岩岩石石中中铁铁的的沉沉积积与与泥泥质质成成分分有有关关,属

9、属于于正正常常沉沉积积。由由此此推推断断石石绿绿铁铁矿矿的的主主要要成成矿矿为为沉沉积作用,并据此提出了找矿标志和找矿方向积作用,并据此提出了找矿标志和找矿方向l l上上上上市市市市公公公公司司司司评评评评价价价价:某某研研究究者者选选择择3535家家能能源源类类上上市市公公司司,根根据据20072007年年的的1212项项经经营营指指标标数数据据,采采用用因因子子分分析析法法分分别别按按盈盈利利能能力力、资资产产管管理理能能力力、偿偿债债能能力力及及经经营营业业绩绩综综合合评评分分等等方方面面对对3535家家上上市市公公司司进进行行了了排排名名。其其中中:盈盈利利能能力力排排在在前前5 5位

10、位的的是是:神神火火股股份份、海海油油工工程程、兰兰花花科科创创、潞潞安安环环能能和和中中国国石石油油;经经营营业业绩绩综综合合得得分分排排在在前前5 5位位的的是是:神神火火股股份份、潞潞安安环环能能、兰兰花花科科创创、海油工程和开滦股份海油工程和开滦股份2008年8月11.1 主成分分析主成分分析 11.1.1 主成分分析的基本原理主成分分析的基本原理 11.1.2 主成分分析的数学模型主成分分析的数学模型 11.1.3 主成分分析的步骤主成分分析的步骤第第 11 章章 主成分分析和因子分析主成分分析和因子分析2008年8月11.1.1 主成分分析的基本原理主成分分析的基本原理11.1 主

11、成分分析主成分分析2008年8月11-11统计学统计学STATISTICS(第三版第三版)n主成分的概念由主成分的概念由Karl PearsonKarl Pearson在在19011901年提出年提出n考察多个变量间相关性一种多元统计方法考察多个变量间相关性一种多元统计方法n研研 究究 如如 何何 通通 过过 少少 数数 几几 个个 主主 成成 分分(principal(principal component)component)来来解解释释多多个个变变量量间间的的内内部部结结构构。即即从从原原始始变变量量中中导导出出少少数数几几个个主主分分量量,使使它它们们尽尽可可能能多地保留原始变量的信息

12、,且彼此间互不相关多地保留原始变量的信息,且彼此间互不相关n主成分分析的目的:数据的压缩;数据的解释主成分分析的目的:数据的压缩;数据的解释l l常常被被用用来来寻寻找找判判断断事事物物或或现现象象的的综综合合指指标标,并并对对综综合指标所包含的信息进行适当的解释合指标所包含的信息进行适当的解释什么是主成分分析?什么是主成分分析?(principal component analysis)2008年8月11-12统计学统计学STATISTICS(第三版第三版)n n对对这这两两个个相相关关变变量量所所携携带带的的信信息息(在在统统计计上上信信息息往往往往是是指数据的变异指数据的变异)进行浓缩处

13、理进行浓缩处理n n假假定定只只有有两两个个变变量量x x1 1和和x x2 2,从从散散点点图图可可见见两两个个变变量量存存在相关关系,这意味着两个变量提供的信息有重叠在相关关系,这意味着两个变量提供的信息有重叠主成分分析的基本思想主成分分析的基本思想(以两个变量为例以两个变量为例)n n如如果果把把两两个个变变量量用用一一个个变变量量来来表表示示,同同时时这这一一个个新新的的变变量量又又尽尽可可能能包包含含原原来来的的两两个个变变量量的的信信息息,这这就就是是降降维维的的过程过程2008年8月11-13统计学统计学STATISTICS(第三版第三版)n n椭椭圆圆中中有有一一个个长长轴轴和

14、和一一个个短短轴轴,称称为为主主轴轴。在在长长轴轴方方向向,数数据据的变化明显较大,而短轴方向变化则较小的变化明显较大,而短轴方向变化则较小n n如如果果沿沿着着长长轴轴方方向向设设定定一一个个新新的的坐坐标标系系,则则新新产产生生的的两两个个变变量量和和原原始始变变量量间间存存在在一一定定的的数数学学换换算算关关系系,同同时时这这两两个个新新变变量量之之间彼此不相关,而且长轴变量携带了大部分的数据变化信息,间彼此不相关,而且长轴变量携带了大部分的数据变化信息,而而主成分分析的基本思想主成分分析的基本思想(以两个变量为例以两个变量为例)短短轴轴变变量量只只携携带带了了一一小小部分变化的信息部分

15、变化的信息(变异变异)n n此此时时,只只需需要要用用长长轴轴方方向向的的变变量量就就可可以以代代表表原原来来两两个个变变量量的的信信息息。这这样样也也就就把把原原来来的的两两个个变变量量降降维维成成了了一一个个变变量量。长长短短轴轴相相差差越越大大,降降维维也就越合理也就越合理2008年8月11-14统计学统计学STATISTICS(第三版第三版)n n多多维维变变量量的的情情形形类类似似,只只不不过过是是一一个个高高维维椭椭球球,无无法法直观地观察直观地观察n n每每个个变变量量都都有有一一个个坐坐标标轴轴,所所以以有有几几个个变变量量就就有有几几主主轴轴。首首先先把把椭椭球球的的各各个个

16、主主轴轴都都找找出出来来,再再用用代代表表大大多多数数数数据据信信息息的的最最长长的的几几个个轴轴作作为为新新变变量量,这这样样,降降维维过程也就完成了过程也就完成了主成分分析的基本思想主成分分析的基本思想(以两个变量为例以两个变量为例)n n找找出出的的这这些些新新变变量量是是原原来来变变量量的的线线性性组合,叫做主成分组合,叫做主成分2008年8月11.1.2 主成分分析的数学模型主成分分析的数学模型11.1 主成分分析主成分分析2008年8月11-16统计学统计学STATISTICS(第三版第三版)n n数数学学上上的的处处理理是是将将原原始始的的p p个个变变量量作作线线性性组组合合,

17、作作为为新新的的变量变量n n设设p p个个原原始始变变量量为为 ,新新的的变变量量(即即主主成成分分)为为 ,主成分和原始变量之间的关系表示为,主成分和原始变量之间的关系表示为主成分分析的数学模型主成分分析的数学模型主成分分析的数学模型主成分分析的数学模型主成分分析的数学模型主成分分析的数学模型a aij ij为为为为第第第第i i个个个个主主主主成成成成分分分分y yi i和和和和原原原原来来来来的的的的第第第第j j个个个个变变变变量量量量x xj j之之之之间间间间的的的的线线线线性性性性相相相相关关关关系系系系数数数数,称称称称为为为为载载载载荷荷荷荷(loading)(loadin

18、g)。比比比比 如如如如,a a1111表表表表示示示示第第第第1 1主主主主成成成成分分分分和和和和原原原原来来来来的的的的第第第第1 1个个个个变变变变量量量量之之之之间间间间的的的的相相相相关关关关系系系系数数数数,a a2121表表表表示示示示第第第第2 2主主主主成成成成分分分分和和和和原原原原来来来来的的的的第第第第1 1个个个个变变变变量量量量之之之之间的相关系数间的相关系数间的相关系数间的相关系数2008年8月11-17统计学统计学STATISTICS(第三版第三版)n选择几个主成分?选择几个主成分?选择标准是什么?选择标准是什么?n被被选选的的主主成成分分所所代代表表的的主主

19、轴轴的的长长度度之之和和占占了了主主轴轴总程度之和的大部分总程度之和的大部分n在在统统计计上上,主主成成分分所所代代表表的的原原始始变变量量的的信信息息用用其其方方差差来来表表示示。因因此此,所所选选择择的的第第一一个个主主成成分分是是所所有主成分中的方差最大者,即有主成分中的方差最大者,即Var(yVar(yi i)最大最大n如如果果第第一一个个主主成成分分不不足足以以代代表表原原来来的的个个变变量量,在在考虑选择第二个主成分,依次类推考虑选择第二个主成分,依次类推n这些主成分互不相关,且方差递减这些主成分互不相关,且方差递减主成分的选择主成分的选择2008年8月11-18统计学统计学STA

20、TISTICS(第三版第三版)n究竟选择几个主成分才合适呢?究竟选择几个主成分才合适呢?n一一般般要要求求所所选选主主成成分分的的方方差差总总和和占占全全部部方方差差的的80%80%以以上上就就可可以以了了。当当然然,这这只只是是一一个个大大体体标标准准,具体选择几个要看实际情况具体选择几个要看实际情况n如如果果原原来来的的变变量量之之间间的的相相关关程程度度高高,降降维维的的效效果果就就会会好好一一些些,所所选选的的主主成成分分就就会会少少一一些些,如如果果原原来来的的变变量量之之间间本本身身就就不不怎怎么么相相关关,降降维维的的效效果果自自然就不好然就不好n不相关的变量就只能自己代表自己了

21、不相关的变量就只能自己代表自己了主成分的选择主成分的选择2008年8月11.1.3 主成分分析的步骤主成分分析的步骤11.1 主成分分析主成分分析2008年8月11-20统计学统计学STATISTICS(第三版第三版)n对原来的p个指标进行标准化,以消除变量在水平和量纲上的影响n根据标准化后的数据矩阵求出相关系数矩阵n求出协方差矩阵的特征根和特征向量n确定主成分,并对各主成分所包含的信息给予适当的解释主成分分析的步骤主成分分析的步骤2008年8月11-21统计学统计学STATISTICS(第三版第三版)【例例】根据我国31个省市自治区2006年的6项主要经济指标数据,进行主成分分析,找出主成分

22、并进行适当的解释主成分分析主成分分析(实例分析实例分析)3131个地区的个地区的个地区的个地区的6 6项经济指标项经济指标项经济指标项经济指标2008年8月11-22统计学统计学STATISTICS(第三版第三版)第第第第1 1步步步步 选择【选择【AnalyzeAnalyze】下拉菜单,并选择【】下拉菜单,并选择【Data Reduction-Data Reduction-Factor Factor】,进入主对话框】,进入主对话框第第第第2 2步步步步 在主对话框中将所有原始变量选入【在主对话框中将所有原始变量选入【VariablesVariables】第第第第3 3步步步步 点击【点击【D

23、escriptivesDescriptives】,在【】,在【correlation Matrixcorrelation Matrix】下选择】下选择 【CoefficirntsCoefficirnts】,点击【】,点击【ContinueContinue】回到主对话框】回到主对话框第第第第4 4步步步步 点击【点击【ExtractionExtraction】,在【】,在【DisplayDisplay】下选择【】下选择【Scree Scree Plot Plot】,点击【】,点击【ContinueContinue】回到主对话框】回到主对话框第第第第5 5步步步步 点击【点击【RotationRo

24、tation】,在【】,在【DisplayDisplay】下选择【】下选择【Loading Loading Plot Plot】,点击【】,点击【ContinueContinue】回到主对话框】回到主对话框 点击【点击【OKOK】用用SPSS进行主成分分析进行主成分分析 用用用用SPSSSPSS进行主成分分析进行主成分分析进行主成分分析进行主成分分析2008年8月11-23统计学统计学STATISTICS(第三版第三版)SPSS的输出结果的输出结果各变量之间的相关系数矩阵各变量之间的相关系数矩阵各变量之间的相关系数矩阵各变量之间的相关系数矩阵变量之间的存在较强的相关关系,适合作主成分分析变量之

25、间的存在较强的相关关系,适合作主成分分析 2008年8月11-24统计学统计学STATISTICS(第三版第三版)SPSS的输出结果的输出结果(选择主成分选择主成分)各主成分所解释的原始变量的方差各主成分所解释的原始变量的方差各主成分所解释的原始变量的方差各主成分所解释的原始变量的方差该表是选则主成分的主要依据该表是选则主成分的主要依据2008年8月11-25统计学统计学STATISTICS(第三版第三版)n n“Initial Initial EigenvaluesEigenvalues”(初始特征根初始特征根)l l实际上就是本例中的实际上就是本例中的6 6个主轴的长度个主轴的长度l l特

26、特征征根根反反映映了了主主成成分分对对原原始始变变量量的的影影响响程程度度,表表示示引引入入该主成分后可以解释原始变量的信息该主成分后可以解释原始变量的信息l l特特征征根根又又叫叫方方方方差差差差,某某个个特特征征根根占占总总特特征征根根的的比比例例称称为为为为主主主主成分方差贡献率成分方差贡献率成分方差贡献率成分方差贡献率l l设特征根为设特征根为,则第,则第i i个主成分的方差贡献率为个主成分的方差贡献率为l l比比如如,第第一一个个主主成成分分的的特特征征根根为为3.9633.963,占占总总特特征征根根的的的的比比例例(方方差差贡贡献献率率)为为66.052%66.052%,这这表表

27、示示第第一一个个主主成成分分解解释释了了原原始始6 6个个变变量量66.052%66.052%的的信信息息,可可见见第第一一个个主主成成分分对对原原来的来的6 6个变量解释的已经很充分了个变量解释的已经很充分了根据什么选择主成分?根据什么选择主成分?2008年8月11-26统计学统计学STATISTICS(第三版第三版)n n根据主成分贡献率根据主成分贡献率l l一一般般来来说说,主主成成分分的的累累计计方方差差贡贡献献率率达达到到80%80%以以上上的的前前几个主成分,都可以选作最后的主成分几个主成分,都可以选作最后的主成分l l比如表比如表13.313.3中前两个主成分的累计方差贡献率为中

28、前两个主成分的累计方差贡献率为95.57%95.57%n n根据特特征根的大小根据特特征根的大小l l一一般般情情况况下下,当当特特征征根根小小于于1 1时时,就就不不再再选选作作主主成成分分了了,因因为为该该主主成成分分的的解解释释力力度度还还不不如如直直接接用用原原始始变变量量解解的的释释力度大力度大l l比比如如表表13.313.3中中除除前前两两个个外外,其其他他主主成成分分的的特特征征根根都都小小于于1 1。所以。所以SPSSSPSS只选择了两个主成分只选择了两个主成分l l就就本本例例而而言言,两两个个主主成成分分就就足足以以说说明明各各地地区区的的经经济济发发展展状况了状况了根据

29、什么选择主成分?根据什么选择主成分?2008年8月11-27统计学统计学STATISTICS(第三版第三版)nSPSS还还提提供供了了一一个个更更为为直直观观的的图图形形工工具具来来帮帮助助选选择择主主成成分分,即即碎碎石石图图(Scree Plot)n从从碎碎石石图图可可以以看看到到6个个主轴长度变化的趋势主轴长度变化的趋势n实实践践中中,通通常常结结合合具具体体情情况况,选选择择碎碎石石图图中中变变化化趋趋势势出出现现拐拐点点的的前前几几个个主主成成分分作作为为原原先先变变量量的的代代表表,该该例例中中选选择择前前两个主成分即可两个主成分即可根据什么选择主成分?根据什么选择主成分?(Scr

30、ee Plot)拐点拐点拐点拐点2008年8月11-28统计学统计学STATISTICS(第三版第三版)怎样解释主成分?怎样解释主成分?主成分的因子载荷矩阵主成分的因子载荷矩阵主成分的因子载荷矩阵主成分的因子载荷矩阵 l表表1中中的的每每一一列列表表示示一一个个主主成成分分作作为为原原来来变变量量线线性性组组合合的的系系数数,也也就就是是主成分分析模型中的系数主成分分析模型中的系数aijl比比如如,第第一一主主成成分分所所在在列列的的系系数数0.670表表示示第第1个个主主成成分分和和原原来来的的第第一一个个变变量量(人人均均GDP)之之间间的的线线性性相相关关系系数数。这这个个系系数数越越大

31、大,说说明明主主成成分分对对该该变量的代表性就越大变量的代表性就越大2008年8月11-29统计学统计学STATISTICS(第三版第三版)n根据主成分分析模型和因子载荷,可以得到两个主成分与原来6个变量之间的线性组合表达式如下 怎样解释主成分?怎样解释主成分?(主成分与原始变量的关系主成分与原始变量的关系)注意:表达式中的不是原始变量,而是标准化变量注意:表达式中的不是原始变量,而是标准化变量注意:表达式中的不是原始变量,而是标准化变量注意:表达式中的不是原始变量,而是标准化变量2008年8月11-30统计学统计学STATISTICS(第三版第三版)n载载荷荷图图(Loading Plot)

32、直直观观显显示示主成分对原始主成分对原始6变量的解释情况变量的解释情况n图图中中横横轴轴表表示示第第一一个个主主成成分分与与原原始始变变量量间间的的相相关关系系数数;纵纵轴轴表表示示第第二二个个主主成成分分与与原原始始变变量量之之间间的的相关系数相关系数n每每一一个个变变量量对对应应的的主主成成分分载载荷荷就就对对应应坐坐标标系系中中的的一一个个点点,比比如如,人人 均均 GDP变变 量量 对对 应应 的的 点点 是是(0.670,0.725)n第第一一个个主主成成分分很很充充分分地地解解释释了了原原始始的的6个个变变量量(与与每每个个原原始始变变量量都都有有较较强强的的正正相相关关关关系系)

33、,第第二二个个主主成成分分则则较较好好地地解解释释了了居居民民消消费费水水平平、人人均均GDP和和年年末末总总人人口口这这3个个变变量量(与与它它们们的的相相关关关关系系较较高高),而而与与其其他他变变量量的的关关系系则则较较弱弱(相关系数的点靠近坐标轴相关系数的点靠近坐标轴)怎样解释主成分?怎样解释主成分?(Loading Plot)相相相相关关关关系系系系数数数数的的的的点点点点越越越越远远远远离离离离坐坐坐坐标标标标轴轴轴轴,主主主主成成成成分分分分对对对对原原原原始始始始变变变变量量量量的的的的代代代代表表表表性性性性就就就就越越越越大大大大。这这这这3 3个个个个点点点点远远远远离离

34、离离主主主主成成成成分分分分2 2的坐标的坐标的坐标的坐标2008年8月11.2 因子分析因子分析 11.2.1 因子分析的意义和数学模型因子分析的意义和数学模型 11.2.2 因子分析的步骤因子分析的步骤 11.2.3 因子分析的应用因子分析的应用第第 11 章章 主成分分析和因子分析主成分分析和因子分析2008年8月11.2.1 因子分析的意义和数学模型因子分析的意义和数学模型11.2 因子分析因子分析2008年8月11-33统计学统计学STATISTICS(第三版第三版)n n由由Charles SpearmanCharles Spearman于于19041904年首次提出的年首次提出的

35、n n与与主主成成分分分分析析类类似似,它它们们都都是是要要找找出出少少数数几几个个新新的的变量来代替原始变量变量来代替原始变量n n不不同同之之处处:主主成成分分分分析析中中的的主主成成分分个个数数与与原原始始变变量量个个数数是是一一样样的的,即即有有几几个个变变量量就就有有几几个个主主成成分分,只只不不过过最最后后我我们们确确定定了了少少数数几几个个主主成成分分而而已已。而而因因子子分分析析则则需需要要事事先先确确定定要要找找几几个个成成分分,也也称称为为因因子子(factor)(factor),然然后后将将原原始始变变量量综综合合为为少少数数的的几几个个因因子子,以以再再现现原原始始变变

36、量量与与因因子子之之间间的的关关系系,一一般般来来说说,因因子的个数会远远少于原始变量的个数子的个数会远远少于原始变量的个数什么是因子分析?什么是因子分析?(factor analysis)2008年8月11-34统计学统计学STATISTICS(第三版第三版)n n因因子子分分析析可可以以看看作作是是主主成成分分分分析析的的推推广广和和扩扩展展,但但它它对对问问题题的的研研究究更更深深入入、更更细细致致一一些些。实实际际上上,主主成分分析可以看作是因子分析的一个特例成分分析可以看作是因子分析的一个特例n n简简言言之之,因因子子分分析析是是通通过过对对变变量量之之间间关关系系的的研研究究,找

37、找出出能能综综合合原原始始变变量量的的少少数数几几个个因因子子,使使得得少少数数因因子子能能够够反反映映原原始始变变量量的的绝绝大大部部分分信信息息,然然后后根根据据相相关关性性的的大大小小将将原原始始变变量量分分组组,使使得得组组内内的的变变量量之之间间相相关关性性较较高高,而而不不同同组组的的变变量量之之间间相相关关性性较较低低。因因此此,因因子子分分析析属属于于多多元元统统计计中中处处理理降降维维的的一一种种统统计计方方法法,其其目目的的就就是是要要减减少少变变量量的的个个数数,用用少少数数因因子子代表多个原始变量代表多个原始变量什么是因子分析?什么是因子分析?(factor analy

38、sis)2008年8月11-35统计学统计学STATISTICS(第三版第三版)n因因变变量量和和因因子子个个数数的的不不一一致致,使使得得不不仅仅在在数数学学模模型型上上,而而且且在在实实际际求求解解过过程程中中,因因子子分分析析和和主主成成分分分分析析都都有有着着一一定定的的区区别别,计计算算上上因因子子分分析析更更为为复杂复杂n因因子子分分析析可可能能存存在在的的一一个个优优点点是是:在在对对主主成成分分和和原原始始变变量量之之间间的的关关系系进进行行描描述述时时,如如果果主主成成分分的的直直观观意意义义比比较较模模糊糊不不易易解解释释,主主成成分分分分析析没没有有更更好好的的改改进进方

39、方法法;因因子子分分析析则则额额外外提提供供了了“因因子子旋旋转转(factor(factor rotation)”rotation)”这这样样一一个个步步骤骤,可可以以使使分分析析结果尽可能达到易于解释且更为合理的目的结果尽可能达到易于解释且更为合理的目的因子分析的数学模型因子分析的数学模型2008年8月11-36统计学统计学STATISTICS(第三版第三版)n n原始的原始的p p个变量表达为个变量表达为k k个因子的线性组合变量个因子的线性组合变量n n设设p p个个原原始始变变量量为为 ,要要寻寻找找的的k k个个因因子子(k k p p)为为 ,主成分和原始变量之间的关系表示为,主

40、成分和原始变量之间的关系表示为因子分析的数学模型因子分析的数学模型因子分析的数学模型因子分析的数学模型因子分析的数学模型因子分析的数学模型系系系系数数数数a aij ij为为为为第第第第个个个个i i变变变变量量量量与与与与第第第第k k个个个个因因因因子子子子之之之之间间间间的的的的线线线线性性性性相相相相关关关关系系系系数数数数,反反反反映映映映变变变变量量量量与与与与因因因因子子子子之之之之间间间间的的的的相相相相关关关关 程程程程 度度度度,也也也也 称称称称 为为为为 载载载载 荷荷荷荷(loading)(loading)。由由由由于于于于因因因因子子子子出出出出现现现现在在在在每每

41、每每个个个个原原原原始始始始变变变变量量量量与与与与因因因因子子子子的的的的线线线线性性性性组组组组合合合合中中中中,因因因因此此此此也也也也称称称称为为为为公公公公因因因因子子子子。为为为为特特特特殊殊殊殊因因因因子子子子,代代代代表公因子以外的因素影响表公因子以外的因素影响表公因子以外的因素影响表公因子以外的因素影响2008年8月11-37统计学统计学STATISTICS(第三版第三版)n共同度量(Communality)n因子的方差贡献率 因子分析的数学模型因子分析的数学模型(共同度量共同度量共同度量共同度量CommunalityCommunality和公因子的方差贡献率和公因子的方差贡

42、献率和公因子的方差贡献率和公因子的方差贡献率 )变变变变量量量量x xi i的的的的信信信信息息息息能能能能够够够够被被被被k k个个个个公公公公因因因因子子子子解解解解释释释释的的的的程程程程度度度度,用用用用 k k个个个个公公公公因因因因子子子子对对对对第第第第i i个个个个变变变变量量量量x xi i的方差贡献率表示的方差贡献率表示的方差贡献率表示的方差贡献率表示第第第第j j个个个个公公公公因因因因子子子子对对对对变变变变量量量量x xi i的的的的提提提提供供供供的的的的方方方方差差差差总总总总和和和和,反反反反映映映映第第第第j j个个个个公公公公因因因因子子子子的的的的相相相相

43、对对对对重重重重要要要要程度程度程度程度2008年8月11.2.2 因子分析的步骤因子分析的步骤11.2 因子分析因子分析2008年8月11-39统计学统计学STATISTICS(第三版第三版)n n因子分析要求样本的个数要足够多因子分析要求样本的个数要足够多l l一一般般要要求求样样本本的的个个数数至至少少是是变变量量的的5 5倍倍以以上上。同同时时,样样本本总数据量理论要求应该在总数据量理论要求应该在100100以上以上n n用于因子分析的变量必须是相关的用于因子分析的变量必须是相关的l l如如果果原原始始变变量量都都是是独独立立的的,意意味味着着每每个个变变量量的的作作用用都都是是不不可

44、替代的,则无法降维可替代的,则无法降维n n检验方法检验方法l l计计算算各各变变量量之之间间的的相相关关矩矩阵阵,观观察察各各相相关关系系数数。若若相相关关矩矩阵中的大部分相关系数小于阵中的大部分相关系数小于0.30.3,则不适合作因子分析,则不适合作因子分析l l使使用用Kaiser-Meyer-Kaiser-Meyer-OlkinOlkin检检验验(简简称称KMOKMO检检验验)和和 BartlettBartlett球球度度检检验验(Bartletts Bartletts test test of of sphericitysphericity)来来判判断断(SPSS(SPSS将将两种检

45、验统称为两种检验统称为“KMO and Bartletts test of KMO and Bartletts test of sphericitysphericity”)”)因子分析的步骤因子分析的步骤(数据检验数据检验)2008年8月11-40统计学统计学STATISTICS(第三版第三版)n nBartlettBartlett球度检验球度检验l l以以变变量量的的相相关关系系数数矩矩阵阵为为基基础础,假假设设相相关关系系数数矩矩阵阵是是单单位位阵阵(对对角角线线元元素素不不为为0 0,非非对对角角线线元元素素均均为为0)0)。如如果果相相关关矩矩阵是单位阵,则各变量是独立的,无法进行因子

46、分析阵是单位阵,则各变量是独立的,无法进行因子分析n nKMOKMO检验检验l l用用于于检检验验变变量量间间的的偏偏相相关关性性,KMOKMO统统计计量量的的取取值值在在0 01 1之间之间l l如如果果统统计计量量取取值值越越接接近近1 1,变变量量间间的的偏偏相相关关性性越越强强,因因子子分析的效果就越好分析的效果就越好l lKMOKMO统统计计量量在在0.70.7以以上上时时,因因子子分分析析效效果果较较好好;KMOKMO统统计计量在量在0.50.5以下时,因子分析效果很差以下时,因子分析效果很差因子分析的步骤因子分析的步骤(数据检验数据检验)2008年8月11-41统计学统计学STA

47、TISTICS(第三版第三版)n nPrincipal Principal components(components(主主主主成成成成分分分分法法法法):多多数数情情况况下下可可以以使使用用该该方方法法(这这也也是是SPSSSPSS的的默默认认选选项项)。通通过过主主成成分分分分析析的的思思想想提提取取公因子,它假设变量是因子的线性组合公因子,它假设变量是因子的线性组合n nUnweightUnweight Least Least Square(Square(不不不不加加加加权权权权最最最最小小小小平平平平方方方方法法法法):该该方方法法使使实实际际的相关矩阵和再生的相关矩阵之差的平方和达到

48、最小的相关矩阵和再生的相关矩阵之差的平方和达到最小n nGeneralized Generalized Least Least Square(Square(加加加加权权权权最最最最小小小小平平平平方方方方法法法法):用用变变量量值值进进行行加加权权,该该方方法法也也是是使使实实际际的的相相关关矩矩阵阵和和再再生生的的相相关关矩矩阵阵之之差差的的平方和达到最小平方和达到最小n nMaximum Maximum Likelihood(Likelihood(最最最最大大大大似似似似然然然然法法法法):该该方方法法不不要要求求数数据据服服从从正态分布,在样本量较大时使用较好正态分布,在样本量较大时使用

49、较好n nPrincipal Principal Axis Axis Factoring(Factoring(主主主主轴轴轴轴因因因因子子子子法法法法):该该方方法法从从原原始始变变量量的相关性出发,使得变量间的相关程度尽可能地被公因子解释的相关性出发,使得变量间的相关程度尽可能地被公因子解释因子分析的步骤因子分析的步骤(因子提取因子提取)2008年8月11-42统计学统计学STATISTICS(第三版第三版)n因子数量的确定l l用用公公因因子子方方差差贡贡献献率率提提取取:与与主主成成分分分分析析类类似似,一一般般累累计计方方差差贡贡献献率率达达到到80%80%以以上上的的前前几几个个因因

50、子子可以作为最后的公因子可以作为最后的公因子l l用用特特征征根根提提取取:一一般般要要求求因因子子对对应应的的特特征征根根要要大大于于1 1,因因为为特特征征根根小小于于1 1说说明明该该共共因因子子的的解解释释力力度度太弱,还不如使用原始变量的解释力度大太弱,还不如使用原始变量的解释力度大n实际应用中,因子的提取要结合具体问题而定,在某种程度上,取决于研究者自身的知识和经验 因子分析的步骤因子分析的步骤(因子提取因子提取)2008年8月11-43统计学统计学STATISTICS(第三版第三版)n因子命名是因子分析重要一步l l一一个个因因子子包包含含了了多多个个原原始始变变量量的的信信息息

51、,它它究究竟反映了原始变量的哪些共同信息?竟反映了原始变量的哪些共同信息?l l因因子子分分析析得得到到的的因因子子的的含含义义是是模模糊糊的的,需需要要重新命名,以便对研究的问题作出合理解释重新命名,以便对研究的问题作出合理解释l l可可通通过过考考察察观观察察因因子子载载荷荷矩矩阵阵并并结结合合实实际际问问题完成题完成l l命命名名已已经经不不是是统统计计问问题题。它它需需要要研研究究者者自自身身的的专专业业素素质质和和对对实实际际问问题题背背景景的的了了解解程程度度,这需要更多的实践经验这需要更多的实践经验因子分析的步骤因子分析的步骤(因子命名因子命名)2008年8月11-44统计学统计

52、学STATISTICS(第三版第三版)n观察因子载荷矩阵观察因子载荷矩阵l l如如果果因因子子载载荷荷a aij ij的的绝绝对对值值在在第第i i行行的的多多个个列列上上都都有有较较大大的的取取值值(通通常常大大于于0.5)0.5),表表明明原原始始变变量量与与多多个个因因子子都都有有较较大大的的相相关关关关系系,意意味味着着原原始始变变量量x xi i需需要要由由多多个个因子来共同解释因子来共同解释l l如如果果因因子子载载荷荷a aij ij的的绝绝对对值值在在第第j j列列的的多多个个行行上上都都有有较较大大的的取取值值,则则表表因因子子f fi i能能共共同同解解释释许许多多变变量量

53、的的信信息息,而而对对每每个个原原始始变变量量只只能能解解释释其其中中的的少少部部分分信信息息,表表明明因因子子不不能能有有效效代代表表任任何何一一个个原原始始变变量量,因因子子的的含含义义模模糊不清,难以对因子给出一个合理的解释糊不清,难以对因子给出一个合理的解释l l需要进行因子旋转,以便得到更加合理的解释需要进行因子旋转,以便得到更加合理的解释因子分析的步骤因子分析的步骤(因子命名因子命名)2008年8月11-45统计学统计学STATISTICS(第三版第三版)n因因子子旋旋转转(factor(factor rotation)rotation)的的目目的的是是使使因因子子的的含含义义更加

54、清楚,以便于对因子的命名和解释更加清楚,以便于对因子的命名和解释n旋转的方法有正交旋转和斜交旋转两种旋转的方法有正交旋转和斜交旋转两种l l正正交交旋旋转转是是指指坐坐标标轴轴始始终终保保持持垂垂直直9090度度旋旋转转,这这样样新生成的因子仍可保持不相关新生成的因子仍可保持不相关l l斜斜交交旋旋转转坐坐标标轴轴的的夹夹角角可可以以是是任任意意的的,因因此此新新生生成成的的因因子子不不能能保保证证不不相相关关。因因此此实实际际应应用用中中更更多多地地使使用用正正交旋转交旋转l lSPSSSPSS提提供供5 5种种旋旋转转方方法法,其其中中最最常常用用的的是是VarimaxVarimax(方差

55、最大正交旋转方差最大正交旋转)法法因子分析的步骤因子分析的步骤(因子命名因子命名旋转旋转)2008年8月11-46统计学统计学STATISTICS(第三版第三版)n nVarimaxVarimax(方方方方差差差差最最最最大大大大正正正正交交交交旋旋旋旋转转转转):最最常常用用的的旋旋转转方方法法。使使各各因因子子保保持持正正交交状状态态,但但尽尽量量使使各各因因子子的的方方法法达达到到最最大大,即相对的载荷平方和达到最大,从而方便对因子的解释即相对的载荷平方和达到最大,从而方便对因子的解释n nQuartimaxQuartimax(四四四四次次次次方方方方最最最最大大大大正正正正交交交交旋旋

56、旋旋转转转转):该该方方法法倾倾向向于于减减少少和和每个变量有关的因子数,从而简化对原变量的解释每个变量有关的因子数,从而简化对原变量的解释n nEquamaxEquamax(平平平平方方方方最最最最大大大大正正正正交交交交旋旋旋旋转转转转):该该方方法法介介于于方方差差最最大大正正交旋转和四次方最大正交旋转之间交旋转和四次方最大正交旋转之间n nDirect Direct ObliminOblimin(斜斜斜斜交交交交旋旋旋旋转转转转):该该方方法法需需要要事事先先指指定定一一个个因因子映像的自相关范围子映像的自相关范围n nPromaxPromax:该该方方法法在在方方差差最最大大正正交交

57、旋旋转转的的基基础础上上进进行行斜斜交交旋转旋转因子分析的步骤因子分析的步骤(因子命名因子命名旋转旋转)2008年8月11-47统计学统计学STATISTICS(第三版第三版)n因子得分(factor score)是每个因子在每个样本上的具体取值,它由下列因子得分函数给出因子分析的步骤因子分析的步骤(计算因子得分计算因子得分)因子得分函数因子得分函数因子得分函数因子得分函数因因因因子子子子得得得得分分分分是是是是各各各各变变变变量量量量的线性组合的线性组合的线性组合的线性组合 2008年8月11.2.3 因子分析的应用因子分析的应用11.2 因子分析因子分析2008年8月11-49统计学统计学

58、STATISTICS(第三版第三版)【例例】根据我国31个省市自治区2006年的6项主要经济指标数据,进行因子分析,对因子进行命名和解释,并计算因子得分和排序因子分析因子分析(实例分析实例分析)3131个地区个地区个地区个地区6 6项经济指标的因子分析项经济指标的因子分析项经济指标的因子分析项经济指标的因子分析2008年8月11-50统计学统计学STATISTICS(第三版第三版)用用SPSS进行因子分析进行因子分析第第第第1 1步步步步 选择【选择【AnalyzeAnalyze】【Data Reduction-Data Reduction-FactorFactor】主对话框。将所主对话框。将

59、所 有原始变量选入【有原始变量选入【VariablesVariables】第第第第2 2步步步步 点击【点击【DescriptivesDescriptives】【correlation Matrixcorrelation Matrix】【KMO and KMO and Bartletts test of sphericity Bartletts test of sphericity】(其他选项根据需要其他选项根据需要)【ContinueContinue】第第第第3 3步步步步 点击【点击【ExtractionExtraction】,在【】,在【MethodMethod】框中选择因子的提取方法】

60、框中选择因子的提取方法(本例本例 使用隐含的使用隐含的Principal components)Principal components);在【;在【ExtractExtract】中输入选择因子】中输入选择因子 的最小特征根的最小特征根(隐含的是特征根大于隐含的是特征根大于1)1);在【;在【DisplayDisplay】下选择】下选择 【Scree PlotScree Plot】【ContinueContinue】第第第第4 4步步步步 点击【点击【RotationRotation】,在【】,在【MethodMethod】框中选择因子旋转方法】框中选择因子旋转方法(隐含的不隐含的不 旋转,本

61、例选择【旋转,本例选择【VarimaxVarimax】);在【;在【DisplayDisplay】下选择【】下选择【Loading Loading Plot Plot】【ContinueContinue】第第第第5 5步步步步 点击【点击【ScoresScores】,并选中【】,并选中【Display factor Score coefficient Display factor Score coefficient matrix matrix】(SPSS(SPSS隐含的估计因子得分系数的方法是隐含的估计因子得分系数的方法是Regression)Regression)【ContinueConti

62、nue】【OKOK】用用用用SPSSSPSS进行因子分析进行因子分析进行因子分析进行因子分析2008年8月11-51统计学统计学STATISTICS(第三版第三版)数据的相关性检验数据的相关性检验数据的相关性检验数据的相关性检验因子分析因子分析(实例分析实例分析)KMO检验和检验和Bartlett球度检验球度检验 BartlettBartlett球球球球度度度度检检检检验验验验统统统统计计计计量量量量为为为为277.025277.025。检检检检验验验验的的的的P P值值值值接接接接近近近近0 0。表表表表明明明明6 6个个个个变变变变量量量量之之之之间间间间有有有有较较较较强强强强的的的的相

63、相相相关关关关关关关关系系系系。而而而而KMOKMO统统统统计量为计量为计量为计量为0.6950.695,接近,接近,接近,接近0.70.7。适合作因子分析。适合作因子分析。适合作因子分析。适合作因子分析 2008年8月11-52统计学统计学STATISTICS(第三版第三版)共同度量共同度量共同度量共同度量 因子分析因子分析(实例分析实例分析)变量共同度量变量共同度量 所所所所有有有有变变变变量量量量的的的的共共共共同同同同度度度度量量量量都都都都在在在在80%80%以以以以上上上上,因因因因此此此此,提提提提取取取取出出出出的的的的公因子对原始变量的解释能力应该是很强的公因子对原始变量的解

64、释能力应该是很强的公因子对原始变量的解释能力应该是很强的公因子对原始变量的解释能力应该是很强的 2008年8月11-53统计学统计学STATISTICS(第三版第三版)因子方差贡献率因子方差贡献率因子方差贡献率因子方差贡献率 因子分析因子分析(实例分析实例分析)各因子所解释的原始变量的方差各因子所解释的原始变量的方差 除除除除最最最最后后后后3 3列列列列外外外外,其其其其余余余余部部部部分分分分与与与与主主主主成成成成分分分分分分分分析析析析中中中中的的的的表表表表相相相相同同同同。“Rotation“Rotation Sums Sums of of Squared Squared Load

65、ings”Loadings”部部部部分分分分是是是是因因因因子子子子旋旋旋旋转转转转后后后后对对对对原原原原始始始始变变变变量量量量方方方方差差差差的的的的解解解解释释释释情情情情况况况况。旋旋旋旋转转转转后后后后的的的的累计方差没有改变,只是两个因子所解释的原始变量的方差发生了一些变化。累计方差没有改变,只是两个因子所解释的原始变量的方差发生了一些变化。累计方差没有改变,只是两个因子所解释的原始变量的方差发生了一些变化。累计方差没有改变,只是两个因子所解释的原始变量的方差发生了一些变化。2008年8月11-54统计学统计学STATISTICS(第三版第三版)VarimaxVarimax法得到

66、的旋转后的因子载荷矩阵法得到的旋转后的因子载荷矩阵法得到的旋转后的因子载荷矩阵法得到的旋转后的因子载荷矩阵 因子分析因子分析(实例分析实例分析)旋转后的因子载荷矩阵旋转后的因子载荷矩阵 第第第第一一一一个个个个因因因因子子子子与与与与年年年年末末末末总总总总人人人人口口口口、固固固固定定定定资资资资产产产产投投投投资资资资、社社社社会会会会消消消消费费费费品品品品零零零零售售售售总总总总额额额额、财财财财政政政政收收收收入入入入这这这这几几几几个个个个载载载载荷荷荷荷系系系系数数数数较较较较大大大大,主主主主要要要要解解解解释释释释了了了了这这这这几几几几个个个个变变变变量量量量。从从从从实实实实际际际际意意意意义义义义上上上上看看看看,可可可可以以以以把把把把因因因因子子子子1 1姑姑姑姑且且且且命命命命名名名名为为为为“经经经经济济济济水水水水平平平平”因因因因子子子子。而而而而第第第第二二二二个个个个因因因因子子子子与与与与人人人人均均均均GDPGDP、居居居居民民民民消消消消水水水水平平平平这这这这两两两两个个个个变变变变量量量量的的的的载载载载荷荷荷荷系系系系数数数数较较较较

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!