浅谈主成分分析与因子分析基本思想主要性质应用举例计算步骤主要区别

上传人:痛*** 文档编号:124948264 上传时间:2022-07-25 格式:DOC 页数:13 大小:677.51KB
收藏 版权申诉 举报 下载
浅谈主成分分析与因子分析基本思想主要性质应用举例计算步骤主要区别_第1页
第1页 / 共13页
浅谈主成分分析与因子分析基本思想主要性质应用举例计算步骤主要区别_第2页
第2页 / 共13页
浅谈主成分分析与因子分析基本思想主要性质应用举例计算步骤主要区别_第3页
第3页 / 共13页
资源描述:

《浅谈主成分分析与因子分析基本思想主要性质应用举例计算步骤主要区别》由会员分享,可在线阅读,更多相关《浅谈主成分分析与因子分析基本思想主要性质应用举例计算步骤主要区别(13页珍藏版)》请在装配图网上搜索。

1、浅谈主成分分析与因子分析1、主成分分析主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标,同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来指标的信息。这种将多个指标化为少数互相无关的综合指标的统计方法叫做主成分分析,也是数学上处理降维的一种方法。主成分分析的一般目的是:(1)变量的降维;(2)主成分的解释。 1.1基本思想主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综

2、合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,第P个主成分。这些主成分不仅不相关,而且他们的方差依次递减。1.2计算步骤设有n个样品,每个样品观测P个指标,将原始数据写成矩阵。(1)将原始数据标准化,即将每个指标的原始数据减去这个指标的均值后,再除以这个指标的标准差

3、。(2)建立变量的相关系数阵:。(3)求R的特征根及相应的单位特征向量。在解决实际问题时,一般不是取p个主成分,而是根据累计贡献率的大小取前k个,称第一主成分的贡献率为,这个值越大,表明第一主成分综合信息的能力越强。前k个主成分的累计贡献率达到85%,表明取前k个主成分基本包含了全部测量指标所具有的信息。1.3算法原理(1)对资料阵标准化,得其中 i=1,2n, j=1,2,P。(2)求出相关矩阵式中i为标本编号,j,k=1,2,P。其中,。此相关矩阵为一对称矩阵,所以在下面的计算中取上三角阵R上=(3)求出R上的特征及特征向量。求R上矩阵的特征值及特征向量有许多方法,特征方程法、迭代法等(4

4、)求出主成分。将求出的特征值按大小依次排列,使得,根据原则确定m,并依次排列特征向量就可得出我们所需的主成分。14主要性质主成分性质主要包括以下几点:(1)设个维随机向量X1,X2.Xp协方差矩阵为,的特征值为12p,相应的单位特征向量为:则的主成分可表示为:Fi=iX=i1X1+i2X2+ipXp, i=1,2,p记i=(i1,i2,ip)T(2)个主成分均值为,且个主成分不相关。(3)主成分的方差之和与原始变量的方差之和相等,也就是说,经过变化后,变量间的变异性没有改变,信息没有损失。(4) 称为第个主成分的方差贡献率,称为前个主成分的累积方差贡献率。在解决实际问题时,一般不是取个主成分,

5、而是根据累计贡献率的大小取前个。如果前个主成分的累积贡献率达到85,明取前个主成分基本包含了全部测量指标所具有的信息,这样即减少了变量的个数有利于对实际问题的分析和研究。(5) 若Fi=iX是数据矩阵的主成分则(i=,) 是i与k的相关系数。1.5主成分分析方法应用实例实例:对流域系统的主成分分析下表给出了某流域系统57个流域盆地的9项变量指标。其中,x1代表流域盆地总高度(m),x2代表流域盆地山口的海拔高度(m),x3代表流域盆地周长(m),x4代表河道总长度(m),x5代表河道总数,x6代表平均分叉率,x7代表河谷最大坡度(度),x8代表河源数,x9代表流域盆地面积(km2)。分析过程:

6、 将表3.5.1中的原始数据作标准化处理,然后将它们代入相关系数公式计算,得到相关系数矩阵(表3.5.2)。 由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率(见表3.5.3)。由表3.5.3可知,第一,第二,第三主成分的累计贡献率已高达86.5%,故只需求出第一、第二、第三主成分z1,z2,z3即可。z3上的载荷。2、因子分析因子分析法是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。它的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上就代表

7、了一个基本结构,即公共因子。对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。2.1基本思想因子分析的基本思想是通过变量(或样品)的相关系数矩阵(对样品是相似系数矩阵)内部结构的研究,找出能控制所有变量(或样品)的少数几个随机变量去描述多个变量(或样品)之间的相关(相似)关系,但在这里,这少数几个随机变量是不可观测的,通常称为因子。然后根据相关性(或相似性)的大小把变量(或样品)分组,使得同组内的变量(或样品)之间相关性(或相似性)较高,但不同组的变量相关性(或相似性)较低。2.2计算步骤(1)将原始数据标准化,以消除变量间在数量级和量纲

8、上的不同;(2)求标准化数据的相关矩阵;(3)求相关矩阵的特征值和特征向量;(4)计算方差贡献率与累积方差贡献率;(5)确定因子:设F1,F2,Fp为p个因子,其中前m个因子包含的数据信息总量(即其累积贡献率)不低于80%时,可取前m个因子来反映原指标。2.3算法原理因子分析法是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。它的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子。对于所研究的问题就是试图用最少个数的不可测的所

9、谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。因子分析的数学模型如下:(1)符号与假定设有n个样本,每个样本观测p个变量,记:原始变量矩阵为X: , 公共因子变量矩阵为F: , 特殊因子矩阵为E:假定因子模型具有以下性质:1. E(x)=0,cov(x)=2. E(F)=0,cov(F)=I3. E(E)=0,cov(e)=diag(12,22,p2)4. Cov(F,E)=0若用矩阵形式表示,则为:X=AF+E式中的A,称为因子载荷矩阵,并且称为第i个变量在第j个公共因子上的载荷,反映了第i个变量在第j个公共因子上的相对重要性。可以证明因子载荷为第i个变量与第j个公共因子的相关

10、系数,即反映了变量与公共因子的关系密切程度,越大,表明公共因子与变量的线性关系越密切。模型中F1,F2,Fm叫做主因子或公共因子,它们是在各个原观测变量的表达式中都共同出现的因子,是相互独立的不可观测的理论变量。公共因子的含义,必须结合具体问题的实际意义而定。,叫做特殊因子,是向量x的分量(i=1,2,p)所特有的因子,各特殊因子之间以及特殊因子与所有公共因子之间都是相互独立的。模型中载荷矩阵A中的元素()是为因子载荷。因子载荷是与的协方差,也是与的相关系数,它表示依赖的程度。可将看作第i个变量在第j公共因子上的权,的绝对值越大(|1),表明与的相依程度越大,或称公共因子对于的载荷量越大。为了

11、得到因子分析结果的经济解释,因子载荷矩阵A中有两个统计量十分重要,即变量共同度和公共因子的方差贡献。因子载荷矩阵A中第i行元素之平方和记为,称为变量的共同度。它是全部公共因子对的方差所做出的贡献,反映了全部公共因子对变量的影响。大表明x的第i个分量对于F的每一分量F1,F2,Fm的共同依赖程度大。将因子载荷矩阵A的第j列(j=1,2,m)的各元素的平方和记为,称为公共因子对x的方差贡献。就表示第j个公共因子对于x的每一分量(i=1,2,p)所提供方差的总和,它是衡量公共因子相对重要性的指标。越大,表明公共因子对x的贡献越大,或者说对x的影响和作用就越大。如果将因子载荷矩阵A的所有(j=1,2,

12、m)都计算出来,使其按照大小排序,就可以依此提炼出最有影响力的公共因子。2.4主要性质因子分析是主成分分析的推广,也是一种把多个变量化为少数几个综合变量的多变量分析方法,其目的是用有限个不可观测的隐变量解释原始变量之间的相关关系。因子性质主要表现变量之间关联度上,根据关联度可以划分为特殊因子和公共因子,利用因子分析,减少分析变量个数,通过对变量的相关关系探测,将原始变量进行分类。其中共同度表明x的第i个分量对于F的每一分量F1,F2,Fm的共同依赖程度。如果它的值越大,依赖程度就越大.方差贡献是衡量公共因子相对重要性的指标。越大,表明公共因子对x的贡献越大,或者说对x的影响和作用就越大。2.5

13、因子分析方法的应用举例实例:因子分析在教师教学效果评价中的应用本文选用某校网上评教数据,选取的课程均为必修课程(没有考虑选修课和实验课等),且为了排除课程性质和班级容量对教师排名的影响,本文选取了教授相似课程,所教班级容量相近的10名教师,通过统计软件SAS 9.0对其进行因子分析,发现每位教师究竟在教学环节的哪个方面存在着不足。2.5.1因子分析过程第一步:数据标准化与数据相关性检验.检验结果如下,KMO值很大,Bart lett球体检验值很小,说明数据适合做因子分析。.第二步:提取因子.用SAS统计软件进行分析,并计算出特征值的贡献率及累计贡献率.前5个因子,反映了原指标17%的信息量,可

14、以对所分析问题作出较好的解释,故选取了5个公因子。第三步:因子解释.采用最大方差旋转法得出旋转后因子载荷矩阵。.从上面的因子载荷矩阵中可以看出因子F1主要支配:u10(教师能把本课程在学生知识结构中的地位、目的讲授给学生),u11(教师能为人师表,从严执教,能把传授知识与塑造人的全面素质结合起来),u12(通过教师的讲授,学生基本掌握本课程的内容),可解释为教师传授知识的能力;因子F2主要支配u7(教师授课内容充实、信息量大)、u8(教师使用教学辅助手段),u9(教师授课能理论联系实际),可解释为教学手段;因子F3主要支配u3(教师能启发学生的思路,激发学生的学习兴趣)、u4(教师教给学生掌握

15、知识、方法,鼓励学生独立思考),可解释为教师引导学生和发掘学生潜力的能力;因子F4主要支配u5(教师能培养学生分析问题和解决问题的能力)、u6(教师重视与学生交流,达到师生互动的效果),教师调动学生听课的能力.因子F5主要支配u1(教师对教学工作很有热情,讲课认真、投入)、u2(教师讲课思路清晰,表达清楚,重点难点、突出),可解释为教师讲课能力;第四步:因子得分.将所有同学的十二个指标评分数值经标准化后与因子得分矩阵相乘可得每位同学对每位教师的五个因子得分数值,十位教师的按5个因子得分见表3,十位教师按5分因子的排名情况如图1所示.通过因子分析得出的因子得分(表3)及其排名情况(图2),可以一

16、目了然的看出教师方面的教学效果和某位教师在教学中的哪个方面存在不足,比如教高级语言程序设计这位教师在因子2教学手段方面和因子3引导学生和发掘学生潜力的能力方面相比其他教师要落后一些,教路基工程的这位教师在因子4教师调动学生听课能力方面存在明显不足,教授机械设计基础的教师在因子1教师传授知识能力方面相比其他教师要落后,而各个教师在因子5教师讲课能力方面差距不大.另外,通过因子分析也可以给出每位教师的总得分,按总得分的排名情况如表4,可以看出它和目前普遍采用的直接平均法排名是大体一致的,但是由于因子分析在降维的过程中舍弃了一小部分信息,所以按总得分的排名只具有一定的参考价值. 2.5.2 结论目前

17、教师教学效果的评价,大都通过计算网上评价数据的平均值,然后按其排名来进行考核教师教学效果.但是这种传统取平均值的方法受到课程性质,班级人数多少等因素的影响,光靠名次来决定教师的水平高低,具有一定的片面性。 于是,本文将统计中因子分析模型引入教师教学效果评价中,在给出教师排名的同时,还能分析出教师在教学的具体哪个环节存在不足,从而清醒找到自己排名落后的原因,这样可以达到以评促教.但是,因子分析在降维过程中会损失一小部分信息,所以按因子总得分得到的排名只具有参考价值.总之,在教师评价过程中,排名不是关键,通过因子分析找到不足之处并得以改进才是真正目的。. 3、两者的主要区别3.1主要联系两种方法的

18、出发点都是变量的相关系数矩阵(或相似系数矩阵),在损失较少信息的前提下,把多个变量(这些变量之间要求存在较强的相关性,以保证能从原始变量中提取主成分)综合成少数几个综合变量来研究总体各方面信息的多元统计方法,且这少数几个综合变量所代表的信息不能重叠,即变量间不相关。它们都属于多元分析中处理降维的统计方法。3.2主要区别(1)从概念上看主成分分析是将多个指标化为少数互相无关的综合指标的统计方法。因子分析是主成分分析的推广和发展,它也是将具有错综复杂关系的变量(或样品)综合数量较少的几个因子,再现原始变量与因子之间的相互关系同时根据不同因子还可以对变量进行分类。(2)从基本思想上看主成分分析是设法

19、将原来众多具有一定相关性的指标重新组合成一组新的相互无关的综合指标来代替原来指标。因子分析通过变量(或样品)的相关系数矩阵(对样品是相似系数矩阵)内部结构的研究,找出能控制所有变量(或样品)的少数几个随机变量去描述多个变量(或样品)之间的相关(相似)关系,这少数几个随机变量是不可观测的,通常称为因子。然后根据相关性(或相似性)大小将变量分组,使得同组内的变量(或样品)之间相关性(或相似性)较高但不同组内相关性(或相似性)较低。(3)从数学模型上看1)主成分分析的数学模型实质上是一种变换,通过变量变换把注意力集中在具有较大变差的那些主成分上,而舍弃那些变差小的主成分;因子分析是把注意力集中在少数

20、不可观测的潜在变量(即公共因子)上,而舍弃特殊因子。2 )主成分分析是将主成分表示为原观测变量的线性组合。其实质是p维空间的坐标变换,不改变原始数据的结构。因子分析则是描述原指标X协方差阵结构的一种模型。对原观测变量分解成公共因子和特殊因子两部分。当公共因子的个数m=原变量的个数p时就不能考虑,此时因子分析也对应于一种变量变换。但在实际应用中m都小于p,且为经济起见总是越小越好。3) 主成分的各系数aij是唯一确定的、正交的。不可以对系数矩阵进行任何的旋转,且系数大小并不代表原变量与主成分的相关程度;而因子模型的系数矩阵是不唯一的,且该矩阵表明了原变量和公共因子的相关程度。(4)从计算过程看1

21、)主成分分析中可以通过可观测的原变量X直接求得主成分F,并具有可逆性;其中aij是X的协差阵的特征值所对应的特征向量。因子分析中的载荷矩阵是不可逆的,只能通过可观测的原变量去估计不可观测的公共因子。bij是因子载荷矩阵中的元素,是第i变量Xi与第j个公共因子Zj的相关系数,即表示Xi依赖Zj的份量,是第i变量在第j个公共因子上的负荷,它反映了第i变量在第j个公共因子上的相对重要性。是第j个原观测变量的特殊因子,且此处的Xi与Zj的均值都为0,方差都为1。2) 公共因子得分的估计值等于因子得分系数矩阵与原观测变量标准化后的矩阵相乘的结果。3 )主成分分析一般依据第一主成分的得分排名,若第一主成分

22、不能完全代替原始变量,则需要继续选择第二个主成分、第三个等等。此时综合得分=(各主成分得分*各主成分所对应的方差贡献率),主成分得分是将原始变量的标准化值,代入主成分表达式中计算得到。而因子分析的综合得分=(各因子得分*各因子所对应的方差贡献率),因子得分是将原始变量的标准化值,代入因子得分函数中计算得到。4、结语本文很详细地从理论和应用角度,分析了主成分分析和因子分析这两种方法的基本思想、算法原理、主要性质、应用举例和主要区别等。从分析结果看,运用主成分分析和因子分析进行综合定量分析时,不但综合排名结果存在差异,而且定量值也存在较大差异,这必然会影响后面的综合定性分析结果。每种方法都有各自的优势,我们具体情况具体分析,正确理解和运用这两种方法,使其发挥出各自最大的优势。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!