主成分分析与因子分析法课件

上传人:陈** 文档编号:161453994 上传时间:2022-10-14 格式:PPT 页数:37 大小:307.50KB
收藏 版权申诉 举报 下载
主成分分析与因子分析法课件_第1页
第1页 / 共37页
主成分分析与因子分析法课件_第2页
第2页 / 共37页
主成分分析与因子分析法课件_第3页
第3页 / 共37页
资源描述:

《主成分分析与因子分析法课件》由会员分享,可在线阅读,更多相关《主成分分析与因子分析法课件(37页珍藏版)》请在装配图网上搜索。

1、主成分分析法与因子分析法主成分分析法与因子分析法主要内容主成分分析法主成分分析法 因子分析法因子分析法附:主成分分析法与因子分析法的区别附:主成分分析法与因子分析法的区别主成分分析法主成分分析法(Principal Components Analysis,PCA)主成分分析法概述主成分分析法概述主成分分析的基本原理主成分分析的基本原理 主成分分析的计算步骤主成分分析的计算步骤 一、主成分分析概述假定你是一个公司的财务经理,掌握了公假定你是一个公司的财务经理,掌握了公司的所有数据,这包括司的所有数据,这包括众多的变量众多的变量,比如,比如固定资产、流动资金、每一笔借贷的数额固定资产、流动资金、每

2、一笔借贷的数额和期限、各种税费、工资支出、原料消耗、和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分产值、利润、折旧、职工人数、职工的分工和教育程度等等工和教育程度等等。如果让你向上级或有关方面介绍公司状况,如果让你向上级或有关方面介绍公司状况,你能够把这些指标和数字都你能够把这些指标和数字都原封不动地摆原封不动地摆出去吗出去吗?引子当然不能。当然不能。汇报什么?汇报什么?发现在如此多的变量之中,有很多是发现在如此多的变量之中,有很多是相关的。人们希望能够找出它们的相关的。人们希望能够找出它们的少少数数“代表代表”来对它们进行描述。来对它们进行描述。需要把这种有需要把

3、这种有很多变量很多变量的数据进行高的数据进行高度概括,度概括,用少数几个指标简单明了地用少数几个指标简单明了地把情况说清楚。把情况说清楚。主成分分析主成分分析法法(Principal Components Analysis)和因子分析和因子分析法法(Factor Analysis)就就是把变量维数是把变量维数降低以便于描述、理解和分析的方法。降低以便于描述、理解和分析的方法。主成分分析也称为主分量分析,是一种通过降维来主成分分析也称为主分量分析,是一种通过降维来简化数据结构的方法:如何把多个变量化为少数几简化数据结构的方法:如何把多个变量化为少数几个综合变量(综合指标)个综合变量(综合指标),

4、而这几个综合变量可以,而这几个综合变量可以反映原来多个变量的大部分信息,所含的信息又互反映原来多个变量的大部分信息,所含的信息又互不重叠,即它们之间要相互独立,互不相关。不重叠,即它们之间要相互独立,互不相关。这些综合变量就叫因子或主成分,它是不可观测的,这些综合变量就叫因子或主成分,它是不可观测的,即即它不是具体的变量它不是具体的变量,只是几个指标的综合只是几个指标的综合。在引入主成分分析之前,先看下面的例子。在引入主成分分析之前,先看下面的例子。什么是主成分分析法?什么是主成分分析法?成绩数据5353个学生的数学、物理、化学、语文、历个学生的数学、物理、化学、语文、历史、英语的成绩如下表(

5、部分)。史、英语的成绩如下表(部分)。从本例可能提出的问题能不能把这个数据表中的能不能把这个数据表中的6 6个变量用一个变量用一两个综合变量来表示呢?两个综合变量来表示呢?这一两个综合变量包含有多少原来的信这一两个综合变量包含有多少原来的信息呢?息呢?事实上,以上问题在事实上,以上问题在平时的平时的研究中,也会经研究中,也会经常遇到。它常遇到。它所涉及的问题可以推广到对企业、所涉及的问题可以推广到对企业、对学校、对区域进行对学校、对区域进行分析、评价、排序和分分析、评价、排序和分类类等。等。比如对比如对n n个个样本样本进行综合评价,可选的描述进行综合评价,可选的描述样样本本特征的指标很多,而

6、这些指标往往存在特征的指标很多,而这些指标往往存在一一定的相关性定的相关性(既不完全独立,又不完全相(既不完全独立,又不完全相关),这就给研究带来很大不便。关),这就给研究带来很大不便。若选指标若选指标太多,会增加分析问题的难度与复杂性,选太多,会增加分析问题的难度与复杂性,选指标太少,有可能会漏掉对指标太少,有可能会漏掉对样本样本影响较大的影响较大的指标,影响结果的可靠性。指标,影响结果的可靠性。这就需要我们在相关分析的基础上,采这就需要我们在相关分析的基础上,采用主成分分析法找到几个用主成分分析法找到几个新的相互独立新的相互独立的综合指标的综合指标,达到既减少指标数量、又,达到既减少指标数

7、量、又能区分样本间差异的目的。能区分样本间差异的目的。二、主成分分析的基本原二、主成分分析的基本原理理(一)(一)主成分分析的几何解释主成分分析的几何解释(一)主成分分析的几何解释(一)主成分分析的几何解释例中数据点是六维的;即每个观测值是例中数据点是六维的;即每个观测值是6 6维空维空间中的一个点。希望把间中的一个点。希望把6 6维空间用低维空间表维空间用低维空间表示。示。先假定只有二维,即只有两个变量,语文成先假定只有二维,即只有两个变量,语文成绩(绩(x x1 1)和数学成绩()和数学成绩(x x2 2),分别由横坐标),分别由横坐标和纵坐标所代表;和纵坐标所代表;每个学生都是二维坐标系

8、中的一个点。每个学生都是二维坐标系中的一个点。因为在实际应用中,往往存在指标的量纲因为在实际应用中,往往存在指标的量纲不同,所以在计算之前须先消除量纲的影不同,所以在计算之前须先消除量纲的影响,而将原始数据标准化。为了实现样本响,而将原始数据标准化。为了实现样本数据的标准化,应求样本数据的平均和方数据的标准化,应求样本数据的平均和方差。对数据矩阵差。对数据矩阵Y Y作标准化处理,即对每一作标准化处理,即对每一个指标分量作标准化变换,变换公式为:个指标分量作标准化变换,变换公式为:pjniSYYXjjijij,2,1,2,1其中,其中,样本均值:样本均值:样本标准差:样本标准差:nkkiiYnY

9、11nkikiiYYnS1211原始变量原始变量 经规格化后变为新变经规格化后变为新变量量 ,其均值为零,方差为,其均值为零,方差为1 1。对二维空间来讲对二维空间来讲n n个标准化后的样本在二个标准化后的样本在二维空间的分布大体为一椭圆形,维空间的分布大体为一椭圆形,该椭圆该椭圆有一个长轴和一个短轴。在短轴方向上有一个长轴和一个短轴。在短轴方向上数据变化很少数据变化很少,极端的情况极端的情况下下,短轴如,短轴如退化成一点,长轴的方向可以完全解释退化成一点,长轴的方向可以完全解释这些点的变化,由二维到一维的降维就这些点的变化,由二维到一维的降维就自然完成了。自然完成了。ijYijX2x1x假定

10、语文成绩假定语文成绩(X1)和数学成和数学成绩绩(X2)分别为)分别为标准化后的分数,标准化后的分数,右图为其散点图,右图为其散点图,椭圆倾斜为椭圆倾斜为45度。度。如果将坐标轴如果将坐标轴 X1 和和 X2 旋转旋转45 ,那么点在新坐标,那么点在新坐标系中的坐标(系中的坐标(Y1,Y2)与原坐标()与原坐标(X1,X2)有如下的)有如下的关系:关系:Y1和和Y2均是均是X1 和和 X2的线性组合的线性组合2x1x在新坐标系中,在新坐标系中,可以发现:虽然可以发现:虽然散点图的形状没散点图的形状没有改变,但新的有改变,但新的随机变量随机变量 Y1 和和 Y2 已经不再相已经不再相关。而且大部

11、分关。而且大部分点沿点沿 Y1 轴散开,轴散开,在在 Y1 轴方向的轴方向的变异较大(即变异较大(即 Y1的方差较的方差较大)大),相对来说,相对来说,在在 Y2轴方向的轴方向的变异较小(即变异较小(即 Y2 的方差较的方差较小)小)。在上面的例子中在上面的例子中 Y1 和和 Y2 就是原变量就是原变量 X1和和 X2的第一主成分和第二主成分。实际上第一主成的第一主成分和第二主成分。实际上第一主成分分 Y1 就基本上反映了就基本上反映了 X1 和和X2 的主要信息,因的主要信息,因为图中的各点在新坐标系中的为图中的各点在新坐标系中的 Y1 坐标基本上就坐标基本上就代表了这些点的分布情况,因此可

12、以选代表了这些点的分布情况,因此可以选 Y1 为一为一个新的综合变量。当然如果再选个新的综合变量。当然如果再选 Y2也作为综合也作为综合变量,那么变量,那么 Y1 和和 Y2 则反映了则反映了 X1 和和 X2的全部的全部信息。信息。22 假如对某一问题的研究涉及假如对某一问题的研究涉及 p p 个指标,记为个指标,记为X X1 1,X X2 2,X Xp p,由这,由这 p p 个随机变量构成的随机向量为个随机变量构成的随机向量为X X=(=(X X1 1,X X2 2,X Xp p),设,设 X X 的均值向量为的均值向量为,协方差矩阵为,协方差矩阵为。设。设Y Y=(=(Y Y1 1,Y

13、 Y2 2,Y Yp p)为对为对 X X 进行线性变换得到的合成随机向量,即进行线性变换得到的合成随机向量,即 (1)设设 i i=(=(i i1 1,i i2 2,ipip),A A=(=(1 1,2 2,p p),则有,则有 ppppppppXXXYYY2121222211121121AXY pi,2,1(2)23且且 (3)由是式由是式(1)(2)(1)(2)能够看出,可以对原始变量进行任意能够看出,可以对原始变量进行任意的线性变换,不同线性变换得到的合成变量的线性变换,不同线性变换得到的合成变量Y Y的统计特征显的统计特征显然是不一样的。每个然是不一样的。每个Y Yi i 应尽可能多

14、地反映应尽可能多地反映 p p 个原始变量的个原始变量的信息,通常用方差来度量信息,通常用方差来度量“信息信息”,Y Yi i 的方差越大表示它的方差越大表示它所包含的信息越多。由式(所包含的信息越多。由式(3 3)可以看出将系数向量)可以看出将系数向量 i i 扩大扩大任意倍数会使任意倍数会使Y Yi i 的方差无限增大,为了消除这种不确定性,的方差无限增大,为了消除这种不确定性,增加约束条件:增加约束条件:pjiYYpiYjijiii,2,1,),cov(,2,1)var(i1iaai24 为了有效地反映原始变量的信息,为了有效地反映原始变量的信息,Y Y的不同分量包含的的不同分量包含的信

15、息不应重叠。综上所述,式(信息不应重叠。综上所述,式(1 1)的线性变换需要满足下)的线性变换需要满足下面的约束:面的约束:(1)(1)即即 ,i i=1,2,=1,2,p p。(2)(2)Y Y1 1在满足约束在满足约束 (1)(1)即的情况下,方差最大;即的情况下,方差最大;Y Y2 2是在满足是在满足约束约束(1)(1),且与,且与Y Y1 1不相关的条件下,其方差达到大;不相关的条件下,其方差达到大;Y Yp p是在满足约束是在满足约束(1)(1),且与,且与Y Y1 1,Y Y2 2,Y Y p-p-1 1不相关的条件下,不相关的条件下,在各种线性组合中方差达到最大者。在各种线性组合

16、中方差达到最大者。满足上述约束得到的合成变量满足上述约束得到的合成变量Y Y1 1,Y Y2 2,Y Yp p分别称为分别称为原始变量的第一主成分、第二主成分、原始变量的第一主成分、第二主成分、第、第 p p 主成分,主成分,而且各成分方差在总方差中占的比重依次递减。在实际研究而且各成分方差在总方差中占的比重依次递减。在实际研究工作中,仅挑选前几个方差较大的主成分,以达到简化系统工作中,仅挑选前几个方差较大的主成分,以达到简化系统结构的目的。结构的目的。122221ipiiaaa1iaai三、主成分分析的计算步骤(一一)计算相关系数矩阵计算相关系数矩阵(二二)计算特征值与特征向量计算特征值与特

17、征向量(三三)计算主成分贡献率及累计贡献率计算主成分贡献率及累计贡献率(四四)计算主成分载荷计算主成分载荷(一)计算相关系数矩阵一)计算相关系数矩阵 rij(i,j=1,2,p)为原变量)为原变量xi与与xj标准化后的标准化后的相关系数,相关系数,rij=rji,其计算公式为其计算公式为pppppprrrrrrrrrR212222111211()()nknkjkjikinkjkjikiijxxxxxxxxr11221)()()(()()(二)计算特征值与特征向量(二)计算特征值与特征向量 1、解特征方程,求出特征值,并使、解特征方程,求出特征值,并使其按大小顺序排列其按大小顺序排列 0RI02

18、1p 2、分别求出对应于特征值、分别求出对应于特征值 的特征向量的特征向量 ,要求,要求=1,即,即,其中表示向量其中表示向量 的第的第j个分量个分量,也就是说也就是说 为单位向量。为单位向量。i),2,1(pieiie112pjijeijeieie29(三)计算主成分贡献率及累计贡献率(三)计算主成分贡献率及累计贡献率 主成分分析是把主成分分析是把 p p 个随机变量的总方差分解为个随机变量的总方差分解为 p p 个不相个不相关随机变量的方差之和关随机变量的方差之和 1 1 2 2 P P,则总方差中属于,则总方差中属于第第 i i 个主成分(被第个主成分(被第 i i 个主成分所解释)的比

19、例为个主成分所解释)的比例为 称为第称为第 i i 个主成分的贡献率。定义个主成分的贡献率。定义 称为前称为前 m m 个主成分的累积贡献率,衡量了前个主成分的累积贡献率,衡量了前 m m 个主成份对个主成份对原始变量的解释程度。原始变量的解释程度。pi21pmpiimjj11(四)计算主成分载荷计算主成分载荷 在主成分之间不相关时,在主成分之间不相关时,主成分载荷就是主主成分载荷就是主成成 分分z zi i与变量与变量x xj j之间的相关系数之间的相关系数),2,1,(),(pjiexzplijijiij因子分析法因子分析法(Factor Analysis,FA)因子分析法概述因子分析法概

20、述因子分析法的模型因子分析法的模型附:主成分分析与因子分析的区别附:主成分分析与因子分析的区别(一)因子分析法概述因子分析法与主成分分析法都基于统计分因子分析法与主成分分析法都基于统计分析法,但两者有较大的区别。析法,但两者有较大的区别。主成分分析主成分分析是通过坐标变换提取主成分,也就是将一是通过坐标变换提取主成分,也就是将一组具有相关性的变量变换为一组独立的变组具有相关性的变量变换为一组独立的变量,将主成分表示为原始观察变量的线性量,将主成分表示为原始观察变量的线性组合。而组合。而因子分析因子分析法是要构造因子模型,法是要构造因子模型,将原始观察变量分解为因子的线性组合。将原始观察变量分解

21、为因子的线性组合。因此因子分析法是主成分分析法的发展。因此因子分析法是主成分分析法的发展。(二)因子分析法的模型狭义的因子分析法常与主成分分析法在处理方法上有相类似之处,都要对变量规格化,并找出原始变量规格化后的相关矩阵。其主要不同点在于建立线性方程组时所考虑的方法,因子分析是以回归方程的形式将变量表示成因子的线性组合,而且要使因子数m小于原始变量维数p,从而简化了模型结构。其步骤为:将原始数据标准化求标准化数据的相关矩阵求相关矩阵的特征值和特征向量计算方差贡献率与累计方差贡献率确定因子因子旋转用原始的线性组合求各因子得分求综合得分得分排序因子模型的表达式为:pmpmpppmmmmeFaFaFaxeFaFaFaxeFaFaFax 2211222221212112121111 其矩阵形式为:其中 为因子载荷。数学上可以证明,因子载荷 就是第i变量与第j因子的相关系数,反映了第i变量在第j因子上的重要性。F称为X的公共因子或潜因子,矩阵A称为因子载荷矩阵,e称为X的特殊因子。eAFXijijaaA),(ija附、主成分分析与因子分析的区别主成分分析法与因子分析法的区别主成分分析法与因子分析法的区别

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!