因子分析与主成分分析

上传人:zou****hua 文档编号:189629318 上传时间:2023-02-23 格式:DOCX 页数:8 大小:23.76KB
收藏 版权申诉 举报 下载
因子分析与主成分分析_第1页
第1页 / 共8页
因子分析与主成分分析_第2页
第2页 / 共8页
因子分析与主成分分析_第3页
第3页 / 共8页
资源描述:

《因子分析与主成分分析》由会员分享,可在线阅读,更多相关《因子分析与主成分分析(8页珍藏版)》请在装配图网上搜索。

1、1. 因子分析模型因子分析法是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合 因子的一种多变量统计分析方法。它的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密 的分在同一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本结构,即 公共因子。对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来 描述原来观测的每一分量。因子分析的基本思想:把每个研究变量分解为几个影响因素变量,将每个原始变量分解成两部分因素,一部分是由所有变量共同 具有的少数几个公共因子组成的,另一部分是每个变量独自具有的因素,即特

2、殊因子因子分析模型描述如下:(1) X = (x1, x2,,xp)C是可观测随机向量,均值向量E(X)=O,协方差阵Cov(X)=,且协方差阵 与相关矩阵R相等(只要将变量标准化即可实现)。(2) F = (F1,F2,,Fm)C (mvp)是不可测的向量,其均值向量E(F)=O,协方差矩阵Cov(F) =1, 即向量的各分量是相互独立的。(3) e = (e1, e2,,ep)C与F相互独立,且E(e)=0, e的协方差阵是对角阵,即各分量e之间是 相互独立的,则模型:x1 = a11F1+ a12F2 +.+a1mFm + elx2 = a21F1+a22F2 +.+a2mFm + e2

3、xp = ap1F1+ ap2F2 +.+apmFm + ep称为因子分析模型,由于该模型是针对变量进行的,各因子又是正交的,所以也称为R型正交因子模型。其矩阵形式为:x =AF + e .其中:x=, A=, F=, e=这里,(1) m p;(2) Cov(F, e)=0,即F和e是不相关的;(3) D(F) = Im,即F1, F2,,Fm不相关且方差均为1;D(e)=,即e1, e2,,ep不相关,且方差不同。我们把F称为X的公共因子或潜因子,矩阵A称为因子载荷矩阵,e称为X的特殊因子。A = (aij), aij为因子载荷。数学上可以证明,因子载荷aij就是第i变量与第j因子的相关系

4、数,反映了第 i变量在第j因子上的重要性。2. 模型的统计意义模型中F1, F2,,Fm叫做主因子或公共因子,它们是在各个原观测变量的表达式中都共同出现的因子, 是相互独立的不可观测的理论变量。公共因子的含义,必须结合具体问题的实际意义而定。e1, e2,, ep叫做特殊因子,是向量x的分量xi(i=1, 2,,p)所特有的因子,各特殊因子之间以及特殊因子与所 有公共因子之间都是相互独立的。模型中载荷矩阵A中的元素(aij)是为因子载荷。因子载荷aij是xi与Fj 的协方差,也是xi与Fj的相关系数,它表示xi依赖Fj的程度。可将aij看作第i个变量在第j公共因子上 的权,aij的绝对值越大(

5、|aij| 1),表明xi与Fj的相依程度越大,或称公共因子Fj对于xi的载荷量越大。 为了得到因子分析结果的经济解释,因子载荷矩阵A中有两个统计量十分重要,即变量共同度和公共因子 的方差贡献。因子载荷矩阵A中第i行元素之平方和记为hi2,称为变量xi的共同度。它是全部公共因子对xi的方差所 做出的贡献,反映了全部公共因子对变量xi的影响。hi2大表明x的第i个分量xi对于F的每一分量F1, F2,,Fm的共同依赖程度大。将因子载荷矩阵A的第j歹列( j =1, 2,,m)的各元素的平方和记为gj2,称为公共因子Fj对x的方差贡 献。gj2就表示第j个公共因子Fj对于x的每一分量xi(i= 1

6、, 2,,p)所提供方差的总和,它是衡量公共 因子相对重要性的指标。gj2越大,表明公共因子Fj对x的贡献越大,或者说对x的影响和作用就越大。 如果将因子载荷矩阵A的所有gj2 ( j =1, 2,,m)都计算出来,使其按照大小排序,就可以依此提炼出 最有影响力的公共因子。3. 因子旋转建立因子分析模型的目的不仅是找出主因子,更重要的是知道每个主因子的意义,以便对实际问题进行分 析。如果求出主因子解后,各个主因子的典型代表变量不很突出,还需要进行因子旋转,通过适当的旋转 得到比较满意的主因子。旋转的方法有很多,正交旋转(orthog onal rotatio n)和斜交旋转(oblique r

7、otatio n)是因子旋转的两类方法。 最常用的方法是最大方差正交旋转法(Varimax)。进行因子旋转,就是要使因子载荷矩阵中因子载荷的平方 值向0和1两个方向分化,使大的载荷更大,小的载荷更小。因子旋转过程中,如果因子对应轴相互正交, 则称为正交旋转;如果因子对应轴相互间不是正交的,则称为斜交旋转。常用的斜交旋转方法有Promax4因子得分 因子分析模型建立后,还有一个重要的作用是应用因子分析模型去评价每个样品在整个模型中的地位,即 进行综合评价。例如地区经济发展的因子分析模型建立后,我们希望知道每个地区经济发展的情况,把区 域经济划分归类,哪些地区发展较快,哪些中等发达,哪些较慢等。这

8、时需要将公共因子用变量的线性组 合来表示,也即由地区经济的各项指标值来估计它的因子得分。设公共因子F由变量x表示的线性组合为:Fj = uj1 xj1+ uj2 xj2+.+ujpxjp j=1,2,m该式称为因子得分函数,由它来计算每个样品的公共因子得分。若取m=2,则将每个样品的p个变量代 入上式即可算出每个样品的因子得分F1和F2,并将其在平面上做因子得分散点图,进而对样品进行分类 或对原始数据进行更深入的研究。但因子得分函数中方程的个数m小于变量的个数p,所以并不能精确计算出因子得分,只能对因子得分进 行估计。估计因子得分的方法较多,常用的有回归估计法,Bartlett估计法,Thom

9、son估计法。(1) 回归估计法F = X b = X (X CX)-1AC = XR-1AC (这里 R 为相关阵,且 R = X CX )。(2) Bartlett估计法Bartlett估计因子得分可由最小二乘法或极大似然法导出。F = (W-1/2A) W-1/2A-1(W-1/2A)C W-1/2X = (ACW-1A)-1ACW-1X(3) Thomson 估计法在回归估计法中,实际上是忽略特殊因子的作用,取R = X CX,若考虑特殊因子的作用,此时R = X C X+W,于是有:F = XR-1AC = X (X CX+W)-1AC这就是Thomson估计的因子得分,使用矩阵求逆

10、算法(参考线性代数文献)可以将其转换为:F = XR-1AC = X (I+ACW-1A)-1W-1AC5.因子分析的步骤因子分析的核心问题有两个:一是如何构造因子变量;二是如何对因子变量进行命名解释。因此,因子分 析的基本步骤和解决思路就是围绕这两个核心问题展开的。(i) 因子分析常常有以下四个基本步骤:(1)确认待分析的原变量是否适合作因子分析。(2) 构造因子变量。(3) 利用旋转方法使因子变量更具有可解释性。(4) 计算因子变量得分。(ii)因子分析的计算过程:(1) 将原始数据标准化,以消除变量间在数量级和量纲上的不同。(2) 求标准化数据的相关矩阵;(3) 求相关矩阵的特征值和特征

11、向量;(4) 计算方差贡献率与累积方差贡献率;(5) 确定因子:设F1, F2,,Fp为p个因子,其中前m个因子包含的数据信息总量(即其累积贡献率)不低于80% 时,可取前m个因子来反映原评价指标;(6) 因子旋转:若所得的m个因子无法确定或其实际意义不是很明显,这时需将因子进行旋转以获得较为明显的实际含 义。(7) 用原指标的线性组合来求各因子得分:采用回归估计法,Bartlett估计法或Thomson估计法计算因子得分。(8) 综合得分以各因子的方差贡献率为权,由各因子的线性组合得到综合评价指标函数。F = (w1F1+w2F2+.+wmFm) / (w1+w2+.+wm )此处wi为旋转

12、前或旋转后因子的方差贡献率。(9) 得分排序:利用综合得分可以得到得分名次。在采用多元统计分析技术进行数据处理、建立宏观或微观系统模型时,需要研究以下几个方面的问题:简化系统结构,探讨系统内核。可采用主成分分析、因子分析、对应分析等方法,在众多因素中找出各 个变量最佳的子集合,从子集合所包含的信息描述多变量的系统结果及各个因子对系统的影响。从树木 看森林,抓住主要矛盾,把握主要矛盾的主要方面,舍弃次要因素,以简化系统的结构,认识系统的内核。构造预测模型,进行预报控制。在自然和社会科学领域的科研与生产中,探索多变量系统运动的客观规 律及其与外部环境的关系,进行预测预报,以实现对系统的最优控制,是

13、应用多元统计分析技术的主要目 的。在多元分析中,用于预报控制的模型有两大类。一类是预测预报模型,通常采用多元线性回归或逐步 回归分析、判别分析、双重筛选逐步回归分析等建模技术。另一类是描述性模型,通常采用聚类分析的建 模技术。进行数值分类,构造分类模式。在多变量系统的分析中,往往需要将系统性质相似的事物或现象归为一 类。以便找出它们之间的联系和内在规律性。过去许多研究多是按单因素进行定性处理,以致处理结果反 映不出系统的总的特征。进行数值分类,构造分类模式一般采用聚类分析和判别分析技术。如何选择适当的方法来解决实际问题,需要对问题进行综合考虑。对一个问题可以综合运用多种统计方法 进行分析。例如

14、一个预报模型的建立,可先根据有关生物学、生态学原理,确定理论模型和试验设计;根 据试验结果,收集试验资料;对资料进行初步提炼;然后应用统计分析方法(如相关分析、逐步回归分析、 主成分分析等)研究各个变量之间的相关性,选择最佳的变量子集合;在此基础上构造预报模型,最后对模 型进行诊断和优化处理,并应用于生产实际。Rotated Component Matrix,就是经转轴后的因子负荷矩阵,当你设置了因子转轴后,便会产生这结果。转轴的是要得到清晰的负荷形式,以便研究者进行因子解释及命名。SPSS的Factor Analysis对话框中,有个Rotation钮,点击便会弹出Rotation对话框,其

15、中有5种因子旋转方法可选择:1最大变异法(Varimax):使负荷量的变异数在因子内最大,亦即,使每个因子上具有最高载荷的变量数最 少。2四次方最大值法(Quartimax):使负荷量的变异数在变项内最大,亦即,使每个变量中需要解释的因子数 最少。3. 相等最大值法(Equamax):综合前两者,使负荷量的变异数在因素内与变项内同时最大。4. 直接斜交转轴法(Direct Oblimin):使因素负荷量的差积(cross-products)最小化。5. Promax转轴法:将直交转轴(varimax)的结果再进行有相关的斜交转轴。因子负荷量取2,4,6次方以 产生接近0但不为0的值,藉以找出因

16、子间的相关,但仍保有最简化因素的特性。上述前三者属於直交(正交)转轴法(Orthogonal Rotations),在直交转轴法中,因子与因子之间没有相 关,因子轴之间的夹角等於90度。后两者属於斜交转轴(oblique rotations),表示因子与因子之间彼 此有某种程度的相关,因素轴之间的夹角不是90度。直交转轴法的优点是因子之间提供的讯息不会重叠,受访者在某一个因子的分數与在其他因子的分數,彼 此独立互不相关;缺点是研究迫使因素之间不相关,但这种情况在实际的情境中往往并不常存在。至於使 用何种转轴方式,须视乎研究题材、研究目的及相关理论,由研究者自行设定。在根据结果解释因子时,除了要

17、看因子负荷矩阵中,因子对哪些变量呈高负荷,对哪些变量呈低负荷,还 须留意之前所用的转轴法代表的意义。2,主成分分析(prin cipal comp onent an alysis)将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。又称主分量分析。在实际课 题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映 这个课题的某些信息。但是,在用统计分析方法研究这个多变量的课题时,变量个数太多就会增加课题的 复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的, 当两个变量之间有一定相关关系时,可以解释为这

18、两个变量反映此课题的信息有一定的重叠。主成分分析 是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量 在反映课题的信息方面尽可能保持原有的信息。主成分分析首先是由K.皮尔森对非随机变量引入的,尔后 H霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。(1) 主成分分析的原理及基本思想。原理:设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几 个较少的总和变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学 上处理降维的一种方法。基本思想:主成分分析是设法将原来众多

19、具有一定相关性(比如P个指标),重新组合成一组新的互相无 关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。 最经典的做法就是用F1 (选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大, 表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。 如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映 原来信息,F1已有的信息就不需要再出现再F2中,用数学语言表达就是要求Cov(F1, F2)=0,则称F2为 第二主成分,依此类推可以构造出第三、第四

20、,第P个主成分。(2) 步骤Fp=a1mZX1+a2mZX2+apmZXp其中a1i, a2i,api(i=1,m)为X的协方差阵的特征值多对应的特征向量,ZX1, ZX2,ZXp是原 始变量经过标准化处理的值,因为在实际应用中,往往存在指标的量纲不同,所以在计算之前须先消除量 纲的影响,而将原始数据标准化,本文所采用的数据就存在量纲影响注:本文指的数据标准化是指Z标 准化。A=(aij)pxm=(a1,a2,.am) Rai=Aiai, R为相关系数矩阵,入i、ai是相应的特征值和单位特征向 量,入1入2N.2入phO。进行主成分分析主要步骤如下:1. 指标数据标准化(SPSS软件自动执行)

21、;2. 指标之间的相关性判定;3. 确定主成分个数m;4. 主成分Fi表达式;5. 主成分Fi命名;选用以上两种方法时的注意事项如下:1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成个变量的线性组2、主成分分析的重点在于解释个变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。3、主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。因子分析的假设包括:各个共 同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子和特殊因子之间也不相关。4、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,

22、的主成分一般是独特的; 而因子分析中因子不是独特的,可以旋转得到不同的因子。5、在因子分析中,因子个数需要分析者指定(spss根据一定的条件自动设定,只要是特征值大于1的因 子进入分析),而指定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个 变量就有几个主成分。和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更 加有优势。大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析, 并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来 所有变量的信息)来进入后续的分析,则可以使用主成

23、分分析。当然,这中情况也可以使用因子得分做到。 所以这中区分不是绝对的。总得来说,主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来 分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用:a, 了解数据。(screening the data), b,和cluster analysis 一起使用,c,和判别分析一起使用,比如当变量很多,个案 数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化o(reduce dimensionality)d, 在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理

24、共线性。在算法上,主成分分析和因子分析很类似,不过,在因子分析中所采用的协方差矩阵的对角元素不在是变 量的方差,而是和变量对应的共同度(变量方差中被各因子所解释的部分)。(1)了解如何通过SPSS因子分析得出主成分分析结果。首先,选择SPSS中Analyze-Data Reduction Factor.,在Extraction.对话框中选择主成分方法提取因子,选择好因子提取个数标准后点确定完成因子 分析。打开输出结果窗口后找到 Total Varianee Explained表和 Component Matrix表。将 Component Matrix 表中第一列数据分别除以Total Var

25、ia nee Expla ined表中第一特征根值的开方得到第一主成分表达式系数, 用类似方法得到其它主成分表达式。打开数据窗口,点击菜单项的 Analyze Descriptive Statistics Descriptives.,在打开的新窗口下方构选Save standardized values as variables选定左边要分析的变量。 点击Options,只构选Means,点确定后既得待分析变量的标准化新变量。选择菜单项TransformCompute.,在Target Variable中输入:Z1 (主成分变量名,可以自己定义),在 Numeric Expression中输入

26、例如:0.412 (刚才主成分表达式中的系数)*Z人口数(标准化过的新变量名) +0.212*Z第一产业产值+.,点确定即得到主成分得分。通过对主成分得分的排序即可进行各个个案的综 合评价。很显然,这里的过程分为四个步骤:I 选主成分方法提取因子进行因子分析。II 计算主成分表达式系数。III.标准化数据。W计算主成分得分。我们的程序也将依该思路展开开发。(2)对为何要将Compo nent Matrix表数据除以特征根开方的解释我们学过主成分分析和因子分析后不难发现,原来因子分析时的因子载荷矩阵就是主成分分析特征向量矩 阵乘以对应特征根开方值的对角阵。而Component Matrix表输出的恰是因子载荷矩阵,所以求主成分特 征向量自然是上面描述的逆运算。成功启动程序后选定分析变量和主成分提取方法即可在数据窗口输出得分和在OUTPUT窗口输出主成分 表达式。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!