第11章主成分分析与因子

上传人：痛*** 文档编号：171908950 上传时间：2022-11-29 格式：PPT 页数：79 大小：667KB

收藏版权申诉举报下载

第1页 / 共79页

第2页 / 共79页

第3页 / 共79页

下载文档到电脑，查找使用更方便

10 积分

下载资源

资源描述：

《第11章主成分分析与因子》由会员分享，可在线阅读，更多相关《第11章主成分分析与因子（79页珍藏版）》请在装配图网上搜索。

1、第11章主成分分析与因子分析11.1 主成分分析主成分概念首先由主成分概念首先由 Karl Pearson在在1901年引年引进，当时只对非随机变量来讨论的。进，当时只对非随机变量来讨论的。1933年年Hotelling将这个概念推广到随机变量。将这个概念推广到随机变量。在多数实际问题评估中，不同指标之间是有一在多数实际问题评估中，不同指标之间是有一定相关性。由于指标较多及指标间有一定的相定相关性。由于指标较多及指标间有一定的相关性，势必增加分析问题的复杂性。关性，势必增加分析问题的复杂性。主成分分析就是设法将原来指标重新组合成一主成分分析就是设法将原来指标重新组合成一组新的互不相关的几个综

2、合指标来代替原来指组新的互不相关的几个综合指标来代替原来指标。同时根据实际需要从中可取几个较少的综标。同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来的指标的合指标尽可能多地反映原来的指标的信息信息。引例一项十分著名的工作是美国的统计学家斯通(Stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据，得到了17个反映国民收入与支出的变量要素，例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。在进行主成分分析后，竟以97.4的精度，用三新变量就取代了原17个变量。根据经济学知识，斯通给这三个新变量分别命名为总收入F1、总收

3、入变化率F2和经济发展或衰退的趋势F3。更有意思的是，这三个变量其实都是可以直接测量的。斯通将他得到的主成分与实际测量的总收入i、总收入变化率i以及时间t因素做相关分析，得到下表：F1F1F2F2F3F3i ii it tF1F11 1 F2F20 01 1 F3F30 00 01 1 i i0.9950.995-0.041-0.0410.0570.057l l i i-0.056-0.0560.9480.948-0.124-0.124-0.102-0.102l l t t-0.369-0.369-0.282-0.282-0.836-0.836-0.414-0.414-0.112-0.1121

4、 1 主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。在社会经济的研究中，为了全面系统地分析和研究问题，必须考虑许多经济指标，这些指标能从不同的侧面反映我们所研究的对象的特征，但在某种程度上存在信息的重叠，具有一定的相关性。主成分分析是考察多个数值变量间相关性的一种多元统计方法。对所导出几个主成分（综合指标），要求尽可能多地保留原始变量的信息，且彼此间不相关。它是研究如何通过少数几个主成分来解释多变量的方差协方差结构。一般地，利用主成分分析得到的主成分与原始变量之间有下列关系：每一个主成分都是原始变量的线性组合主成分的数目大大少于原始变量的数目主成分保留了原始变量绝大多数信息各主

5、成分之间互不相关11.1.2 数学描述所谓随机向量是指其各分量中至少有一个是随机变量的向量。由于在计量经济分析中不可避免地会涉及随机向量，因此下面简单介绍随机向量的特征。kXXX21X设是随机向量。则它的期望值为)()()()(21kXEXEXEEXX的方差（方差协方差矩阵）为)(),(),(),()(),(),(),()()()()()()()()()()(212212121122112211kkkkkkkkkTXVarXXCovXXCovXXCovXVarXXCovXXCovXXCovXVarXEXXEXXEXXEXXEXXEXEEEEVarXXXXX由于通过这一表达式计算得到的矩阵不仅包

6、括方差也包括协方差，所以常称它为方差协方差矩阵，记为Var-Cov(X)（在不引起混淆的情况下也称为方差矩阵或协方差矩阵，记为Var(X)或Cov(X).样本描述调查n个个体（样本）在这k(k n)个指标下的数值（或者用这k个指标来评价n个对象），就可得到数据矩阵Xkn:knkknnkxxxxxxxxxXXXn21222211121121.21对象：对象：对样本也可计算相应的协方差矩阵为knkknnCCCCCCCCCCov212222111211)(X其中nsjjsiisijxxxxnC1.).)(1是Cov(Xi,Xj)=E(Xi E(Xi)(Xj E(Xj)的极大似然估计量，也可使用矩估计

7、量，只需将上面的表达式中的系数由1/n换成1/(n 1)即可。例如对于二维数据97532121xx由极大似然法估计的协方差矩阵为844231)(XCov而由矩估计得到的协方差矩阵就是将上面矩阵中将系数换成1/2后的矩阵1。协方差矩阵的意义在于它刻画了变量之间的相关性主成分分析的目标就是求原来变量的线性组合Yi：kkkkkkkkkkXuXaXaYXaXaXaYXaXaXaY22112222112212211111写成矩阵形式就是kkkkkkkkXXXaaaaaaaaaYYY2121222211121121或AXY 而且使得满足TkYYY21YY的协方差矩阵Cov(Y)为对角矩阵，即诸Yi互不

8、相关。Y的方差尽可能大（即，对n个对象的分辨率尽可能强，或者说信息损失尽可能少）。比如使trCov(Y)=trCov(X)，就没有“辨识能力”方面的损失。然后，从Y1,Y2,Yk中选出对方差贡献最大的部分指标作为主成分。11.1.3 几何解释示例2X1X为了方便，我们在二维空间中讨论主成分的几何意义。设有n个样品，每个样品有两个观测变量Xl和X2，在由变量Xl和X2 所确定的二维平面中，n个样本点所散布的情况如椭圆状。由图可以看出这n个样本点无论是沿着Xl 轴方向或X2轴方向都具有较大的离散性，其离散的程度可以分别用观测变量Xl 的方差和X2 的方差定量地表示。显然，如果只考虑Xl和X2 中的

9、任何一个，那么包含在原始数据中的经济信息将会有较大的损失。如果我们将Xl 轴和X2轴先平移，再同时按逆时针方向旋转角度，得到新坐标轴Yl和Y2。Yl和Y2是两个新变量。cossinsincos211211xxyxxyxU2121cossinsincosxxyy正交矩阵，即有为旋转变换矩阵，它是UIUUUU,12X1X1Y2Y平移、旋转坐标轴旋转变换的目的是为了使得n个样品点在Yl轴方向上的离散程度最大，即Yl的方差最大。变量Yl代表了原始数据的绝大部分信息，在研究某经济或管理问题时，即使不考虑变量Y2也无损大局。经过上述旋转变换原始数据的大部分信息集中到Yl轴上，对数据中包含的信息起到了

10、浓缩作用。2X1X1Y2Y主成分分析的几何解释平移、旋转坐标轴2X1X1Y2Y 主成分分析的几何解释平移、旋转坐标轴2X1X1Y2Y主成分分析的几何解释平移、旋转坐标轴 Yl，Y2除了可以对包含在Xl，X2中的信息起着浓缩作用之外，还具有不相关的性质，这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。二维平面上的个点的方差大部分都归结在Yl轴上，而Y2轴上的方差很小。Yl和Y2称为原始变量X1和X2的综合变量。Y简化了系统结构，抓住了主要矛盾。为什么要根据方差确定主成分？情形II下总分的方差为0，显然不能反映三个学生各科成绩各有所长的实际情形，而红色标记的变量对应的方差最大，可反映原始数

11、据的大部分信息11.1.4 有关矩阵知识的回顾一、两个线性代数的结论 k00000021AUU1kii.2.1,其中是A的特征根。1、若A是k阶实对称阵，则一定可以找到正交阵U，使 2、若上述矩阵A的各特征根所对应的单位特征向量为 kkkkkkkuuuuuuuuu2122221112111),(uuU则实对称阵属于不同特征根所对应的特征向量构成的矩阵是正交的，即有kuu,1令令AIUUUU),.,2,1,(,0,1kjijijijiuu11.1.5 主成分的计算结论设X的协方差阵为2212222111221kkkkkx由于x为非负定的对称阵，则有利用线性代数的知识可得，必存在正交阵U，使得

12、k001UUXUUXk001或其中1，2，k为x的特征根，不妨假设1 2 k。而U恰好是由特征根相对应的单位特征向量所组成的正交阵。kkkkkkkuuuuuuuuu2122221112111),(uuUkiiiiuuu，21uiki,2,1下面我们来看，是否由U的第一列元素为组合系数所构成的原始变量的线性组合是否有最大的方差。设有k维单位向量121212111211111)(auuuuuuaaUUaaakkkkXYVar121111,kaaaaXa112211111kkXaXaXaY1111111111111111211121111)()(aaaUUaauuaauuauauaauuakiiik

13、iiikiikiiikiiii即11)(YVar 当且仅当a1=u1时，即时，有最大的方差1。因为。如果第一主成分的信息不够，则需要寻找第二主成分。kkXuXuY111111111)(uuXYVar在约束条件下，寻找第二主成分，取0),(21YYCovkkXuXuY21122因为所以约束条件满足。0),(),(121122121uuuuXuXuXCovYYCov 而，对k维单位向量，若且则有kiiikiiiiYVar122122222)()(uaauuaaakii222)(ua22a0),(21YYCovXa22Y12ua kiii122auua222222aaaUUa22kkX

14、uXuXuY22221122 所以如果取线性变换：则的方差就可达到第二大。2YkkkkkkkkkkXuXuXuYXuXuXuYXuXuXuY22112222112212211111第一主成分第二主成分第 k 主成分依此类推写为矩阵形式：XUYkkkkkkkuuuuuuuuu2122221112111),(uuU),(21kXXXX是协方差矩阵Cov(X)的单位特征根构成的矩阵主成分的性质一、均值一、均值UXU)(E二、方差为所有特征根之和二、方差为所有特征根之和kiiYVar1)(2222121kk 说明主成分分析把k个随机变量的总方差分解成为k个不相关的随机变量的方差之和。协方差矩阵的对

15、角线上的元素之和等于特征根之和。其中)(XE精度分析 1）贡献率：第i个主成分的方差在全部方差中所占比重，称为它的贡献率。贡献率说明该主成分反映了原来k个指标多大的信息，有多大的综合能力。kiii1 2）累积贡献率：前s个主成分共有多大的综合能力，用这s个主成分的方差和在全部方差中所占比重来描述，称为累积贡献率。kiisii11 我们进行主成分分析的目的之一是希望用尽可能少的主成分Y1，Y2，Ys（sk）代替原来的k个指标。到底应该选择多少个主成分，在实际工作中，采用的主成分个数s的多少取决于它们是否能够反映原来变量85%以上的信息量，即当累积贡献率85%时,主成分的个数就足够了。一些常见的

16、问题中主成分为2到3个。11.1.6 一个简单的等价算法1.数据的标准化对样本数据矩阵Xkn中的数据Xij进行标准化处理：iiijijSXXx.处理后的数据构成的矩阵记为x2.两个重要结论x的协方差矩阵Cov(x)的特征根和单位特征向量与原来数据X的协方差矩阵Cov(X)的特征根和单位特征向量相同.由X的原来数据所求得的相关系数矩阵Rk k=标准化后的协方差矩阵Cov(x)3.主成分的简化算法（1）由X的原始数据求出相关系数矩阵Rk k;（2）求R的特征根1，2，k（从大到小排列）及一组相互正交的单位特征向量b1，b2，bk;（3）取1，2，q，使得累积贡献率满足%85)()(2121kq则

17、即为所求。XbXbXbTqqTTYYY.,2211对于步骤（3），也可以按如下方式进行：取所有特征根大于1的特征向量（设有s个）来计算主成分，即XbXbXbTssTTYYY.,2211注：这种方法计算得到的主成分个数，可能与（3）中不同，因而有可能累积贡献率达不到85%以上。例在企业经济效益的评价中,涉及的指标往往很多.为了简化系统结构,抓住经济效益评价中的主要问题,我们可由原始数据矩阵出发求主成分.在对我国部分省,市,自治区独立核算的工业企业的经济效益评价中,涉及到9项指标,x1100元固定资产原值实现产值,X2100元固定资产原值实现利税,X3100元资金实现利税,X4100元工业总产值

18、实现利税,X5100元销售收入实现利税,X6每吨标准煤实现工业产值,X7每千瓦时电力实现工业产值,X8全员劳动生产率,X9100元流动资金实现产值(数据见ex1102)Total Variance Explained6.36370.70370.7036.36370.70370.7031.47016.33387.0361.47016.33387.036.6647.38094.416.2272.51996.934.1391.54698.4807.636E-02.84899.3293.139E-02.34999.6772.700E-02.30099.9772.035E-032.261E-02100.

19、000Component123456789Total%of VarianceCumulative%Total%of VarianceCumulative%Initial EigenvaluesExtraction Sums of Squared LoadingsExtraction Method:Principal Component Analysis.Component Matrixa.928-.329.977.150.935.310.232.873.460.568.934-.210.894-.288.9591.679E-02.904-.174100元固定资产原值实现产值100元固定资产原值

20、实现利税100元资金实现利税100元工业总产值实现利税100元销售收入实现利税每吨标准煤实现工业产值每千瓦时电力实现工业产值全员劳动生产率100元流动资金实现产值12ComponentExtraction Method:Principal Component Analysis.2 components extracted.a.lY1=0.928*x1+0.977*x2+0.935*x3+0.232*x4+0.460*x5 +0.934*x6+0.894*x7+0.959*x8+0.904*x9/(6.363)1/2lY2=-0.329*x1+0.150*x2+0.310*x3+0.873*x4

21、+0.568*x5 -0.210*x6-0.288*x7-0.01679*x8-0.174*x9/(1.470)1/2jjjba11.2 因子分析因子分析(factor analysis)是一种数据简化的技术。它通过研究众多变量之间的内部依赖关系，探求观测数据中的基本结构，并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量，而假想变量是不可观测的潜在变量，称为（公共）因子。例如，在企业形象或品牌形象的研究中，消费者可以通过一个有24个指标构成的评价体系，评价百货商场的24个方面的优劣。但消费者主要关心的是三个方面，即商店的环境

22、、商店的服务和商品的价格。因子分析方法可以通过24个变量，找出反映商店环境、商店服务水平和商品价格等少数几个潜在的因子（例如三个），对商店进行综合评价。而原来变量可用这三个公共因子可以表示为：niFFFxiiiii,.,2,1332211公共因子是不可观测的潜在因子。24个变量共享这三个因子，但是每个变量又有自己的个性，不被公共因子包含的部分，称为特殊因子。321FFF、i因子分析的主要作用：因子分析的主要作用：在多元统计分析中我们经常遇到诸多变量之间存在强相关的问题。这会对分析带来许多麻烦。例如回归分析中的多重共线性问题。通过因子分析，我们可以找出几个较少的有实际意义的因子，反映出原来数

23、据的基本结构。通过因子分析可以用所找出的少数几个因子代替原来的变量做回归分析、聚类分析、判别分析等。注：注：因子分析与回归分析不同，因子分析中的因因子分析与回归分析不同，因子分析中的因子是一个比较抽象的概念，而回归因子有非常明子是一个比较抽象的概念，而回归因子有非常明确的实际意义；确的实际意义；主成分分析分析与因子分析也有不同，主成主成分分析分析与因子分析也有不同，主成分分析仅仅是变量变换，而因子分析需要构造因分分析仅仅是变量变换，而因子分析需要构造因子模型。子模型。主成分分析主成分分析:原始变量的线性组合表示新的原始变量的线性组合表示新的综合变量，即主成分；综合变量，即主成分；因子分析：潜在

24、的假想变量和随机影响变因子分析：潜在的假想变量和随机影响变量的线性组合表示原始变量。量的线性组合表示原始变量。11.2.2 数学描述与主要特征由于数据的标准化不改变原来变量之间的相关关系，而又常常能使问题简化，因此以下的讨论都建立在已标准化的数据之上。因子分析最初由英国心理学家C.Spearman提出。他提出的问题是：学生的k门功课的成绩xi是由一个起公共作用的智力因子f与起特殊作用的因子ei所决定的。kiefaxiii,.,2,1,后来，美国心理学家L.Thurstone认为智力因子多于一个，于是模型成为kiefafafaximimiii,.,2,1,2211因此，我们现在面临的数据矩阵Xk

25、n(k n)是knkknnkxxxxxxxxxXXXn21222211121121.21指标指标指标对象：所面临的因子分析的（样本观察值的）数学模型是kiefafafaximimiii,.,2,1,2211其中m k。fj是公共因子(Common Factors),它们之间是两两正交的(Orthogonal).ei是特殊因子(Unique Factors),只对相应的xi起作用的因子它们都已经标准化aij是公共因子的负载(Factor Loadings),是第i个变量在第j个因子上的负载，相当于多元回归中的标准化回归系数（注意我们假设fj也是标准化了的）。矩阵kmkkmmaaaaaaaaa2

26、12222111211称为公共因子的负载矩阵。除了假设公共因子之间互不相关（两两正交）外，进一步还假设特殊因子也互不相关，并且公共因子与特殊因子之间也互不相关。基于这样的假设，可以证明（1）aij也是xi与fj之间的简单相关系数。事实上，由于xi与fj都是标准化了的（其方差都为1），所以，它们之间的简单相关系数为ijjikikjijijiafefafxfDxDfx),cov(),cov()()(),cov(（2）xi与xj的简单相关系数rij，是两个变量的公共因子对应系数的乘积之和。jmimjijiijaaaaaar2211（3）xi的方差为：1)()(2iiieVarhxVar其中22221

27、2imiiiaaah （即负载矩阵第i行元素的平方和）称为公因子方差(Communality)，又称为公共度或公共方差，代表了xi的方差中由公共因子决定的部分。若则表明xi的公共因子(f1,f2,fm)解释了xi的96%的方差（注意xi的方差等于1）。实际上96.02ih)()()()(12222212iiiimiiijijieVarheVaraaaefaExVar2ih（4）fj因子的贡献(Contribution,记为Vj),是该因子在模型中的所有负载的平方和（负载矩阵第j列元素的平方和）：22221kjjjjaaaV由于xi已标准化，所以k个变量的总方差为k，Vj/k表示第j个公共因子

28、的贡献在所有方差中占的比例。11.2.3 因子模型与主成分模型的区别因子模型kiefafafaximimiii,.,2,1,2211主成分模型kiXaXaXaYkkiiii,.,2,1,2211之间的区别：公共因子在因子模型等号的右边，而主成分在主成分模型等号的左边。此外在因子模型中除了公共因子外还存在特殊因子，因此公共因子只能解释原来变量的部分方差，而主成分能解释原来变量的所有方差。11.2.4 对应于样本模型的总体模型样本模型样本模型kiefafafaximimiii,.,2,1,2211可以简单地用矩阵表达如下：eAfx式中，x=(x1,x2,xk)T,f=(f1,f2,fm)T,e=(

29、e1,e2,ek)Tkmkkmmaaaaaaaaa212222111211A是因子负载矩阵。如果用大写字母表示相应的随机变量（相应样本值的总体变量），则总体模型总体模型可以表示为：kiFaFaFaXimimiii,.,2,1,2211其矩阵表示为：AFX其中，A是确定型矩阵，X,F都是标准化了的随机向量，且F1,F2,Fm互不相关，所以E(X)=0,E(F)=0,Cov(F,F)=Cov(F)=Imm,随机变量1,2,k与F相互独立，且E()=0,22100),()(kCovCov11.2.2小节的结论就是基于上述假设得到的。11.2.5 变量1,2,之间的相关性检验因子分析的前提是变量X1,

30、X2,Xk之间的相关性，如果X1,X2,Xk之间正交，则它们之间就不会存在公共因子，因此作因子分析就失去意义了。所以在进行因子分析之前，必须先检验X1,X2,Xk之间的相关性。只有在相关性较高时，才适合做因子分析。有时这样的检验也称为适当性检验适当性检验。检验之间的相关性是否高到适合进行因子分析的常用方法有如下两种。（1）KMO样本测度(Kaiser-Meyer-Olkin Measure of Sampling Adequacy)。它是所有变量X1,X2,Xk的简单相关系数的平方和与这些变量之间的偏相关系数的平方和之差。相关系数实际上反映的是公共因子起的作用。由于偏相关系数是在控制了其他变量

31、对两变量影响的条件下，计算出来的净相关系数，如果变量之间确实存在较强的相互重叠传递影响，即如果变量中确实能够提取出公共因子，那么控制了这此影响后的偏相关系数必然比较小。因此KMO越接近1，越适合于公共因子分析。KMO过小，则不适合作因子分析。（2）巴特莱特球体相关检验(Bartlett test of sphericity)。这个统计量（在一定条件下服从2分布）从整个相关系数矩阵来考虑问题，其零假设H0是相关系数矩阵为单位矩阵，可以按常规的假设检验的方法判断相关系数矩阵是否显著地异于单位矩阵。没有针对KMO测度的显著性检验。数据是否适合做因子分析一般采用如下主观判断。KMO的值在0.9以上，非

32、常适合KMO的值在0.80.9，很适合KMO的值在0.70.8，适合KMO的值在0.60.7，不很适合KMO的值在0.50.6，很勉强KMO的值在0.5以下，不适合注：此外还有经验方法，如果相关系数矩阵中大部分相关系数都小于0.3且未通过显著性检验，那么这些变量就不适合做因子分析。11.2.6 公共因子负载的求法1.公共因子负载的求法（1）若已知，求负载矩阵A的方法在求公共因子F时，为了使X=(X1,X2,Xk)T的方差不受损失，所以要考察X的协方差矩阵（由于X1,X2,Xk的相关性，所以考察协方差矩阵）。可以证明：AAX()(COVCOVT由于已知，所以已知，记X()(COVCOVXAAX

33、()()(*COVCOVRT现在的任务是由已知的R*(X)来求（km阶）矩阵A。从求第一个公共因子f1的负载向量a1开始。我们的目标是要使第一个公共因子f1的方差贡献212212111kaaaV尽可能大，同时必须满足，所以目标函数和约束条件是：)(*XAART)(*或写成矩阵s.t.max*121221211XAARraaaaaTijmttjitk形式可以证明：若b1是对应于R*(X)的最大特征值1的任意一个模长为1的特征向量，则就是满足上述数学规划问题的一个解。111ba现在求a2。记，可以证明，若2是R1*的最大特征根，b2是与之对应的任意一个模长为1的特征向量，则就是所求。)(1

34、1*1aXfCOVR222ba同理可求出a3,am。（2）若未知，求负载矩阵A的方法（事实上通常都未知）现未知，先用X的相关系数矩阵R(X)代替上面的R*(X)。然后像上面一样求出R(X)的最大特征根1以及对应的模长为1的特征向量b1，。若111baTR11)(aaX 接近对角矩阵，则说明剩下的主要是特殊因子的影响了，计算停止。否则，再求次大特征根2对应的单位特征向量b2，并令。若222baTTR2211)(aaaaX接近对角矩阵，则说明剩下的主要是特殊因子的影响了，计算停止。否则，继续这一过程，直到出现上述停止的信号，或者直到计算到am为止。注意：这一算法只是近似算法。上面出现的向量aj与

35、bj的关系是，用其分量表示就是jjjbamjbbbaaajkjjjkjjj,.,2,1,2121（3）为了使问题简化，仅选解释作用比较大的部分公共因子。确定因子个数的方法。仅取特征值大于1所对应的长度为1的特征向量，来计算公共因子的负载。碎石准则(Scree Test Criterion)：把特征值从大到小，绘在坐标图上（横坐标是特征值从大到小的编号，纵坐标是特征根的值），把特征根减小速度变缓的特征根都去掉。然后用剩下的特征根对应的单位特征向量来计算公共因子负载。上述求公共因子的方法称为主成分法。（4）其他求公共因子的模型方法主轴因子法(Principal Axis Factoring)最小

36、二乘法(Least Squares)极大似然法(Maximum Likelihood)因子提取法(Alpha Factoring)映像分析法(Image Factoring)（5）负载矩阵的Akm不唯一性。设Akm是一个已经得到的负载矩阵。对于任意的正交矩阵Tmm，有T T=T-1。由于Akm是负载矩阵，因此AAT=R*(X)。但是(AT)(AT)T=ATTTAT=AAT=R*(X)。这表明AT也是负载矩阵。也就是说负载矩阵是不唯一的。负载矩阵Akm不是唯一的，对任意已经得到的一个负载矩阵Akm，都可以通过右乘一个正交矩阵T得到一个新的负载矩阵AT。但右乘一个正交矩阵，相当于作一次坐标旋转变换

37、。实际上，按照前面的方法得到的负载矩阵Akm所对应的公共因子往往综合性太强，以致难以看出因子的实际意义，因此需要通过旋转坐标轴，使负载尽可能向1、0的方向靠近。从而降低因子的综合性，使其实际意义凸现出来。坐标轴的旋转，有两种基本方式：正交旋转（保持因子之间的正交性）与斜交旋转（旋转后因子之间不再保持正交）。（1）正交旋转正交旋转的主要方法有以下三种：四次方最大法(Quartimax)：使每个变量只有一个因子有较高的负载，其余因子负载尽可能小。方差最大法(Varimax)：使每个因子上的负载尽可能向1的方向，或0的方向靠近。等量最大法(Quimax)：把上两种方法结合起来的方法。其中方差最大法是

38、最常用的方法。（2）斜交旋转斜交旋转的因子的实际意义更容易理解。极端情况是回到原来的变量。斜交旋转的缺点是，求出的两两正交的公共因子，旋转后，正交性又丧失了。对公共因子实际意义的解释在旋转完成后，按照负载绝对值的大小，对公共因子的实际含义进行解释。解释的方式，统计学并不提供标准的模式，因具体问题而异。但一般而言，对公共因子的合理解释建立在对实际问题的深刻理解与把握的基础之上，是实践性很强的艺术。因子意义的解释是十分主观的，在许多研究的资料中，因子分析模型都用少数可阐述因子提供了合理解释。实际上，绝大多数因子分析并没有产生如此明确的结果。此外不幸的是，评价因子分析质量的法则尚未很好量化，质量问题

39、在很大程度上要依赖实践经验及对所研究问题的理解。11.2.7 示例例某公司请12名顾客对5类肉食偏好打分，结果如下表（1）求出相关系数矩阵如下表Correlation Matrix1.000-.016-.429-.395-.053-.0161.000-.181-.473.571-.429-.1811.000.545-.149-.395-.473.5451.000-.301-.053.571-.149-.3011.000牛肉鱼肉羊肉猪肉鸡肉Correlation牛肉鱼肉羊肉猪肉鸡肉2.252，1.405，0.534，0.489，0.321（2）求出5个特征值为：（3）求出负载矩阵Compone

40、nt Matrixa.477-.695.5237.531E-029.959E-02.682.5657.603E-02-.300.345-.703.433.468-.262-.176-.854.1348.313E-02.332.369.580.629.169.463-.157牛肉鱼肉羊肉猪肉鸡肉12345ComponentExtraction Method:Principal Component Analysis.5 components extracted.a.Total Variance Explained2.25245.04245.0422.25245.04245.0421.40528.0

41、9773.1391.40528.09773.139.53410.67183.810.53410.67183.810.4899.77693.586.4899.77693.586.3216.414100.000.3216.414100.000Component12345Total%of VarianceCumulative%Total%of VarianceCumulative%Initial EigenvaluesExtraction Sums of Squared LoadingsExtraction Method:Principal Component Analysis.其中前两个因子对应的

42、特征值大于1,因此取前两个因子.它们的累积贡献率为73.129%(SPSS计算的结果见上表).（4）用最大方差法旋转，得到含义明确的负载矩阵Rotated Component Matrixa-.822-.188-.118.878.810-.158.718-.4807.057E-05.856牛肉鱼肉羊肉猪肉鸡肉12ComponentExtraction Method:Principal Component Analysis.Rotation Method:Varimax with Kaiser Normalization.Rotation converged in 3 iterations.a.

43、于是有121188.0822.0特殊因子特殊因子牛肉牛肉ff221878.0118.0特殊因子特殊因子鱼肉鱼肉ff321158.0801.0特殊因子特殊因子羊肉羊肉ff421480.0718.0特殊因子特殊因子猪肉猪肉ff5215856.010057.7特殊因子特殊因子鸡肉鸡肉ff从表中数据看，第一个公共因子f1（从绝对值角度看）对牛肉、羊肉、猪肉（都属于大家畜）的影响大，f1应当是消费者对大家畜肉类的某些特征的共同反映。例如可解释为制作方便、食用方便等因素。第二个公共因子f2对鸡肉、鱼肉影响大，可以解释为营养虽好，但制作不便，或食用相对较麻烦。11.2.8 因子值的求法在应用因子分析时，求出

44、经过旋转后的因子负载矩阵，并解释公共因子的含义，常常并不是目的。而目的往往是利用得到的公共因子作进一步的分析。例如利用公共因子进行回归分析、作聚类分析、进行评价等等。因此需要计算因子值（得分,score）。如果原始变量有n个样本观察值，则利用原始变量的样本观察值应该也能得到每个公共因子的n个值。设第j个公共因子的因子值fj，可以由原始变量x1,x2,xk的样本观察值计算出来（必须注意，无论是原始变量还是公共因子，都是经过了标准化的）。则jkjjjnknnkknjjjjxxxxxxxxxfffxf2121222211121121其中j是待定的系数矩阵，而且不能依靠fj来估计。在表达式 fj=xj

45、两端左乘 xT,得xTfj=xTxj,即kjjjnknnkknkkknnnjjjnkkknnxxxxxxxxxxxxxxxxxxfffxxxxxxxxx2121222211121121222121211121212221212111上式左端的第i个分量可以写成（注意fj与xi是经过了标准化的，因此均值为零，标准差为1）：ntjtnttinttjtinttjtifxfxfx121211即恰好是两个向量fj与xi的相关系数，也就是第i个变量在第j个公共因子的负载aij。因此上述矩阵表达式的左端恰好是负载矩阵的第j列aj=(a1j,a2j,akj)T。同理可说明右端的矩阵xTx恰好是x的相关系数矩阵R。因此矩阵表达式xTfj=xTxj就是aj=Rj于是j=R-1aj,从而fj=x R-1aj注：这种确定因子值的方法在SPSS中称为回归方法，但它实际上与第10章中讨论的回归分析无关。除此以外，确定因子值还有其他方法。11.3 用SPSS进行因子分析见“用SPSS进行因子分析”及操作演示选取原始变量计算相关矩阵适当性检验提取因子并计算负载矩阵因子旋转解释因子意义用其他方法分析计算因子得分基于因子分析的其他分析进一步应用

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

第11章主成分分析与因子

最新文档

相关资源

相关搜索