同济医学院-《医学多元统计》课件-主成份_因子分析1

上传人:仙*** 文档编号:155519882 上传时间:2022-09-23 格式:PPT 页数:29 大小:123.50KB
收藏 版权申诉 举报 下载
同济医学院-《医学多元统计》课件-主成份_因子分析1_第1页
第1页 / 共29页
同济医学院-《医学多元统计》课件-主成份_因子分析1_第2页
第2页 / 共29页
同济医学院-《医学多元统计》课件-主成份_因子分析1_第3页
第3页 / 共29页
资源描述:

《同济医学院-《医学多元统计》课件-主成份_因子分析1》由会员分享,可在线阅读,更多相关《同济医学院-《医学多元统计》课件-主成份_因子分析1(29页珍藏版)》请在装配图网上搜索。

1、 主成份分析n主成份分析:对数据和变量结构进行分析处理的一种行之有效的多元统计分析方法,它可在不损失或尽量少损失原有指标信息的情况下,将多个具有相关性的指标转换成少数几个互相独立的综合指标,即主成份.如何去寻找主成份呢?n这可从“点集”的角度来讨论:在有P(2)个指标的P维空间中,抽取了n个点(即n个观察对象),我们希望弄清这n个点间的关系,显然在高维空间中点的关系不直观,若把这些点“近似地”在较低维(如m维,mP)空间中表示出来,无疑对我们的研究有帮助。这也就是主成分分析的基本思想和目的。Y1X1X2如何达到这个目的呢?Y(Y1,Y2,YP)是由 X(X1,X2,XP)经正交变换正交变换得来

2、的,即存在一个正交矩阵U,有:YUX YU XUXUXYUXUXUXYUXUXUXpppppppppp11111221221122221122.正交变换正交变换n在所有形如上面的线性变换中,选取这样的线性变换,它使Y1具有最大方差,Y2次之,依此类推,即方差的大小顺序是V(Y1)V(Y2)V(YP),且Y1,Y2,YP彼此独立(互不相关)。这样得到的Y1,Y2,YP分别叫做指标变量X X的第一,第二,第P主成分(principel component)。n有P个原指标变量,相应的就应该有P个主成分,但只有前面的m个主成分具有实际的解释意义,将具体讨论m的确是方法。n由于Y Y是X X的线性变换

3、(即线性组合),所以Yi(i1,2,P)都是X X的一个综合指标。主成分分析的计算步骤 n(1)计算各变量的相关系数矩阵R(rij);n(2)计算相关矩阵R的特征值,并按由大到小的顺序排列:1 2 p。n(3)计算贡献率i 和累积贡献率 m,确定m的值(即主成分的个数)。n(4)求出前m个特征值1,2,m所对应的单位特征向量 主成分的贡献率与主成分的个数 n 1.主成分的贡献率 第i个主成分提取的信息占全部P个变量总信息的比,称为该主成分的贡献率,即:i为第i个主成分Yi的贡献率贡献率。iiiiP1 如果是通过相关矩阵R求主成分,则主成分的贡献率的计算尤为简单:i =i/p 显然有 =1,即全

4、部主成分对X “总方差”的贡献率率为100。iiP1 2.累积贡献率 把多个主成分的贡献率由大到小累加起来,就得到各主成分的累积贡献率 m:m 这就是前m个主成分Y1,Y2,Ym对X “总方差”的累积贡献率。m 愈大,表明前m个主成分的方差占全部总方差的比率愈大,反映X的总信息就越多。当 m 接近于1时,表明前m个主成分已基本上综合了原指标X的总信息。iimiip11 3.主成分个数m的确定 一般可有如下两种方法来确定主成分的个数(即m取值):确定某个m使得 m 70。取m所有i中大于或近似于1的个数。(其中i为相关阵R的特征值)。因子分析因子分析 factor analysis 1.因子因子

5、(factor):进行多指标变量(因素)研究时,尽管各指标之间的关系错综复杂,但都可以概括为两个方面。一方面是所有指标(变量)各自都表现出一定的相对独立性;另一方面,它们又表现出一定的相互关联性。对于前者,可以看作为事物“个体特性个体特性”的反映;对于后者,则可认为是构成该事物的所有特征的共性共性反映。共性的背后有一个共同的东西在支配这些指标,使之表现为不同的方式组合,体现出共同的作用。因子分析的概念因子分析的概念n例如,人的收缩血压和舒张血压这两个指标一方面表现出各自的独立性,各自的测量值不同,意义不同。然而,收缩压与舒张压又总是密切相关的,其根本原因在于收缩压和舒张压二者都是受心脏血管系统

6、支配的。心血管系统既要求收缩压和舒张压对心血管的正常活动分担不同的任务,同时又要求二者密切配合,共同为心血管系统的正常功能服务。反过来,假设我们还不知道收缩压和舒张压是受心血管系统的控制。现在,通过医学研究,测得n个个体的收缩压和舒张压,得到了一系列研究数据。问题在于可否通过对这些数据的统计学分析,找出影响这两个血压的“共性”来,即我们称之为因子因子的东西。2.2.因子分析因子分析 因子分析就是寻找隐含在多变量数据中的、无法直接观察到的公共因子的一种多元统计分析方法。其目的就是要通过对多变量观察数据的分析,找出支配多个指标间相互关系的少数几个(小于原指标个数)共性因子(有时也称公共因子,下同)

7、,而且要求这些找出的公共因子彼此互相独立。尽管这些公共因子往往不能直接测定,但若以这些共性因子(新指标变量)代替原来观察测量的变量,却能够使原指标所包含信息总量损失很小。因子分析的数学模型设对于某一研究问题,观察了P个变量(X1,X2,XP),记为X=(X1,X2,XP)。变量Xi Xi的独立成分Xi 的共性成分若Xi 与其他的Xi 无任何相关性(即没有共性部分),则等式右边的公共成分部分就为零。由于支配(或影响)P个变量的共性因子往往不止一个,记为m个:f1,f2,fm(mp),则有:XAFCU 其中 A(aij)pxm F(f1,f2,fm)CU=(C1U1,C2U2,CPUP)若记Xi*

8、ai1f1ai2f2aimfm,则Xi*为Xi的共性部分,系数aij则表示Xi在因子fj上的载荷(负荷),又叫做因子载荷。也有人把aij叫权重系数,其大小表明Xi依赖fj的程度。而矩阵A(aij)pxm则称为因子载荷矩阵。Ui表示Xi的独立部分,又称为独立因子。Ci为Xi在Ui上的负荷。因子载荷因子载荷所谓因子分析,就是从可以测量的变量(X1,X2,XP)的样本观察值,即研究获得的数据资料中,求出因子载荷矩阵A A;再运用求出的因子和因子载荷矩阵来预测公因子(f1,f2,fm)。n在进行因子分析时,为了消去变量量纲的影响,常常将变量观察结果首先进行标准化处理。如果把标准化处理后的结果仍然记为(

9、X1,X2,XP),则有E(Xi)0,V(Xi)1。如果运用标准化的数据进行分析,所得的结果包括共性因子和独立因子也都是标准化的了,即有E(fj)0,V(fj)=1,E(Ui)0,V(Ui)=1。n 进行因子分析有四个任务:估计出载荷矩阵A;确定共性因子个数m;确定有实际意义的载荷矩阵B;计算因子得分。1.因子载荷aij的意义 Xiai1f1ai2f2aimfm CiUi 那么,第i个变量Xi与第j个因子fj的协方差便为:r xifiaij因子f1,f2,fm的系数ai1,ai2,aim是用来度量变量Xi可用f1,f2,fm线性组合表达的程度的。也就是说,因子载荷aij反映了Xi依赖fj 的程

10、度,常常把aij叫做权重。几个统计量的意义几个统计量的意义2.变量共同度的统计意义 V(Xi)V(ai1f1ai2f2aimfm CiUi)V(fi)+V(CiUi)令Hi 2 V(ai1f1ai2f2aimfm),则有:V(Xi)Hi 2 Ci 2 又由于V(Xi)1,故有Hi 2 Ci 2=1 为此,称Hi 2为指标变量Xi的共同度共同度(communality)或共性方差共性方差(common vriance)。第i个变量的共同度实质上是载荷矩阵A的第i 行元素的平方和。n V(Xi)=共性方差Hi 2 剩余方差 Ci 2 n 显然Hi 2大则Ci 2必减少,故Hi 2的大小表明了Xi对

11、于f1,f2,fm的共同依赖程度之大小,这是为什么我们称Hi 2为Xi的共同度的原因。3.公因子fj方差贡献的统计意义n 在因子载荷阵A中,对A的各列元素求平方和,记为gj2 ngj2与Hi 2统计意义恰好相反。gj2表示的是第j个公因子fj对于(X1,X2,XP)的总影响,即gj2是同一公因子fj对于所有变量X所提供的方差的总和。显然gj2是衡量公因子间相对重要性的关键指标。gj2愈大,表明第j个因子fj对X的“贡献”也愈大。若把因子载荷矩阵A的各列元素的平方和都计算出来,并按照计算结果的大小排序,即所有m个因子的相应的“贡献”满足 g12g22gm2,则可以以此为依据,提炼出相对影响较大的

12、一些公因子,这是在因子分析时确定因子个数m的立足点。确定了因子的个数,那么,与g12、g2、gm2相应的公因子f1,f2,fm便称为第一公因子,第二公因子,第m公因子。因子载荷矩阵A A的求法n 从上面一节的介绍不难看出,因子分析的关键内容之一就是载荷矩阵A的估计。只有估计出了A,其他的计算才可能进行。1.矩阵A的求法 RAA 若不考虑独立因子部分,即取 R*AAR(rij*)则R*与相关阵R的区别仅在于主对角线上的元素。R*的主对角线上的元素依次为变量共同度Hi 2(i1,2,p),而相关阵R的主对角线上的元素均为1,为此通常称R*为约相关矩阵。公因子个数m的估计n方法一:如果约相关矩阵R*

13、非负定(即R*的特征根均是非负实数.m的确定与主成分分析相似。如果前m个特征根之和占全部特征根之和的70(或75)以上,那么,只须选取这前m个公因子就够了。n方法二:公因子的个数m应该等于R*的特征根中“明显”(由研究的需要自己确定标准)大于零的个数,即此时mR*的所有特征根中“明显”大于零的个数。方差最大正交旋转 首先要明确这里的“理想”是指什么意义?目前经典的理解是要使因子载荷系数(载荷矩阵)满足所谓“简单结构”原则:即要找一个这样的正交矩阵Q,以使矩阵AQ的每一列的所有元素的绝对值都向0或1两极分化(即其绝对值要么趋于0,要么趋于1)。实施这种“简单结构”原则后,新的因子负荷系数的绝对值大小,能够明确地表明某个变量主要受哪些因子的支配。因子得分的估计 n FX B 因子分析的应用 n结构效度分析结构效度分析

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!