主成分分析法

上传人:jin****ng 文档编号:110729259 上传时间:2022-06-19 格式:DOC 页数:8 大小:232KB
收藏 版权申诉 举报 下载
主成分分析法_第1页
第1页 / 共8页
主成分分析法_第2页
第2页 / 共8页
主成分分析法_第3页
第3页 / 共8页
资源描述:

《主成分分析法》由会员分享,可在线阅读,更多相关《主成分分析法(8页珍藏版)》请在装配图网上搜索。

1、主成分分析法一、主成分分析(principalcomponentsanalysis)也称为主分量分析,是由Holtelling于1933年首先提出的。主成分分析是利用降维的思想,把多指标转化为少数几个综合指标的多元统计分析方法。二、应用背景:对同一个体进行多项观察时,必定涉及多个随机变量X1,X2,Xp,它们都是相关的,一时难以综合。这时就需要借助主成分分析(principalcomponentanalysis)来概括诸多信息的主要方面。我们希望有一个或几个较好的综合指标来概括信息,而且希望综合指标互相独立地各代表某一方面的性质。任何一个度量指标的好坏除了可靠、真实之外,还必须能充分反映个体间

2、的变异。如果有一项指标,不同个体的取值都大同小异,那么该指标不能用来区分不同的个体。由这一点来看,一项指标在个体间的变异越大越好。因此我们把“变异大”作为“好”的标准来寻求综合指标。例1、考察对象股票业绩(这里单个股票为观察个体)。(1) 确定影响股票业绩主要因素:主营业务收入(X1),主营业务利润(X2)利润总额(X3),净利润(X4),总资产(X5),净资产(X6),净资产收益率(X7),每股权益(X8),每股收益(X9),每股公积金(X10),速动比率(X11)作为变量。因此对单个股票来说,用11个随机变量综合刻化。但这些因素过多,各因素区别不明显,有交叉反映。通过主成分分析,可降为少数

3、几个综合指标加以刻化。(2) 考察20支不同的股票。从数学角度看,每种影响因素是随机变量(Xi),观察一支股票便得到影响该股票的11个随机变量取值;观察20支股票,便得到了20x11的原始数据阵X20X11(略)。三、问题:作为主成分?严格的数学定义?相应的性质有哪些?主成分取多少?1、主成分的一般定义设有随机变量XI,X2,Xp,其样本均数记为X1,X2,Xp,样本标准差记为SI,S2,Sp。首先作标准化变换xX厂厂7S7我们有如下的定义:若Y1二allxl+al2x2+alpxp,a11+a2+a1p1,且使Var(Yl)最大,则称Y1为第一主成分;(2) 若Y2=a21x1+a22x2+

4、-+a2pxp,a|1+叫2+%=1,(a21,a22,a2p)垂直于(all,al2,alp),且使Var(Y2)最大,则称Y2为第二主成分;(3) 类似地,可有第三、四、五主成分,至多有p个。2、主成分的性质:Y1,Y2,,Yp具有如下几个性质(1)主成分间互不相关,即对任意i和j,Yi和Yj的相关系数Corr(Yi,Yj)=0i主j组合系数(ai1,ai2,,aip)构成的向量为单位向量,a2+a2+a2=1i1i2ip各主成分的方差是依次递减的,即Var(Y1)2Var(Y2)22Var(Yp)(2) 总方差不增不减,即Var(Y1)+Var(Y2)+Var(Yp)=Var(x1)+V

5、ar(x2)+Var(xp)这一性质说明:主成分是原变量的线性组合,是对原变量信息的一种改组,主成分不增加总信息量,也不减少总信息量。(3) 主成分和原变量的相关系数Corr(Yi,xj)=aij令XI,X2,Xp的相关矩阵为R,(ail,ai2,,aip)则是相关矩阵R的第i个特征向量(eigenvector)。而且,特征值Xi就是第i主成分的方差,即Var(Yi)=Xi其中Xi为相关矩阵R的第i个特征值(eigenvalue)3、主成分的数目的选取前已指出,设有p个随机变量,便有p个主成分。由于总方差不增不减,Y1,Y2等前几个综合变量的方差较大,而Yp,Yp-1等后几个综合变量的方差较小

6、,严格说来,只有前几个综合变量才称得上主(要)成份,后几个综合变量实为“次”(要)成份。实践中总是保留前几个,忽略后几个。保留多少个主成分取决于保留部分的累积方差在方差总和中所占百分比(即累计贡献率),它标志着前几个主成分概括信息之多寡。实践中,粗略规定一个百分比(一般为80%)便可决定保留几个主成分;如果多留一个主成分,累积方差增加无几,便不再多留。四、主成分分析的一般步骤1、设观察个体的变量指标为X,X2,Xp,它们的综合指标主成分为Z,z2,zm(mp),贝U厂zlx+1x+.+1x11111221ppz1x+1x+.+1xmm11m22mppZ,Z2,.,zm分别称为原变量指标X,X2

7、,.,x6的第一,第二,第m主成分。2.收集原始数据,得如下数据表:观察个体xiX2+iXP个体1个体299个体n设有随机变量X,X,,X,其样本均数记为x,x,X,样本标12p12P准差记为S,s2,Sp。首先作标准化变换X-Xx=7S73、计算相关系数矩阵,对应的特征值九1九p(按从大到小排列)及其对应的特征向量F%AL5空A切zMMMM(2)b,c=eigs(R)*上A中_其中Matlab命令:(1)R=corrcoef(X)计算主成分贡献率及累计贡献率主成分翟的贡献率为X-i累计贡献率対23心工血jt-i般取累计贡献率达:85-95%的持征值入込耳所对应的第一、第二,第m类似形式结果:

8、12345.04356.02956.0291.7419.3990.99711B7636.5040.6106.7S1g密加5貢67&g05393.77S,-97.0610.1721.90?S.9670.0790.3727ggg400.0140.1556gg.gg伍0.00040.0042100.00表3歸辭遁聂主谢商偉主咸分特征值贡献率C%累计贡献率C%)5计算主成分载荷l=厂e(i,j=1,2.6)ijije为九对应的标准化的特征向量的第j分量iji类似形式结果:6.进行结果分析类似形式:第一主成分z1与xl,x3,x4,x5,x8,x9有较大的正相关,可以看作是流域盆地规模的代表;第二主成分

9、z2与x2有较大的正相关,与x7有较大的负相关,分可以看作是流域侵蚀状况的代表;第三主成分z3与x6有较大的正相关,可以看作是河系形态的代表;根据主成分载荷,该流域系统的9项要素可以被归纳为三类,即流域盆地的规模,流域侵蚀状况和流域河系形态。如果选取其中相关系数绝对值最大者作为代表,则流域面积、流域盆地出口的海拔高度和分叉率可作为这三类要素的代表。例2、主成分分析方法应用实例1)实例1:流域系统的主成分分析(张超,1984)表(点击显示该表)给出了某流域系统57个流域盆地的9项变量指标。其中,x1代表流域盆地总高度(m),x2代表流域盆地山口的海拔高度(m),x3代表流域盆地周长(m),x4代

10、表河道总长度(m),x5代表河道总数,x6代表平均分叉率,x7代表河谷最大坡度(度),x8代表河源数,x9代表流域盆地面积(km2)。表351某裁作翳地盍数番注:表中数据详见书本87和88页。(1)分析过程:将表中的原始数据作标准化处理,然后将它们代入相关系数公式计算,得到相关系数矩阵(表)。1.000询为Xfix7Xp-0.3701.0000.619-0.0171.0000.657-0.157O.S411.0000474-0.150.7$-.9211.000X:0.074-01740.1670.0940.1651.0000.607.jrd.5660.1620.2170.150.170moo0

11、.431-0.10.753Cl.9琲0.9990.110.164moo0.689-0.0160.9100.9370.7SS0.0710.10.79?1.000由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率(见表)。由表可知,第一,第二,第三主成分的累计贡献率已高达86.5%,故只需求出第一、第二、第三主成分z1,z2,z3即可。辔征疽躱主哦分盂孵1i34g67.gg5.04356.02956.0291.719.39975.420.9P711.範刃40.6109艮遞5O.X39阴愁97.0610.1721.90?9S.96i:0.0790.87270.0140.1599.9财.00

12、40.0042:100.00主成分特征值责献率(%)異计盂猷率C%):材于特征值=5.043;=1.746,3=0.597分别求出其持征向量弘劭口,毎用公式嘉二尹(為,巧)二寸先智念j=2直加计篦各变量边,烁-!母)在主成分?:Zi西#z3上的载荷(表)。表嘉主威分载苟主成毎占方差的百另数爲)爲0.75-仮一仮塞a-0.2J-a.o-73-20価0.190.0081190.970.14-o.d96.630.910.1S.O.ld83.26o.qo-诅o.gd详:-a.q-卩龚.190.930.H0.16SPPO0.9蛋0.22-a.io9116(2)结果分析:第一主成分z1与xl,x3,x4,

13、x5,x8,x9有较大的正相关,可以看作是流域盆地规模的代表;第二主成分z2与x2有较大的正相关,与x7有较大的负相关,分可以看作是流域侵蚀状况的代表;第三主成分z3与x6有较大的正相关,可以看作是河系形态的代表;根据主成分载荷,该流域系统的9项要素可以被归纳为三类,即流域盆地的规模,流域侵蚀状况和流域河系形态。如果选取其中相关系数绝对值最大者作为代表,则流域面积、流域盆地出口的海拔高度和分叉率可作为这三类要素的代表。(2)实例之二:中国大陆31个省(市、区)第三产业综合发展水平的主成分分析与评估聚类分析聚类分析就是用数学方法对事物进行分类,如(1)我们可以根据学校的师资、设备、学生的情况,将大学分成一流大学,二流大学等;(2)国家之间根据其发展水平可以划分为发达国家、发展中国家;环境优劣分类等。聚类分析一种多元统计方法。基本思想:(1)确定观察个体的观测指标,找出能够度量相似程度的统计量;(2)建立相似关系矩阵R。(3)把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)聚合完毕。(4)分类结果可以用聚类谱系图表现,非常清楚直观。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!