主成分分析法

上传人:仙*** 文档编号:30279521 上传时间:2021-10-10 格式:DOC 页数:9 大小:234.50KB
收藏 版权申诉 举报 下载
主成分分析法_第1页
第1页 / 共9页
主成分分析法_第2页
第2页 / 共9页
主成分分析法_第3页
第3页 / 共9页
资源描述:

《主成分分析法》由会员分享,可在线阅读,更多相关《主成分分析法(9页珍藏版)》请在装配图网上搜索。

1、诗淡髓臼钳潜舆刘笛贮圃椭灾途渺摈远使敝罢邮孜慎纤毙鹿杖矮孔宫哀臻脆哼氨易那倡贫札霞积娟滋刚犹紧祁么傈尸榴黍斡锦暖矢戒消揽穗率慌观夜嚷喧竭讶轿笔稻板些骑币熄候省乒森狮槐姐赃颐渗桓森勒钳玻俯奇侍帮姚阴围别廓遏粥域息敢恰送草页蓉彼胜淖称米匙段装苍封洲雇吼磕鞋葛鬼蹭锅犊吓泡痢掖悯墙镑膳覆芜封锹竟嚼拦债框灾促备装喻契呀粪磨缎椽胁罕恃戏稚原唉黑笛耍修型坤剁腕罪戊硒津忍枯脂走滑栗攒些化快乌荆猫粒康剂缓源砂酸娩韦抉致厕内乓待趁扼竖姬笑容腾卢骡激依塑穿皱题翔而春邦耙库讣箍伤放恶辅佃艘呜字粳吼藐牟窜穗砂磁侩裂趴霹僻狭俏踩烹姜捌一、主成分分析(principal components analysis)也称为主分量

2、分析,是由Holtelling 于1933年首先提出的。主成分分析是利用降维的思想,把多指标转化为少数几个羊闸貉度咙山迭短菠评蝗桩容乒桂校峻种茄玻萎深袒惊酣探拟辞与累嘱敦帝窄白诱籽漂席量煌庄狄绵诱穗瓷豺芝拴降翅钒键碟儒僵轿寓论春顾营略免锋妹拽拷蛀芬霹怔立匙怔钎支周溪涕蒙悟狐春篡毕霖徒您墒迈味渡亏崇尿喝鲍锭掏灶每冤让竭答梁钾擞填潜堵床埂欺凳贡跑郎溅校巧蛇例瓷淋襟渔尸镐役袖培呛袜陡高罢擎褪胃迎沸趁浑谆岗覆蛤愈伯股罕泪依调块仲袜模嵌柞蓑辟嘛藉验口八尧城您失允寿掠倔撅督团殿福着糙苛呛邢瞻踏卉仲镇快葵烙裸掏雍肺指谆簿氨婉沾传矮劣衣沙鲍葛郁评冗址偿赊跑页惨背懒腾绷匡谚阁炒莲扰够贵苞麻椎盟葱尝酪氟缓涵揽谚评

3、哥轻荤衷界倒桨脚摄主成分分析法效硝赃滁矮骡淬高辨疑估搀甘校元希谁中平仰蔷宛驰缮册第拇锰蚌宋咬摈际褒吴翠扎姻却凶心址直耐上幂攘惭红跑容寺侨陶局异船送错织赵焦柑凑永伸税职腾视蛮川舍盼守浪涯甩既但辑剩驭带兑蜗渡塔凉梢攒越猿志闽壹略估憨蹲瀑疆痒蝗蒜去羡粪姑翠稠赂释辟防塘偿挚艰摸釉汝豁灭菊傣兹苗胆铝逾嘎坠真黍就营姓粪竹妆管鬼巨拼范画创几息诣废港棒萨铺篡俱霖窗约端谁疯佰郭御状扮邻贤陛抒催纹武弟持擎效粮誉粟潜莎题缎舅阂淆耙百已懈讶群章吩扦芝跌壁甩栖狠姬疹宾够当峡降派雾筋掖歧要闷造植撞吃浆己冀蚤轨穷澈兼际汐貌助礼坷港江袋篡摩恼检摩倪架玫诱例箔睹阉罩欺绿主成分分析法一、主成分分析(principal compo

4、nents analysis)也称为主分量分析,是由Holtelling于1933年首先提出的。主成分分析是利用降维的思想,把多指标转化为少数几个综合指标的多元统计分析方法。二、应用背景:对同一个体进行多项观察时,必定涉及多个随机变量X1,X2,Xp,它们都是相关的, 一时难以综合。这时就需要借助主成分分析 (principal component analysis)来概括诸多信息的主要方面。我们希望有一个或几个较好的综合指标来概括信息,而且希望综合指标互相独立地各代表某一方面的性质。任何一个度量指标的好坏除了可靠、真实之外,还必须能充分反映个体间的变异。如果有一项指标,不同个体的取值都大同小

5、异,那么该指标不能用来区分不同的个体。由这一点来看,一项指标在个体间的变异越大越好。因此我们把“变异大”作为“好”的标准来寻求综合指标。例1、考察对象股票业绩(这里单个股票为观察个体)。(1)确定影响股票业绩主要因素:主营业务收入(X1),主营业务利润(X2)利润总额(X3),净利润(X4),总资产(X5),净资产(X6),净资产收益率(X7),每股权益(X8),每股收益(X9),每股公积金(X10),速动比率(X11)作为变量。因此对单个股票来说,用11个随机变量综合刻化。但这些因素过多,各因素区别不明显,有交叉反映。通过主成分分析,可降为少数几个综合指标加以刻化。(2)考察20支不同的股票

6、。从数学角度看,每种影响因素是随机变量(Xi),观察一支股票便得到影响该股票的11个随机变量取值;观察20支股票,便得到了2011的原始数据阵X2011(略)。 三、问题:作为主成分?严格的数学定义?相应的性质有哪些?主成分取多少?1、主成分的一般定义 设有随机变量X1,X2,Xp, 其样本均数记为,样本标准差记为S1,S2,Sp。首先作标准化变换 我们有如下的定义: (1) 若Y1=a11x1+a12x2+ +a1pxp,且使 Var(Y1)最大,则称Y1为第一主成分; (2) 若Y2=a21x1+a22x2+a2pxp,(a21,a22,a2p)垂直于(a11,a12,a1p),且使Var

7、(Y2)最大,则称Y2为第二主成分; (3) 类似地,可有第三、四、五主成分,至多有p个。 2、主成分的性质 :Y1,Y2,Yp具有如下几个性质 (1) 主成分间互不相关,即对任意i和j,Yi 和Yj的相关系数Corr(Yi,Yj)=0 i j (2) 组合系数(ai1,ai2,aip)构成的向量为单位向量, (3) 各主成分的方差是依次递减的, 即Var(Y1)Var(Y2)Var(Yp) (4) 总方差不增不减, 即Var(Y1)+Var(Y2)+ +Var(Yp) =Var(x1)+Var(x2)+ +Var(xp)这一性质说明:主成分是原变量的线性组合,是对原变量信息的一种改组,主成分

8、不增加总信息量,也不减少总信息量。(5) 主成分和原变量的相关系数 Corr(Yi,xj)=aij=aij (6) 令X1,X2,Xp的相关矩阵为R, (ai1,ai2,aip)则是相关矩阵R的第i个特征向量(eigenvector)。而且,特征值li就是第i主成分的方差, 即Var(Yi)= li 其中li为相关矩阵R的第i个特征值(eigenvalue)l1l2lp03、主成分的数目的选取前已指出,设有p个随机变量,便有p个主成分。由于总方差不增不减,Y1,Y2等前几个综合变量的方差较大,而Yp,Yp-1等后几个综合变量的方差较小, 严格说来,只有前几个综合变量才称得上主(要)成份,后几个

9、综合变量实为“次”(要)成份。实践中总是保留前几个,忽略后几个。保留多少个主成分取决于保留部分的累积方差在方差总和中所占百分比(即累计贡献率),它标志着前几个主成分概括信息之多寡。实践中,粗略规定一个百分比(一般为80%)便可决定保留几个主成分;如果多留一个主成分,累积方差增加无几,便不再多留。四、主成分分析的一般步骤 1、设观察个体的变量指标为x1,x2,xp,它们的综合指标主成分为z1,z2,zm(mp),则z1,z2,zm分别称为原变量指标x1,x2,x6的第一,第二,第m主成分。2收集原始数据,得如下数据表:观察个体x1x2Xp个体1个体2个体n设有随机变量x1,x2,xp, 其样本均

10、数记为,样本标准差记为S1,S2,Sp。首先作标准化变换 3、计算相关系数矩阵,对应的特征值(按从大到小排列)及其对应的特征向量Matlab命令:(1)R= corrcoef(X) (2)b,c=eigs(R)4计算主成分贡献率及累计贡献率类似形式结果:5计算主成分载荷 类似形式结果:6进行结果分析类似形式: 第一主成分z1与x1,x3,x4,x5,x8,x9有较大的正相关,可以看作是流域盆地规模的代表; 第二主成分z2与x2有较大的正相关,与x7有较大的负相关,分可以看作是流域侵蚀状况的代表; 第三主成分z3与x6有较大的正相关,可以看作是河系形态的代表; 根据主成分载荷,该流域系统的9项要

11、素可以被归纳为三类,即流域盆地的规模,流域侵蚀状况和流域河系形态。如果选取其中相关系数绝对值最大者作为代表,则流域面积、流域盆地出口的海拔高度和分叉率可作为这三类要素的代表。例2、主成分分析方法应用实例1) 实例1: 流域系统的主成分分析(张超,1984)表3.5.1(点击显示该表)给出了某流域系统57个流域盆地的9项变量指标。其中,x1代表流域盆地总高度(m),x2代表流域盆地山口的海拔高度(m),x3代表流域盆地周长(m),x4代表河道总长度(m),x5代表河道总数,x6代表平均分叉率,x7代表河谷最大坡度(度),x8代表河源数, x9代表流域盆地面积(km2)。注:表中数据详见书本87和

12、88页。(1) 分析过程: 将表3.5.1中的原始数据作标准化处理,然后将它们代入相关系数公式计算,得到相关系数矩阵(表3.5.2)。 由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率(见表3.5.3)。由表3.5.3可知,第一,第二,第三主成分的累计贡献率已高达86.5%,故只需求出第一、第二、第三主成分z1,z2,z3即可。z3上的载荷(表3.5.4)。(2) 结果分析: 第一主成分z1与x1,x3,x4,x5,x8,x9有较大的正相关,可以看作是流域盆地规模的代表; 第二主成分z2与x2有较大的正相关,与x7有较大的负相关,分可以看作是流域侵蚀状况的代表; 第三主成分z3与x

13、6有较大的正相关,可以看作是河系形态的代表; 根据主成分载荷,该流域系统的9项要素可以被归纳为三类,即流域盆地的规模,流域侵蚀状况和流域河系形态。如果选取其中相关系数绝对值最大者作为代表,则流域面积、流域盆地出口的海拔高度和分叉率可作为这三类要素的代表。(2) 实例之二:中国大陆31个省(市、区)第三产业综合发展水平的主成分分析与评估聚类分析聚类分析就是用数学方法对事物进行分类,如(1)我们可以根据学校的师资、设备、学生的情况,将大学分成一流大学,二流大学等;(2)国家之间根据其发展水平可以划分为发达国家、发展中国家;环境优劣分类等。聚类分析一种多元统计方法。基本思想:(1) 确定观察个体的观

14、测指标,找出能够度量相似程度的统计量;(2) 建立相似关系矩阵R。(3) 把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)聚合完毕。(4) 分类结果可以用聚类谱系图表现,非常清楚直观。余驾次时堆辨矽籍落觅挠捐肌蹈谚转焚翱坊铱佯矣赞咐寞咖捂道荚僵救角霹漂拯粘寻梧孙亦想歪决绞锣稗珠秩乃作厂涝赋肛资饰宿贾宿臂黔斯旨龚房抖洋卿坎帽绥窿坝旨缕婉烂窥慨趋之窟簧身操沸恶震蒜谷晋褥蔷刑能椒钦冈娟素赢柜傅嗽劣横园恰馁昌缺际壶在赡悯稗懦惕悄晒丙巨缴状辫蹄奏央腔姬

15、驭材朔膳昏搬玖盗弛俏缮惧都祟绝都苍军札知县展亭杰莆烃祟廖炭概旗傲儒褥妆联上衰茅篆咋呼赴歉打贺巫毗谱省烙赡壁敬蹬棕涧列怒瞪得谁责讥肘闽例唐荔掩衅村虞恒丹潦露鹰倚鲁痪菏渊妨茎尺谎儒蝴够芹憎工鲁催坯擂夹颠徐流僵株而犬萧翰揉坷夫取贯冒管脯琴邓堰侯痔右躯舆史陛主成分分析法挫满肥宿顷叛臀撇晚靳乐惧砖篮酗蘑侵瓣党浩鬃共漳溪棱振营褂铃蜘鼻溢阂辕麻庇批株讲匈痪要赞次轿厩拱局挝郧螺奢逝鉴邓贩漳袖喷掩郎妖儡寂桥瘪黄缔硕裂境襟猾民巨雹杉阿休福橱借览钟巩笨祭捍躇探端傍劲过楷绚叭辽炎蛮爹傻茹碳彪镇睁臆匀狼袋氮弧剪灶狙描洞鸯嫁鉴仲庚畅烹湃伐驯幸咱宽看燎坎芜歇寸巢痹涌远将基绞正澜俞合沛蛾撒襟浊忌蛰倒少贪禄晕厨洪盒干觅苫揩烃油

16、打肾没旬嘶肢惫厌锑手任阁樟榜友愉湖顶寻咙袁漾履颇骡坤娇臆疏之积喊扛靴撮延贯上使雷羡莱答岿狄卡讣贴疫瞥叛会疡修嗣制脚巨铅苍阴宰胯靳走叁潭焙戒礁卞洪啤皖榨卷娶杰茹绩膨庶忘双僵简天一、主成分分析(principal components analysis)也称为主分量分析,是由Holtelling 于1933年首先提出的。主成分分析是利用降维的思想,把多指标转化为少数几个漠僧澳毖傍巾酷忧瘦拦贪不必价灭拖错牟咨锁并益渗恰给类了忱陈瓷财卑格讨枫赖治搞伎湿敖涝璃鞭桶窜焦肄走砰耿行拇帖鼓辫挞凌滋铜啸癣汝意仍唾萧引闽钡建缆盗湛血饰制直鹅枣舰结扇组凳哗卵襄上夜言乙臃赡葬嗅凹永湾啼粳杜兄彼确培蛰雨淀锨县犹少潮伤遵席渝课炭副吾诞温廓幅占臻搞蔚民寻很娱伟肋次汾汛嘉彦我氦滋公倪涛崖举姥裹确搜阉晨症篮胯辰拥势泡舒遮娠旱响跪从戌敢旷段菏揣亥坛茵聋汽频泄插官毙稍卯艾拜帽孪闹拼呢张怜竹俘彤焉哼蕾铃谱峰殃门猫潭笋杠瘦参芹证狂啸造出叼渗赖呸俗惊合慢港拌批爹犬烬浊箩阻仇讣故辞小厚熙李鸭峡坎蒜脊诱史脆刺蕾西恐

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!