主成分分析相关理论及操作

上传人:z**** 文档编号:149751700 上传时间:2022-09-07 格式:DOCX 页数:11 大小:477.19KB
收藏 版权申诉 举报 下载
主成分分析相关理论及操作_第1页
第1页 / 共11页
主成分分析相关理论及操作_第2页
第2页 / 共11页
主成分分析相关理论及操作_第3页
第3页 / 共11页
资源描述:

《主成分分析相关理论及操作》由会员分享,可在线阅读,更多相关《主成分分析相关理论及操作(11页珍藏版)》请在装配图网上搜索。

1、主成分分析一:所用软件:spssl9.0Graphpad Prism 5.0Bioedit v7.1.3二:主成分分析原理:主成分分析(Principal Component Analysis)就是考虑各指标之间的相互关系,利用降维的方 法将多个指标转换为少数几个互不相关的指标,从而使进一步研究变得简单的一种统计方法。主成分分析是由 Hotelling于1933年首先提出的,是利用“降维”的思想,在损失很少信息的前提下把多个指标转化为几个综合指标, 称为主成分。分类变量和连续变量均可以参与两步聚类分析。每个主成分均是原始变量的线性组合,且各个主成分之间互不相关,这就使得主成分比原始变量具有某些

2、更优 越的性能。主成分分析不能看作是研究的结果,而应该在主成分分析的基础上继续采用其他多元统计方法来解决实 际问题。三:实验操作过程(一)1数据的处理:利用bioedit,计算出37株重症和44株非重症EV71病毒株的序列与EV71 Brer株的相 似度;为了研究是否区域中的碱基(A,T,G,C含量不同队区分重症和非重症有意义,所以利用bioedit计算出EV71 病毒13个区域(vp1-vp4,2A-2C,3A-3C,3UTR,5UTR)各个区域中个病毒株的不同碱基的含量。(二)2.spss19.0主成分分析过程及参数的设置第一步:录入或调入数据也未标盅雹甜| - IBM 5P55 5灿1屜

3、世龙iMM文件旧幅诅 珮卧 Zig 旺挝;肘少酬也戰买用程序 可口刖脚U窣 3UTK.B433735可見三15空址的15V1p1-p22A5sAJz3l4458-rdinan.UG41.,9a朋B2-B17.a 12.60?j6AF31G321-5B&nn90QD099101J170217+9-7加引閒牺訓SH成関川油帏ia3231009345709-aATd3965B7-LlH1.iPMri997.a?aiB10B41.767gDQl334-S6-584Tsrrt,3n83aieis13179110DQ13359-I2354airtan.9282J25.816.73fl1191028K031

4、769-12DQ1357-7FU5-5-9Si3350J1893150213Q34136G-3E2BG4-SAR-i3naiaiB17B3175B14DQSdiaez-fuiYsai/sysAR!?刖.B14.826.789-15DQ34l36B-rdYlO4/a-,SAR.9-7.92刖-B13-BS6.79116DQ3 田时弼 FiAUS999301036799-17EU354&41-26k/AUSMig32aiB11B2G7B918FJGO&USa.ID&ZOSOUl.a?B2B11B2G73B19FJ6Q7337-l21/HEhJ2bEM*0fi/Chria.竝ai-824.a?i.7

5、9820FJ 同门圄创田 SHEMZMEMOa/Chnm.9281-B13J31.79121GQ2319KTV/110WB9?ai.B1304122Ga23ig26.ig56LiD5aiB22B3179123GQ邛柏2S-TY心263印333aiBSO331羽324GCl詔酋矽TW丿囚血B.83刖.MS.031.793K0023193771205938182193173?2SGQ231939-71595W9301J1803179327GQ231941.S60OiDa32aiB13B3G762第二步:打开“因子分析”对话框。”的路径打开因子分析选项框。沿着主菜单的“ AnalyzeData Re

6、ductionFactor第三步:选项设置。首先,在源变量框中选中需要进行分析的变量,点击右边的箭头符号,将需要的变量调入变量(Variables) 栏中。在本例中,全部13个变量都要用上,故全部调入。因无特殊需要,故不必理会“Value ”栏。下面逐 项设置。1.设置 Descriptives 选项。单击Descriptives按钮,弹出Descriptives对话框。2SJI- Inverse厂 ReproducedI- Anti-imageFactor Analysis: DescriptivesStatisii cs1 Univariate descriptivesF initial

7、solutionCorrelation Matrix 皆 Coefficients厂 Significance levels磧 Determin an!厂 KMO and Bartletts test of sphericity图5描述选项框在Statistics栏中选中Univariate descriptives复选项,则输出结果中将会给出原始数据的抽样均值、方差和 样本数目(这一栏结果可供检验参考);选中Initial solution复选项,则会给出主成分载荷的公因子方差(这一 栏数据分析时有用)。在Correlation Matrix栏中,选中Coefficients复选项,则会给出

8、原始变量的相关系数矩阵(分析时可参考); 选中Determinant复选项,则会给出相关系数矩阵的行列式,如果希望在Excel中对某些计算过程进行了解,可 选此项,否则用途不大。其它复选项一般不用,但在特殊情况下可以用到(本例不选)。设置完成以后,单击Continue按钮完成设置。需要注意的是:主成分计算是利用迭代(Iterations)方法,系统默认的迭代次数是25次。但是,当数据量较大 时,25次迭代是不够的,需要改为50次、100次乃至更多。对于本例而言,变量较少,25次迭代足够,故无 需改动。设置完成以后,单击Continue按钮完成设置。3.设置Scores设置。选中Save as

9、variables栏,则分析结果中给出标准化的主成分得分(在数据表的后面)。至于方法复选项, 对主成分分析而言,三种方法没有分别,采用系统默认的“回归” (Regression)法即可。选中Display factor score coefficient matrix,则在分析结果中给出因子得分系数矩阵及其相关矩阵。 设置完成以后,单击Continue按钮完成设置。第四步:结果分析(只列出本实验研究目的相关的内容作解释)1.在Tot al Variance Explained(全部解释方差)表的Ini ti al Eigenvalues (初始特征根)中,给出 了按顺序排列的主成分得分的方差(

10、Total),在数值上等于相关系数矩阵的各个特征根2,因此可以直接根据特 征根计算每一个主成分的方差百分比( of Variance)。由于全部特征根的总和等于变量数目,即有m=E2=8,I 故第一个特征根的方差百分比为2/m=3.755/8=46.939,第二个特征根的百分比为22加=2.197/8= 27.459, 其余依此类推。然后可以算出方差累计值(Cumulative %)。在Extraction Sums of Squared Loadings,给出了从 左边栏目中提取的三个主成分及有关参数,提取的原则是满足21,这一点我们在上面的Correlation Matrix所 示的对话框

11、中进行了限定。主成分的数目可以根据相关系数矩阵的特征根来判定,如前所说,相关系数矩阵的特征根刚好等于主成分的方 差,而方差是变量数据蕴涵信息的重要判据之一。根据2值决定主成分数目的准则有三:i只取21的特征根对应的主成分从Total Variance Explainec表中可见,第一、第二和第三个主成分对应的2值都大于1,这意味着这三个 主成分得分的方差都大于1。本例正是根据这条准则提取主成分的。ii累计百分比达到80%85%以上的2值对应的主成分在To tal Variance Explainec表可以看出,前三个主成分对应的2值累计百分比达到89.584%,这暗示只要 选取三个主成分,信息

12、量就够了。Total Variance ExplainedComp onentIn itial Eige nvaluesExtracti on Sums of Squared Load ingsTotal% of Varia neeCumulative%Total% of Varia neeCumulative%13.75546.93946.9393.75546.93946.93922.19727.45974.3982.19727.45974.39831.21515.18689.5841.21515.18689.5844.4025.03194.6155.2132.66097.2756.1381

13、.72498.99976.5E-02.81899.81781.5E-02.183100.000Extraction Method: Principal Com ponent Analysis.iii根据特征根变化的突变点决定主成分的数量从特征根分布的折线图(Scree Plot)上可以看到,第4个2值是一个明显的折点,这暗示选取的主成分数目应有pW4 (图8)。那么,究竟是3个还是4个呢?根据前面两条准则,选3个大致合适(但小有问题)。Scree PlotComp onent Nurtier在Component Matrix (成分矩阵)中,给出了主成分载荷矩阵,每一列载荷值都显示了各个变量与

14、有关主成分 的相关系数。以第一列为例,0.334实际上是vpl与第一个主成分的相关系数。将标准化的vpl数据与第一主 成分得分进行回归,决定系数R2=0.112,容易算出R=0.334,这正是vpl数据在第一个主成分上的载荷。成饴矩阵耳成份123vpl.344-.390.240vp2.963.063-.103vp3*945.023-.1B5vp4.91 B-.1 09.0092A.795-.030-.4272B.4B5.395-.1562C.907.260-.1553A.671-.455.3043B.845.242.09B3C.934-.235-.0593D.950.0491143UTR.31

15、3.6115UTR.593-.31 6.349提取方法主成份*a.已提取了 3个成份第五步,计算结果分析。从Component Matrix即主成分载荷表中可以看出,VP2在第一主成分上载荷较大,亦即与第一主成分的相 关系数较高;3UTR在第二主成分上的载荷绝对值较大,即负相关程度较高;2A指数在第三主成分上的载荷较 大,即相关程度较高。因此可将主成分命名如下:第一主成分:vp2主成分;第二主成分:3 UTR主成分; 第三主成分:2A主成分。第五步:做出三个主成分间相关关系的三维散点图- IBM SPSS Swtlwlcs iSBSFWttt:SKSBcElWEDcib HteWc.EJ 干舟

16、忻呂:EHRSQ4 :pQasreoFAC1_2P4 匚FAC4353-4B-1 .23153405135445 E4-1.19T7B23-412总 G0Q51.6-41331 31930-66592924391 136598-685410 628&1 41779吕-3S7B43E5Q5-46124ID-20353口 &41-4 17 口討-O3SO0-&66029774?12919E6.-1.13646475 8413 &1 410D01-111343-32115055 5115Q5QEQ-24S7TQ2S 1430074 i 11S37963661?02J26-3B10801636IB24

17、SD3.217S1-.233 B019-IB2733 9745-BB5 3S2D-S 01-4E22 3 36BS-1 2T2BB21-67668690711 1472022-34d?2d 5011-.26543A 29G36SI 532-42S ES-.216913 &403-203 1 1-.Z52Z3S盹貯-1 Q05D1近.ffl-H vp 勺 vp2MESA2日 l:iZC IIC&SL非画井、3 B KP23B2 X iC |3O3D l3D、TUTR 1UTR、 a_LTTR iSJ-SUTF REGR faciei r seer# REGR Tadar scora REGR T

18、adar acora咨:W迅 r:n&lEHtlUITT:mtn冷 REGR Ta eta r AGDr芒lacb REG-R factor score tiBte j *曲占(E|L 恥豊 | fiPJCil Igraphs-Legacy Dialogs一scatter2.Daooo-l 巴Q晶OUE4M15UJH1 Qdooy-.00000-1.00000-a.Daoao-a.oaoao-第六步:个序列的主成分得分如下得分1得分2得分3.42743-1.52320.49020.33935-178001-1.06264700551.58632-1.19211-.51023.26259-.51

19、033-.83667.48S24-.34594.85822.65619-.56565-.19958-.28604-1.09746.27330.22355-.6428S1.64990-2.211322.615631 .B4235.05093.34924.97196-.32761.20459.22957.08007-1.6889?.21602-.62016-.59561T rl -T-ii- n ii Ti-i fl-11-i四:利用Graphpad Prism 5.0分析三个主成分对两组(重症和非重症)在统计学上是否对其分组有显著水平差异及做 出相关图PrismFkUndo ClQbomdAna

20、lslQUhangR|Afrange IlDrawi II WriteiHf GraphPad PrismFile Edit View Insert Change Arrange Windcfw HdpG当Titbs10-D.643Hc220531eS回Be!非軸(-)全正iv&ard cdurm mathnlH 1ImportDraix业File Edit View Insert Change Arrange VJindow HdpI IPtion 1r-_2.03400D.01439-0.37957Q.1192410.932QE2.Q20S3-2.195S2-D.917&51.005011

21、.D851E-1.0651-1-D.1795&0 90100 530172.07733-0.91954-0461311 Q29670 937472.怕5朋-D.W74S-D.981220.52-4910.51934-1.2B683-0.1715100*7471 05401 Bl 70 30.91190-D.D7306-D 336E91 B25251.35125D.68B15-0.319B90.9S2431.174550.32049D.H496-025248-Jj.503080.D811E-0.05934D.25B93-D 01972-Q 7T142-0 03675-0.71365-0.0374

22、3-0 417730別日640 616811.42390-DJ47B71.045360.767SE0.37000.762Bt-0.041210 63137Q.067D60 9321E2.732550.0S1B90.304761.23223-D.85729 、 D.72QB00.375191.D095C1.46393-0.37151丿卫30跖-0.141303-1.01034-D.0SM60.D91Q1| Uuit-in aiHy溜C aid 1非亜症(Z重症丰垂症f三04=1153 907191.04L7B30427211.31651-1.25549-D.124B2旧日茹 -Q24Q321.D

23、2514Analyze D 日 tnWhich analpsi 日AraizDwHch data sets?CaredWrte非重症1 至症二)2D3 Cat a Tables- Bl Data 1-口 InfoO Project info 1 r 手 Results 于口 Graphs宜 Data 1 HayaLits5ekcUIDueled AlLhdapbaa-dAn* 圉Charge-rii tK?1- 1.7=Ar lyze難申XUB Graph Pad Pricm - IProjectliDats 1FtisniFifeShzetUrdcdpbaadArnlyssJ沁X陌-k.二

24、AnE/ze财 File Edrt View Insert Change Arrange Virtndow HOK-jYou may 已ither chouse a t已日 by checking the l:hree oplion tiu:-:es_. or yiziu e口/ chociEt -3by name be Io i-xi .Fl Paired test. Values in e-ach roi-x represent paired ubser/atiuns.Nonparametric test. Dont assurne Gaussian distribulions.J Wel

25、chs currecticn. D onl: assume equal variances.T est Marne:Unpaired t test with Welchs correctionZlOptions:F valLjes:One-tailed 0,T .-tailedConf id ence Intervals: 95 之Significant digitsShij.A1 4 仃 | significant digitsOutput匚reate a table oF descriptive statistics For each colurrmCancelt test1Table A

26、nalyzedData 12Column A重症(-)3vsvsColumn B非重症-)&Unpaired ite-st with Welchs correction1P value0.4135SP value summarynsgAre means signif. different? (P 0 05)No10One-or two-tai led P value?Two-tailed11Welch-corrected t, dft=0.S223ctf=751213How big is the difference?14Mean : SEN of column A-0 1002 ?O 168

27、4 M=371&Mean : SEM of column B0.08425 70.-1482 N=4416 ifTerence between means-0.13U ?0.22431795 confidence interval-0.6J20 to 0.263118R squared0.0089351920F test to compare variances21F.DFn.Dfd1.087, 36,4322P valuez23P value summary7T524Are 7a.rianees significantly different?NoLearn-2-3-4-5重症1 非重症1 重症2 非重症2 重症3 非重症3

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!