多元统计分析对应分析幻灯片

上传人:痛*** 文档编号:176594145 上传时间:2022-12-23 格式:PPT 页数:38 大小:306KB
收藏 版权申诉 举报 下载
多元统计分析对应分析幻灯片_第1页
第1页 / 共38页
多元统计分析对应分析幻灯片_第2页
第2页 / 共38页
多元统计分析对应分析幻灯片_第3页
第3页 / 共38页
资源描述:

《多元统计分析对应分析幻灯片》由会员分享,可在线阅读,更多相关《多元统计分析对应分析幻灯片(38页珍藏版)》请在装配图网上搜索。

1、2021/8/21第第7章章 对对 应应 分分 析析Correspondence Analysis7.1列联表及列联表分析列联表及列联表分析7.2对应分析对应分析2021/8/227.1列联表及列联表分析列联表及列联表分析一、列联表及其作用一、列联表及其作用1.列联表是观测数据按两个或更多属性变量列联表是观测数据按两个或更多属性变量(定类尺度或定序尺度)分类时所列出的频(定类尺度或定序尺度)分类时所列出的频数表。数表。2.列联表用于考察两个(或多个)分类变量列联表用于考察两个(或多个)分类变量的统计学关联。如行变量与列变量之间的关的统计学关联。如行变量与列变量之间的关联性。联性。2021/8/

2、23一般一般,若总体中的个体可按两个属性若总体中的个体可按两个属性A与与B分类,分类,A有有n类类A1,A2,An,B有有p类类B1,B2,Bp,属于属于Ai和和Bj的个体数目为的个体数目为nij(i=1,2,n;j=1,2,p),nij称为称为频数,则可形成频数,则可形成np的二维列联表,简的二维列联表,简称称np表。表。若所考虑的属性多于两个,也可按类似若所考虑的属性多于两个,也可按类似的方式作出列联表的方式作出列联表,称为多维列联表。称为多维列联表。2021/8/24列联表列联表B1B2BjBpA1 n11n12n1jn1pn1.A2 n21n22n2jn2pn2.Aini1ni2nij

3、nipni.An nn1nn2nnjnnpnn.n.1n.2n.jn.pn2021/8/25频率意义上的列联表频率意义上的列联表B1B2BjBpA1 p11p12p1jp1pp1.A2 p21p22p2jp2pp2.Aipi1pi2pijpippi.An pn1pn2pnjpnppn.p.1p.2p.jp.p12021/8/26列联表独立性检验列联表独立性检验对于数值型变量相关关系对于数值型变量相关关系,通常是计算相关系数和进通常是计算相关系数和进行回归分析。行回归分析。描述两个定性变量之间的相关性是指广义的相关性,描述两个定性变量之间的相关性是指广义的相关性,称为关联性。两个定性变量的关联程

4、度在某种意义称为关联性。两个定性变量的关联程度在某种意义上就是指的上就是指的“不独立不独立”,它与独立的情形差距越大,它与独立的情形差距越大,就表明彼此的关系越密切,这种关系不一定是线性就表明彼此的关系越密切,这种关系不一定是线性关系。在实际问题中,重要的是判断变量之间是否关系。在实际问题中,重要的是判断变量之间是否独立,因为不独立就意味着关联。最常用的检验办独立,因为不独立就意味着关联。最常用的检验办法是列联表独立性检验。法是列联表独立性检验。列联表检验的零假设是两变量列联表检验的零假设是两变量 X和和Y 相互独立,计相互独立,计算一个卡方统计量,与列联表中频数取值和零假设算一个卡方统计量,

5、与列联表中频数取值和零假设下期望取值之差有关,当卡方下期望取值之差有关,当卡方 很大时否定零假设。很大时否定零假设。2021/8/27例例 吸烟与慢性支气管炎调查表吸烟与慢性支气管炎调查表 为了探讨吸烟与慢性支气管为了探讨吸烟与慢性支气管炎有无关系,调查了炎有无关系,调查了339人,人,情况如表所示:情况如表所示:设想有两个随机变量设想有两个随机变量A,B:A:1表示吸烟,表示吸烟,2表示不吸烟;表示不吸烟;B:1表示患慢性支气管炎,表示患慢性支气管炎,2表示未患。表示未患。零假设为:零假设为:H0:A与与B相互独立相互独立 BA患慢性患慢性支气管支气管炎炎未患慢未患慢性支气性支气管炎管炎吸吸

6、烟烟43162不不吸吸烟烟131212021/8/28STATISTICS FOR TABLE OF SMOKE BY BRON Statistic DF Value Prob Chi-Square 1 7.469 0.006 Likelihood Ratio 1 7.925 0.005 Chi-Square Continuity Adj.Chi-Square 1 6.674 0.010 Mantel-Haenszel Chi-Square 1 7.447 0.006 Fishers Exact Test(Left)4.09E-03 (Right)0.998 (2-Tail)6.86E-03

7、Phi Coefficient-0.148 Contingency Coefficient 0.147 Cramers V-0.148 Sample Size=339 2021/8/29列联表中列出了表格单元频数和在零假设下列联表中列出了表格单元频数和在零假设下的期望频数,可以看出,吸烟人中患病的数的期望频数,可以看出,吸烟人中患病的数目比期望数目大。检验的结果只要看后面的目比期望数目大。检验的结果只要看后面的统计量部分的统计量部分的Chi-Square一行,其值为一行,其值为7.469,p值为值为0.006,所以应否定零假设,吸,所以应否定零假设,吸烟与患慢性支气管炎是不独立的。烟与患慢性支

8、气管炎是不独立的。2021/8/210 对应分析又称为对应分析又称为相应分析相应分析,也称也称RQ分析分析。是因子分子基础发展起来的。是因子分子基础发展起来的一种多元统计分析方法。它主要通过分析一种多元统计分析方法。它主要通过分析属性(定性)变量构成的列联表属性(定性)变量构成的列联表来来揭示变量之间的关系,可以用对应分析图(二维图)显示列联表中每一个单揭示变量之间的关系,可以用对应分析图(二维图)显示列联表中每一个单元格的相对位置,以简单、直观地表明列联表的行与列的关系。元格的相对位置,以简单、直观地表明列联表的行与列的关系。对应分析也是利用降维的思想以达到简化数据结构的目的。不过,在因对应

9、分析也是利用降维的思想以达到简化数据结构的目的。不过,在因子分析中,子分析中,R型因子分析和型因子分析和Q型因子分析是分开进行的。型因子分析是分开进行的。对应分析的基本思对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。中表示出来。在对应分析中,会同时对行与列进行处理,寻求以低维图形表在对应分析中,会同时对行与列进行处理,寻求以低维图形表示数据表中的行与列的关系。(对同一观测数据施加示数据表中的行与列的关系。(对同一观测数据施加R和和Q型因子分析,并型因子分析,并分别保留两个公共因子,

10、则是对应分析的初步)。分别保留两个公共因子,则是对应分析的初步)。7.2 对应分析对应分析2021/8/211 对应分析基本步骤对应分析基本步骤:1 1、获取对应分析数据、获取对应分析数据 确定研究目的,选择对应分析所需数据,确定研究目的,选择对应分析所需数据,应该包括的背景资料。应该包括的背景资料。2 2、建立列联表、建立列联表 3 3、对应分析、对应分析 4 4、利用对应图解释结果。、利用对应图解释结果。2021/8/212二、对应分析的原理 由于由于R R型因子分析和型因子分析和Q Q型因子分析是反映一个整体型因子分析是反映一个整体的不同侧面,的不同侧面,R R型因子分析是从列来讨论(对

11、变量),型因子分析是从列来讨论(对变量),Q Q型因子分析是从行来讨论(对样品),因此他们之型因子分析是从行来讨论(对样品),因此他们之间存在内在的联系。间存在内在的联系。设原始数据矩阵为:设原始数据矩阵为:pnnpnnppxxxxxxxxx212222111211X2021/8/213 由于因子分析都是基于由于因子分析都是基于协方差矩阵或相关系协方差矩阵或相关系数矩阵数矩阵完成的,所以必须从变量和样品的协完成的,所以必须从变量和样品的协方差矩阵入手来进行分析。方差矩阵入手来进行分析。pnpnpnnppppxxxxxxxxxxxxxxxxxx221122221211212111*X2021/8

12、/214 变量的叉积矩阵)(ppR*X)(X样品的叉积矩阵)()(nnQ*XX 显而易见,变量和样品的叉积矩阵的阶数不同,显而易见,变量和样品的叉积矩阵的阶数不同,一般来说,他们的非零特征根也不一样,那么能否将一般来说,他们的非零特征根也不一样,那么能否将观测值做变换。观测值做变换。ZX 具有相同的特征根。和 ZZZZ2021/8/215pnnpnnppxxxxxxxxxX212222111211 (一)规格化矩阵.2.1.2.1212222111211xxxxxxxxxxxxxxxxpnnpnnpp为列和为行和,jixx.为总和.x2021/8/216./xxpijijpnnpnnppppp

13、ppppppX212222111211我们可以把我们可以把pij解释成概率,因为所有的元素之和为解释成概率,因为所有的元素之和为1。pjijipp1.行和:niijjpp1.列和:.11/ijijijijppiiijijjjpxxxxxpxpxxnixxxxxxppppppiipiiiiiipiiii,3,2,1.2.1.2.1称为称为行轮廓行轮廓。即把第即把第i i行表示成在行表示成在p p维欧氏空间中的一个点维欧氏空间中的一个点2021/8/217.2.1.22.222.221.11.112.111/)(nnpnnnnppppppppppppppppppppRNpjppppppEnijii

14、ijiij,2,1,.)(1.行轮廓矩阵为:由此,我们可以将属性变量由此,我们可以将属性变量A A的的n n个取值可个取值可以用以用P P维空间的维空间的n n个点来表示。个点来表示。n n个点的坐个点的坐标即为该行轮廓矩阵。标即为该行轮廓矩阵。但是,因为原始变量的数量等级可能不同,所以但是,因为原始变量的数量等级可能不同,所以为了尽量减少各变量尺度差异,将行轮廓中的各列为了尽量减少各变量尺度差异,将行轮廓中的各列元素均除以其期望的平方根。得矩阵元素均除以其期望的平方根。得矩阵D(R)第第j个变量的期望为:个变量的期望为:2021/8/218pnnpnnnnpppppppppppppppppp

15、pppppppppppppRD.2.21.1.222.2221.221.112.1121.111/)(pjppppppppppEjnijjijiijjiij,2,1,1.)(.1.矩阵矩阵D(R)是消除了变量)是消除了变量B的各个状态概率影响的的各个状态概率影响的P维空间维空间n个点的相对坐标。个点的相对坐标。则这则这n个点的重心,也有个点的重心,也有p维坐标,设其第维坐标,设其第j个分量为:个分量为:N个点的重心为:个点的重心为:),(.2.1.pPPP2021/8/219总惯量总惯量 由矩阵由矩阵D(R)定义的)定义的n 个点与其重心的欧氏个点与其重心的欧氏距离之和称为行轮距离之和称为行轮

16、廓矩阵廓矩阵N(R)的总惯量。的总惯量。记为记为 .II21nIIJI同时,可证明:2021/8/220 称称为列轮廓。为列轮廓。pjxxxxxxppppppjnjjjjjjnjjjjj,3,2,1.2.1.2.1pnpnnppppppppppppppppppppppQN.2.21.1.22.221.21.12.121.11/)(niijjijjijppppppE1.)(同理:列轮廓矩阵为:列轮廓矩阵为:2021/8/221 因为原始变量的数量等级可能不同,所以为了尽量减少各变量尺度差异,将列轮廓中的各行元素均除以其期望的平方根。得矩阵D(Q).2.2.1.1.2.2.22.22.21.21.

17、1.1.12.12.11.11/)(npnpnnnnpppppppppppppppppppppppppppppppQDniijijijijijppppppppE1.)(2021/8/222.1.apajjaajiiaaiijpppppppppapaajjaajaiiaaipppppppppp1.pajajaajiaiaaipppppppppp1.paajaizz1iaiaaiiaiaaiaixxxxxpppppz.利用行轮郭矩阵,可得第i个样品与第j个样品的协方差:令Z为zij所组成的矩阵,则ZA Z2021/8/223anajjajaiiaiaijpppppppppb.1.naajjajai

18、aaiiapppppppppp1.najaiazz1najajajaiaiaiapppppppppp1.利用列轮廓矩阵,可得第i个变量与第j个变量的协方差:ZZB令Z为zij所组成的矩阵,则2021/8/224设 是A=ZZ的非零特征根,则kkkuZuZk)()(kkuZZuZZkkkZuZZB令Z为zij所组成的矩阵,则 因此将矩阵变换成矩阵Z,则很容易求出A和B存在着的简单对应关系。由特征根和特征向量的性质,A和B有相同的非零特征根。在上式的两边都左乘Z,则可见 也是ZZ的特征根,相应的特征向量是2021/8/225三、对应图对应图 设12 l(0imin(n,p)为矩阵A和B的非零特征根

19、,其相应的特征向量为12111puuu1u222122puuuu12111nvvv1v222122nvvvv2021/8/226 我们知道因子载荷矩阵的含义是原始我们知道因子载荷矩阵的含义是原始变量与公共因子之间的相关系数,所以变量与公共因子之间的相关系数,所以如果我们构造一个平面直角坐标系,将如果我们构造一个平面直角坐标系,将第一公共因子的载荷与第二个公共因子第一公共因子的载荷与第二个公共因子的载荷看成平面上的点,在坐标系中绘的载荷看成平面上的点,在坐标系中绘制散点图,则构成对应图。制散点图,则构成对应图。2021/8/227 例例 某地环境检测部门对该地所属某地环境检测部门对该地所属8个个

20、地区的大气污染状况进行了系统的的检测,地区的大气污染状况进行了系统的的检测,每天每天4次同时在各个地区抽取大气样品,则定次同时在各个地区抽取大气样品,则定其中的氯、硫化氢、二氧化硫、碳其中的氯、硫化氢、二氧化硫、碳4、环氧氯、环氧氯丙烷、环已烷丙烷、环已烷6种气体的浓度。有资料如下:种气体的浓度。有资料如下:2021/8/2280.056 0.084 0.031 0.038 0.0081 0.0220.049 0.055 0.10.110.022 0.00730.038 0.130.079 0.170.058 0.0430.034 0.095 0.058 0.160.20.0290.084 0

21、.066 0.029 0.320.012 0.0410.064 0.072 0.10.210.028 1.380.048 0.089 0.062 0.260.038 0.0360.069 0.087 0.027 0.050.089 0.0212021/8/229 特征根贡献率(%)累积贡献率(%)10.5066870.0070.0020.1221316.8786.8730.056587.8294.69 F1和G1,F2和G2尺度相同,所以可以在同一个直角坐标系中作出两种因子的载荷图,这种图称为对应图。2021/8/230R型因子分析的载荷F1F20.13831-0.043850.203330.

22、026500.11003-0.019850.21754-0.186870.217200.28831-0.582750.03279Q型因子分析的载荷F1F20.10599-0.023540.15369-0.061640.16284-0.009280.223880.223770.15853-0.19307-0.561530.019000.16656-0.106640.164290.136442021/8/231-0.20-0.15-0.10-0.050.000.050.100.150.200.250.30-0.6-0.5-0.4-0.3-0.2-0.10.00.10.20.3变量变量样品样品对应图

23、对应图2021/8/232 由图我们可以看出,全部变量与样品分为3类。每一类聚合一些变量和样品。第一类:聚合了环氧氯丙烷X5和D和H两个地区,表明D和H两个地区主要大气污染物为环氧氯丙烷。第二类:包含变量X1,X2,X3,X4和样品A,B,C,E和G地区,这5个地区的主要污染物是氯、硫化氢、二氧化硫、碳4。第三类:包含X6和地区F,该地区的主要污染物是环已烷。2021/8/233 1992-1994年在北京市进行的年在北京市进行的“北京老龄北京老龄化多维纵向研究化多维纵向研究”。在这项研究中,先后在。在这项研究中,先后在两年时间里,对一批两年时间里,对一批60岁以上的老年人进行岁以上的老年人进

24、行了纵向追踪调查,有了纵向追踪调查,有2703位老年人在两次调位老年人在两次调查中都被调查,了解对被调查的老年人查中都被调查,了解对被调查的老年人“日日常生活自理能力常生活自理能力”和和“自评健康情况自评健康情况”,得,得如下资料:如下资料:2021/8/234自评健康状况自评健康状况生活自理能力生活自理能力完全自理完全自理部分自理部分自理不能自理不能自理合计合计很好很好129148151好好931146961173一般一般66011674850差差25110481436很差很差1172341没回答没回答15132452合计合计199740030627032021/8/235 Inertia

25、and Chi-Square Decomposition Singular Principal Chi-Values Inertias Squares Percents 18 36 54 72 90 -+-+-+-+-+-0.29615 0.08770 237.060 92.45%*0.08463 0.00716 19.358 7.55%*-0.09486 256.418(Degrees of Freedom=10)2021/8/236 Row Coordinates Dim1 Dim2 1 -0.25463 -0.07681 2 -0.12566 -0.02671 3 -0.09409 -0

26、.00184 4 0.33842 0.15301 5 1.38102 -0.40863 6 1.18558 -0.10506 Column Coordinates Dim1 Dim2 1 -.158972 -.021637 2 0.231729 0.191960 3 0.734563 -.1097192021/8/237 P l o t o f D I M 1*D I M 2.S y m b o l i s v a l u e o f Z P.D I M 1 1.5 6 3 5 1.1 9 9 6 0.8 3 6 3 0.4 7 3 4 2 0.1 0 9 2 3 1 -0.2 5 4 1 -0.4 0 7 -0.2 6 9 -0.1 3 1 0.0 0 7 0.1 4 5 0.2 8 3 D I M 2部分资料从网络收集整理而来,供大家参考,感谢您的关注!

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!