皮尔逊积矩相关系数Pearsonproduct

上传人:ba****u6 文档编号:194241331 上传时间:2023-03-13 格式:DOCX 页数:6 大小:233.35KB
收藏 版权申诉 举报 下载
皮尔逊积矩相关系数Pearsonproduct_第1页
第1页 / 共6页
皮尔逊积矩相关系数Pearsonproduct_第2页
第2页 / 共6页
皮尔逊积矩相关系数Pearsonproduct_第3页
第3页 / 共6页
资源描述:

《皮尔逊积矩相关系数Pearsonproduct》由会员分享,可在线阅读,更多相关《皮尔逊积矩相关系数Pearsonproduct(6页珍藏版)》请在装配图网上搜索。

1、皮尔逊积矩相关系数(Pearson product-moment correlation coefficient)1定义在统计学中,皮尔逊积矩相关系数(Pearson product-moment correlation coefficient),有时也 简称为PMCC,通常用r或是p表示,是用来度量两个变量X和Y之间的相互关系(线性相关) 的,取值范围在-1,+1 之间。皮尔逊积矩相关系数在学术研究中被广泛应用来度量两个变量线性相 关性的强弱,它是由Karl Pearson在19世纪80年代从Francis Galton介绍的想法基础发展起来的, 但是发展后原想法相似但略有不同的,这种相关系

2、数常被称为“Pearson的r”。两个变量之间的皮尔逊积矩相关系数定义为这两个变量的协方差与二者标准差积的商,即cov(X, Y) E(X -七)(Y -叩XY a aa a上式定义了总体相关系数,一般用希腊字母p(rho)表示。若用样本计算的协方差和标准差代 替总体的协方差和标准差,则为样本相关系数,一般用r表示:X (X - X )(Y - Y)r = i=1另外一个与上式等效的定义相关系数的公式是通过标准化以后变量均值的积定义的。假设样本 可以记为(X , Y),则样本Pearson相关系数为1 n r = n -1i=1其中,X和SX分别为标准化变量,样本均值和样本标准差。2皮汆逊积矩

3、相关系数的数学特性不论是样本的还是总体的Pearson相关系数绝对值均小于等于1,相关系数等于1或-1时,所 有数据的点都精确地落在一条直线上(为样本相关系数的情况),或是两变量的分布完全由一条直 线支撑(为总体相关系数的情况)。Pearson相关系数具有对称性,即:corrcorr(X,Y) = corr(Y,X)。Pearson相关系数的一个关键的特性就是它并不随着变量的位置或是大小的变化而变化。也就是 说,我们可以把X变为a+bX,把Y变为c+dY,其中a,b,c和d都是常数,而并不会改变相互之 间的相关系数(这点对总体和样本Pearson相关系数都成立)。Pearson相关系数可以用原

4、点矩的形式表示。因为口x = E(X),a* = E(X)-X2 = E(X2)-E2(X), 对于Y也有相似的表达式。又E( X E (X) E (Y E (Y) = E (XY) E (X) E (Y) 于是式(1)可写为E (XY) - E (X) E (Y)P .XY -:E (X 2) - E 2( X ).E (Y 2) - E 2(Y)上述形式对于样本的Pearson相关系数同样是可用的,有V -x y -nxy r = iixy(n - 1)s sn x y-Vx V上式提供了一个非常简单的计算样本相关系数的算法,但是有时受数据的影响,可上式可能存 在数值上的不稳定性。相关系数

5、取值范围为-1,1。取1时表示变量X和Y之间具有线性变化的关系,即Y随着X的 增加而增加,而且所有的点都落在一条直线上。取1时则是所有点落在一条直线上,但是变量Y随 着X的增加而减小。相关系数值为0是表示变量之间没有线性相关关系。更一般地,应该注意到,只要X和Y落在各自均值的同一侧,那么(X -X)(Y -Y)就是大于0i iii的。也就是说,只要乂和Y同时趋近于大于或是同时趋近于小于他们各自的均值,那么它们的相关 系数为正。反之,当二者区于在相反的一边时,二者相关系数为负。几种的(x,y)点即相应的x、y的相关系数。可以看出,相关反映线性关系分散程度和方向(第 一行),但是不能反映线性关系时

6、的斜率(第二行),也不能反映出非线性关系的许多方面(最底下 一行)。注:图中第二行第四个小图的直线斜率是0,在这种情况下,相关系数是没有意义的,因为 Y的方差是零。3几何解释对于相对中心性的数据(例如,一组已经通过样本均值转换为均值为0的数据),相关系数可 以看做是由两随机变量样本绘出的两个向量之间夹角的余弦值。有些学者则比较倾向于非中心性(费皮尔逊兼容)的相关系数。以下通过一个例子比较二者之 间的差异。假设有5个国家,国民生产总值分别为10亿美元、20亿美元、30亿美元、50亿美元和80亿 美元,而贫困人数占总人口的比例分别为11%、12%、13%、15%和18%。则可令X = (10,20

7、,30, 50, 80), Y = (0.11, 0.12, 0.13, 0.15, 0.18)。有一般的计算两个向量之间的角度的过程(点乘)可得非中心性相关系数为:cos 0 =0.920814711x y 2.93klllbll _、而S.09833.08应该注意到,上述数据是特意从完全线性相关的线性函数Y=0.10+0.001X中挑选出来的,所以 Pearson相关系数应该精确地为1。将数据中心化(将X减去E(X)=38, Y减去E(Y)=0.138),可得 X=(-28,-18,-0.8,12, 42),Y=(-0.028,-0.018, -0.08,0.012, 0.042),并有C

8、OS = llx W|y II 一 43080 y 0.00308 = 1 一巧跟期望的一样。相关系数大小与相关性大小的关系许多学者都提出了通过相关系数大小判断变量相关性的标准。但是正如Cohen(1988)所指出的 一样,这些标准或多或少的有些武断,不应该过于严格地遵守。相同相关系数对相关性大小的判断 取决于不同的背景和目的。同样是0.9的相关系数,在使用很精确的仪器验证物理定律的时候可能 被认为是很低的,但是社会科学中,在评定许多复杂因素的贡献时,却可能被认为是很高的相关性。 相关系数与相关性的关系相关性负值正值不相关-0.09 0.00.0 0.09低相关-0.3 -0. 10.1 0.

9、3中等相关-0.5-0. 30.3 0.5显著相关-1.0 一0.50.5 1.04对数据分布的敏感性4.1存在性总体的Pearson相关系数是通过原点矩来定义的,所以二元概率分布的总体协方差以及变量边缘 总体反差必须是有意义且是非零的。一些概率分布例如柯西(Cauchy)分布的反差就是无意义的, 因此在X或Y服从这种分布时,p也是没有意义的。在一些实际应用中,例如那些涉及数据在尾部 比较集中的情况,考虑这点就是很重要的。但是,相关系数的存在性通常不是我们关注的焦点,因 为一般只要分布是有界的,那么p就可以被定义。4.2大样本性在二元正态分布中,若已知变量的边缘分布的均值和标准差,那么由Pea

10、rson相关系数就可以 完全确定该分布的特性。但是对于其它的二元分布,情况就有所不同。然而,不论变量之间的联合 概率密度函数是不是正态的,Pearson相关系数都是用来衡量两个随机变量之间的线性相关程度的。 对于二元正态数据,样本的相关系数是总体相关系数的极大似然估计,并且具有渐进无偏性和有效 性,也即是说在数据来自正态分布,且样本大小适中或是足够大的时候,不可能构造一个比样本相 关相关系数更加精确的量来估计变量之间的相关性。对于非正态总体,样本相关系数依然是渐进无 偏的,但是可能不是有效的估计。只要样本均值、方差、协方差是一致的(可以通过应用大数定律 来保证),样本相关系数是总体相关系数的一

11、个一致估计量。UOQe-(Dou uoseDd图中显示了在给定的样本大小时,在置信水平为0.05时,具有显著非零Pearson相关系数的的最小 值。A graph showing the minimum value of Pearsons correlation coefficient that is significantly different from zero at the 0.05 level, for a given sample size.5 鲁棒性(Robustness)与其他一些广泛应用的统计量相同,样本统计量r是不可靠的,在存在异常值的时候,r的值可 能会误导我们。也就是说

12、,PMCC不仅受变量分布的影响,还随异常值非常敏感。观察X、Y之间 的散点图,就可以看出,缺少鲁棒性确实是一个很大的问题,在这种情况下,就需要采用更加稳健 的参量来度量变量的相关性。但是值得一提的是,无论采用多么稳健的参量来度量变量之间的相关 性,都与Pearson相关系数在数值大小保持很好的一致性。基于Pearson相关系数的统计推断对数据的分布类型是很敏感的。所以只有在数据是近似正态 分布的时候,基于Fisher变换的精确检验和近似检验才能被采用,否则就可能导致错误的结论。在 某些情况下,引导可用于构造置信区间,并置换测试可用于进行假设检验。在二元正态不成立时, 非参数的方法在某些情况下可

13、能会得到更有意义的结果。但这些方法的标准版本依赖于数据的互换 性,也就是说,在没有特定的顺序或是数据可供分析时,可能影响相关估计的行为。Spearman 秩相关系数(Spearmans rank correlation coefficient)Pearson线性相关系数只是许多可能中的一种情况,为了使用Pearson线性相关系数必须假设 数据是成对地从正态分布中取得的,并且数据至少在逻辑范畴内必须是等间距的数据。如果这两条 件不符合,一种可能就是采用Spearman秩相关系数来代替Pearson线性相关系数。Spearman秩相 关系数是一个非参数性质(与分布无关)的秩统计参数,由Spearm

14、an在1904年提出,用来度量两 个变量之间联系的强弱(Lehmann and DAbrera 1998)。Spearman秩相关系数可以用于R检验,同样 可以在数据的分布使得Pearson线性相关系数不能用来描述或是用来描述或导致错误的结论时,作 为变量之间单调联系强弱的度量。在统计学中,Spearman秩相关系数或称为Spearman的p,是由Charles Spearman命名的,一般 用希腊字母ps(rho)或是rs表示。Spearman秩相关系数是一个非参数的度量两个变量之间的统计 相关性的指标,用来评估当用单调函数来描述是两个变量之间的关系有多好。在没有重复的数据的 情况下,如果一

15、个变量是两外一个变量的严格单调的函数,则二者之间的Spearman秩相关系数就 是+1或-1,称变量完全Spearman相关。Spearman秩相关系数通常被认为是排列后的变量之间的Pearson线性相关系数,在实际计算中, 有更简单的计算ps的方法。假设原始的数据xi,yi已经按从大到小的顺序排列,记xi,yi为原xi, yi在排列后数据所在的位置,则xi,yi称为变量xi,yi的秩次,则di=xi-yi为xi,yi的秩次之 差。如果没有相同的秩次,则p可由下式计算6Z d 2pt布3如果有相同的秩次存在,那么就需要计算秩次之间的Pearson的线性相关系数Z 3 -力(y -亍)七一,可(

16、;-元)2 3-y)2i ii i一个相同的值在一列数据中必须有相同的秩次,那么在计算中采用的秩次就是数值在按从大到 小排列时所在位置的平均值。表1为一个球平均秩次的例子。注意在秩次相同时,用他们在排列后 的数据中所在的位置的平均值作为秩次。表1有相同数值时秩次的计算变量X从大到小排列时的位置秩次X0.85151.24(4+3)/2=3.51.23(4+3)/2=3.52.3221811Spearman秩相关系数的符号表示X和Y之间联系的方向。如果Y随着X的增加而增加,那么 Spearman秩相关系数是正的,反之,若果Y随着X的增加而减小,Spearman秩相关系数就是负的。 Spearman

17、秩相关系数为0表示随着X的增加,Y没有增大或减小的趋势。随着X和Y越来越接近 严格单调的函数关系,Spearman秩相关系数在数值上越来越大。当X、Y有严格单增的关系是,它 们之间的Spearman秩相关系数为1,反之,在X、Y有严格单减的关系时,Spearman秩相关系数为 -1。严格单增的关系为对于任意的两对数据值Xi,Yi和Xj,Yj,Xi-Yi和Xj-Yj都具有相同的符号。 严格单减则上述差值在任何时候都具有相反的符号。Spearman秩相关系数经常被称为非参数相关系数,这具有两层含义:第一,只要在X和Y具 有单调的函数关系的关系,那么X和Y就是完全Spearman相关的,这与Pear

18、son相关性不同,后 者只有在变量之间具有线性关系时才是完全相关的。另外一个关于Spearman秩相关系数的非参数 性的理解就是样本之间精确的分布可以在不知道X和Y的联合概率密度函数时获得。Spearman correlation=l-100Pearson correlation=O.80 I。,。0.20.40.6 O.B 1.0X不管变量之间的关系是不是线性的,只要变量之间具有严格的单调增加的函数关系,变量之间 的Spearman秩相关系数就是1,相同情况下,Pearson相关性在变量不是线性函数关系时,并不是 完全相关的。Spearman correlation=0,35Pearson

19、correlation=037Spearman correlation=0,84Pearson correlation=0r672 c. 由 = j.*.一玉日-2-10123X在数据大略地呈椭圆形分布,而且没有明显的外形轮廓的时候,Spearman秩相关系数和Pearson 线性相关系数大小比较接近。Spearman秩相关系数对样本的尾部与具有明显的外形轮廓样本偏离比较大的情况没有Pearson 线性相关系数敏感。正的Spearman秩相关系数对应于X、Y之间单调增加的变化趋势,负的Spearman秩相关系数对应 于X、Y之间单调减小的变化趋势。Spearman correlation-0.92Spearman correlation=-0.91

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!