医学统计学--回归与相关

上传人:zh****u6 文档编号:157792906 上传时间:2022-09-30 格式:PPT 页数:104 大小:960KB
收藏 版权申诉 举报 下载
医学统计学--回归与相关_第1页
第1页 / 共104页
医学统计学--回归与相关_第2页
第2页 / 共104页
医学统计学--回归与相关_第3页
第3页 / 共104页
资源描述:

《医学统计学--回归与相关》由会员分享,可在线阅读,更多相关《医学统计学--回归与相关(104页珍藏版)》请在装配图网上搜索。

1、 第十一章第十一章 回归与相关分析回归与相关分析 本章学习重点 1、直线回归与相关的概念;2、直线回归方程的建立;3、回归系数、相关系数的建设检验;4、直线回归与相关的区别和联系;5、直线回归与相关的应用。回归与相关概述回归与相关概述什么是标准体重,如何测量?什么是标准体重,如何测量?男性:身高(cm)-105标准体重(kg)女性:身高(cm)-100标准体重(kg)北方人理想体重(身高cm-150)0.6+50(kg)南方人理想体重(身高cm-150)0.6+48(kg)回归与相关回归与相关是研究变量之间相互关系的是研究变量之间相互关系的统计分析方法,它是一类双变量或多变量统统计分析方法,它

2、是一类双变量或多变量统计分析方法(计分析方法(本章主要介绍双变量分析方本章主要介绍双变量分析方法法),在实际之中有着广泛的应用。如年龄),在实际之中有着广泛的应用。如年龄与体重、年龄与血压、身高与体重、体重与与体重、年龄与血压、身高与体重、体重与肺活量、体重与体表面积、毒物剂量与动物肺活量、体重与体表面积、毒物剂量与动物死亡率、污染物浓度与污染源距离等都要运死亡率、污染物浓度与污染源距离等都要运用回归与相关方法对资料进行统计分析。用回归与相关方法对资料进行统计分析。变量之间的关系:变量之间的关系:()直线关系(线性()直线关系(线性关系);关系);()曲线关系(非线()曲线关系(非线性关系)。

3、性关系)。在回归与相关分析中,在回归与相关分析中,直线回归与相关是最简单直线回归与相关是最简单的一种,是本章主要内容。的一种,是本章主要内容。直线回归分析:直线回归分析:分析两个变量间的数量关分析两个变量间的数量关系,目的是用一个变量推算另一个变量系,目的是用一个变量推算另一个变量(建建立回归方程立回归方程)。直线相关分析:直线相关分析:分析两个变量之间有无相分析两个变量之间有无相关关系以及相关的性质(正、负相关)和相关关系以及相关的性质(正、负相关)和相关的密切程度。关的密切程度。第一节第一节 直线回归直线回归 一、直线回归的概念一、直线回归的概念“回归回归”一词首先由英国生物统计学家一词首

4、先由英国生物统计学家()提出,他发现,高个子()提出,他发现,高个子的父代其子代平均身高不是更高,而是稍矮;相反的父代其子代平均身高不是更高,而是稍矮;相反,矮个子的父代其子代平均身高不是更矮,而是稍,矮个子的父代其子代平均身高不是更矮,而是稍高于其父代水平,他把这种身高趋向种族稳定的现高于其父代水平,他把这种身高趋向种族稳定的现象称为象称为“回归回归”。目前回归的含义已经演变成变量目前回归的含义已经演变成变量之间的某种数量依存关系。之间的某种数量依存关系。函数关系函数关系:确定的关系。确定的关系。例如例如园周长与半径:园周长与半径:y=2r。回归关系回归关系:不确定的关系(随机的关系)。:不

5、确定的关系(随机的关系)。例如血压和年龄的关系,称为例如血压和年龄的关系,称为直线直线回归回归 (linear regression)。北方人理想体重北方人理想体重(身高身高cm-150)0.6+50(kg)变量间的关系变量间的关系 变量间的回归关系变量间的回归关系 由于生物间存在变异,故两相关变量之间的关由于生物间存在变异,故两相关变量之间的关系具有某种不确定性,如同性别、同年龄的人,其系具有某种不确定性,如同性别、同年龄的人,其肺活量与体重有关,肺活量随体重的增加而增加,肺活量与体重有关,肺活量随体重的增加而增加,但体重相同的人其肺活量并不一定相等。因此,散但体重相同的人其肺活量并不一定相

6、等。因此,散点呈直线趋势,但并不是所有的散点均在同一条直点呈直线趋势,但并不是所有的散点均在同一条直线上,肺活量与体重的关系与严格对应的函数关系线上,肺活量与体重的关系与严格对应的函数关系不同,它们之间是一种回归关系,称直线回归。这不同,它们之间是一种回归关系,称直线回归。这种关系是用直线回归方程来定量描述。种关系是用直线回归方程来定量描述。回归分析涉及到两个变量,回归分析涉及到两个变量,X与与Y,其中,其中X称自变量,称自变量,Y 为因变量或反应变量。为因变量或反应变量。回归分析对资料的要求回归分析对资料的要求Y必须是呈正态分布的随机变量。必须是呈正态分布的随机变量。可以是非随机变量可以是非

7、随机变量:年龄、药物浓度或年龄、药物浓度或剂量剂量 型回归型回归也可以是随机变量也可以是随机变量:身高、体重、血清身高、体重、血清胆固醇的含量,血红蛋白的含量胆固醇的含量,血红蛋白的含量型回归型回归X X X 与与 Y:Y:年龄与身高年龄与身高药物剂量与动物死亡率药物剂量与动物死亡率肺活量与体重肺活量与体重身高与体重、年龄与体重、年龄与血压、身高与体重、年龄与体重、年龄与血压、体重与体表面积、毒物剂量与动物死亡率、体重与体表面积、毒物剂量与动物死亡率、污染物浓度与污染源距离污染物浓度与污染源距离例如:年龄(X)与尿肌酐含量(Y)研究;身高(X)与(Y)体重研究人为确定随机变量两个都是随机变量由

8、由X推算推算Y的直线回归方程一般表达式的直线回归方程一般表达式 (11-1)a称为截距称为截距,b 为回归系数为回归系数,即直线的斜率。即直线的斜率。ab0yxbXaY2 2、回归系数、回归系数b b的统计学意义的统计学意义b0b0时时,Y,Y随随X X增大而增大增大而增大;b0b0b0 b0d b=0 b=0 b=0 b=0dlxxlxyXXYYXXb 2)()(二、直线回归方程的建立二、直线回归方程的建立XbYa 式中式中 、分别是分别是X、Y的均数;的均数;为为X的离均的离均差平方和;差平方和;为为X与与Y的离均差积和,按下式计算。的离均差积和,按下式计算。XYxxlxyl nYXXYY

9、YXXlxy)()(回归分析的步骤回归分析的步骤1、用原始数据绘制散点图;2、求a和b(如果呈直线关系)3、对回归系数b作假设检验(方法:方法:a.Fa.F检验检验 b.t b.t检验检验 c.c.用用r r检验来代替)。检验来代替)。4、如果、如果x与与y存在直线关系(存在直线关系(b假设检验的结假设检验的结果果Pt t0.02,8,故故 0.02P0.01,按按=0.05水准水准,拒绝拒绝H0,接受接受H1,故可以认为故可以认为SAH患者血清患者血清IL-6和脑和脑积液积液IL-6之间有直线关系之间有直线关系,所求回归方程存在。所求回归方程存在。82102 nv580.3816.12 ,注

10、注意意:tF 2 2、方差分析方法、方差分析方法 假设及检验水准同前假设及检验水准同前 217742.88/2161.77461/833.8495/nSSSSF剩剩回回剩剩剩剩回回回回,方差分析表 变异来源 自由度 SS MS F P 回归 1 8495.883 8495.883 8.774 0.018 残差 8 7746.2161 968.277 总变异 9 16242.1000 注意:t2=F按v1=1,v2=8,查F界值表得,F0.05,1,8=5.32,F0.01,1,8=11.26,0.05 P 0.01,按按=0.05=0.05水准水准,拒绝拒绝H0,H0,接受接受H1,H1,故可

11、以认为故可以认为SAHSAH患者患者血清血清IL-6IL-6和脑积液和脑积液IL-6IL-6之间有直线关系之间有直线关系,所求所求回归方程存在。回归方程存在。直线回归分析的区间估计直线回归分析的区间估计(一一)总体回归系数总体回归系数的估计的估计用样本回归系数用样本回归系数b估计总体回归系数估计总体回归系数,方法如,方法如下:下:95%可信区间是:可信区间是:(b-t0.05,(n-2)Sb,b+t0.05,(n-2)Sb),缩写为缩写为 b t0.05,(n-2)Sb Sb 为回归系数的标准误为回归系数的标准误,n-2为自由度。为自由度。是总体中当是总体中当X为某定值为某定值X0时时Y的总体

12、均数。而的总体均数。而将将X的值代入回归方程中所求得的的值代入回归方程中所求得的 为样本均数,为样本均数,是是 的估计值。比如的估计值。比如,SAH患者患者(指总体指总体),血清血清IL-6为为50的人的人,其脑脊液其脑脊液IL-6平均含量就是平均含量就是 ,而,而往往未知往往未知,可以通过可以通过 来估计,计算方法如下:来估计,计算方法如下:y y Yy Yy y (1-)的可信区间是:)的可信区间是:(-t,n-2 ,+t,n-2 ),缩写为),缩写为 t,n-2y Yy SYYy Sy S 22.)()(1XXXXnSSXYYnSSXXXYY 时,时,当当y SY 是是 的标准误。的标准

13、误。例 11.4 利用例11.1的结果,计算当X0=50时,的95%可信区间。y 的95%可信区间为:(109.43,154.47)y 当血清IL-6为50时,脑脊液的IL-6的总体均数为131.95(点值估计),95%可信区间为:109.43-154.47(区间估计)。当即总体中,当当即总体中,当X为某定值时,个体值为某定值时,个体值Y的的波动范波动范 围,个体值围,个体值Y的离散程度用的离散程度用Sy(称个(称个体值的标准差)来表示,其计算方法如下:体值的标准差)来表示,其计算方法如下:2211)XX()XX(nSSX.YY 当当X 与与 接近,且接近,且n充分大时,可用充分大时,可用Sy

14、.x代代替替Sy。X 个体值个体值Y的的1-容许区间计算方法如下:容许区间计算方法如下:),(2,2,ynynStYStY ynStY2,例 11.4 利用例11.1的结果,计算当X0=50时,相应个体值的95%容许区间。经计算,得:当X0=50时,相应个体值的95%容许区间为:(56.73,207.16)当血清IL-6为50时,有95%的病人其脑脊液的IL-6的含量在56.73-207.16范围内。即在100个血清IL-6为50的病人中,有95个病人的脑脊液的IL-6的含量在56.73-207.16范围内。四、直线回归方程的应用四、直线回归方程的应用1、描述两变量间依存的数量关系。、描述两变

15、量间依存的数量关系。=72.961+1.1797X 就是描述就是描述SAH患者第患者第1天脑天脑脊液脊液IL-6随血清随血清IL-6变化的定量表达式。变化的定量表达式。Y2、利用回归方程进行预测、利用回归方程进行预测这是回归方程重要的应用方面。将预报因子这是回归方程重要的应用方面。将预报因子(自变量(自变量X)代入回归方程,对预报量(应变)代入回归方程,对预报量(应变量量Y)进行估计。预报量的波动范围可按求个)进行估计。预报量的波动范围可按求个体值体值Y的容许区间进行计算。的容许区间进行计算。例例 某地防疫站根据近某地防疫站根据近10年来乙脑发病率(年来乙脑发病率(1/10万,预报量万,预报量

16、Y)与相应前一年)与相应前一年7月份日照时间(小月份日照时间(小时,预报因子时,预报因子X)建立回归方程,将乙脑发病率作)建立回归方程,将乙脑发病率作平方根反正弦变换,即取平方根反正弦变换,即取y=sin-1 ,求得回归方,求得回归方程程:=-1.197+0.0068X,Sy.x=0.0223,=237.43,lxx=5690,n=10。已知。已知1990年年7月份日照时间月份日照时间X=260,试估计,试估计1991年该地乙脑发病率(设年该地乙脑发病率(设=0.05)。)。YYX(1)、求个体值)、求个体值Y的离散度的离散度Sy (2)、求)、求X=260时,时,=-1.197+0.0068

17、(260)=0.571=0.05时,时,t0.05,8=2.30695%容许区间是:容许区间是:(-t0.05(n-2)Sy,+t0.05(n-2)Sy)(0.571-2.3060.0243,0.571+2.3060.0243)=(0.5150,0.6270)y y 0243.05690)43.237260(10110223.02 YSy y 取原函数,取原函数,Y=(siny)2,得乙脑发病率,得乙脑发病率95%容许容许区间(区间(0.0000808,0.0001197),故可预测该地),故可预测该地1991年乙脑发病率有年乙脑发病率有95%的可能在的可能在8.0811.97/10万万之间。

18、之间。(注:将注:将y还原时,角度单位定为度还原时,角度单位定为度)3 3、用容易测量的指标估计不易测量的指标、用容易测量的指标估计不易测量的指标4 4、利用回归方程制定医学参考值范围、利用回归方程制定医学参考值范围体重(易)体表面积(难)计算个体值Y的容许区间。如年龄与身高有线性关系,可根据回归方程估计年龄为X时,身高的波动范围(容许区间),即医学参考值范围。医学参考值范围。5、利用回归进行统计控制、利用回归进行统计控制 统计控制是利用回归方程进行统计控制是利用回归方程进行,也,也就是已知就是已知y之后反推之后反推x。如要求。如要求y在一定范围内波在一定范围内波动时,可按求动时,可按求Y的容

19、许区间来推算的容许区间来推算x的取值来实的取值来实现。现。例:例:某市环境监测站在交通点连续测定某市环境监测站在交通点连续测定30天,每天,每天定时采样天定时采样3次,测得大气中次,测得大气中NO2浓度浓度Y(mg/m3)与当时汽车流量与当时汽车流量X(辆(辆/小时),共小时),共90对数据,求对数据,求得回归方程:得回归方程:=-0.064866+0.000133X,剩余标准差剩余标准差Sy.x=0.032522,若,若NO2的最大容许浓度为的最大容许浓度为0.15/m3,则汽车流量应如何控制?设则汽车流量应如何控制?设=0.05。Y分析:分析:NO2的浓度以过高为异常,应求个体值的浓度以过

20、高为异常,应求个体值y的的单侧波动范围的上限值,其单侧波动范围的上限值,其95%的波动范围是:的波动范围是:+t(0.05,v)Sy=-0.064866+0.000133X+t(0.05,v)Sy要求要求NO2的最高容许浓度为的最高容许浓度为0.15,即:,即:-0.064866+0.000133X+t(0.05,v)Sy=0.15Y单侧单侧t 0.05,(,(90-2)=1.662,以,以Sy.x代替代替Sy,带入,带入上式得:上式得:-0.064866+0.000133X+1.6620.032522=0.15 解上式得:解上式得:X=1209.13(辆(辆/小时)小时)即只要把汽车流量控制

21、在即只要把汽车流量控制在1209辆辆/小时以下,小时以下,就有就有95%的可能使的可能使NO2浓度不超过浓度不超过0.15mg/m3。(1)作回归分析要有实际)作回归分析要有实际意义。意义。(2)进行直线回归分析前)进行直线回归分析前,应绘制散点图。,应绘制散点图。作用:看散点是否呈直线作用:看散点是否呈直线趋势;趋势;有无异常点、高杠有无异常点、高杠杆点和强影响点;杆点和强影响点;五、应用直线回归分析应注意的问题五、应用直线回归分析应注意的问题异常点(3 3)注意建立线性回归模型的基本条件)注意建立线性回归模型的基本条件 线性、独立性、正态性、方差齐性线性、独立性、正态性、方差齐性(4 4)

22、直线回归方程的适用范围以求回归方程)直线回归方程的适用范围以求回归方程时时X X的实测值范围为限;若无充分理由证明超的实测值范围为限;若无充分理由证明超过该范围还是直线,应避免外延。过该范围还是直线,应避免外延。(5 5)两变量有线性关系,不一定是因果关系,)两变量有线性关系,不一定是因果关系,也不一定表明两变量间确有内在联系。也不一定表明两变量间确有内在联系。一、直线相关的概念一、直线相关的概念 在实际应用中若只需了解两个随机变量之间相互在实际应用中若只需了解两个随机变量之间相互关系的情况,而不要求由关系的情况,而不要求由X推算推算Y,此时就宜进行,此时就宜进行直线相关分析(积差相关分析)。

23、直线相关分析(积差相关分析)。1、相关分析的目的、相关分析的目的 分析随机变量分析随机变量X与与Y是否有直线相关关系以及相是否有直线相关关系以及相关的性质和相关的密切程度等(暂不考虑关的性质和相关的密切程度等(暂不考虑X和和Y数数量上的关系)。直线相关的性质可通过散点图直量上的关系)。直线相关的性质可通过散点图直观地说明。观地说明。直线相关的性质直线相关的性质 (1)正相关)正相关(Y随随X的增大而增大,如散点在一的增大而增大,如散点在一直线上,称完全正相关);直线上,称完全正相关);(2)负相关)负相关(Y随随X的增大而减小,如散点在一的增大而减小,如散点在一直线上,称完全负相关);直线上,

24、称完全负相关);(3)零相关)零相关:散点分布呈圆形等,反映两变量:散点分布呈圆形等,反映两变量间无直线关系,也可能存在曲线关系。间无直线关系,也可能存在曲线关系。2、相关分析对资料的要求、相关分析对资料的要求 要求要求X与与Y均呈正态分布的随机变量,称双变量均呈正态分布的随机变量,称双变量正态分布资料。正态分布资料。3、相关分析方法、相关分析方法 相关分析是通过计算相关系数相关分析是通过计算相关系数r(称积差相关系(称积差相关系数)来定量地描述随机变量数)来定量地描述随机变量X与与Y之间的关系。计之间的关系。计算算r之后,还要对之后,还要对r是否来自是否来自=0的总体进行假设检的总体进行假设

25、检验(采用验(采用t检验或直接查检验或直接查r界值表确定界值表确定P值。值。注意:注意:通过相关分析认为通过相关分析认为X与与Y有相关关系,并有相关关系,并不一定是因果关系,可能是一种伴随关系,即不一定是因果关系,可能是一种伴随关系,即X与与Y同时受到另外一个因素的影响。因此,相关分析同时受到另外一个因素的影响。因此,相关分析的任务就是对两变量之间的关系给以定量的描述。的任务就是对两变量之间的关系给以定量的描述。二、相关系数的意义及计算二、相关系数的意义及计算 1、r的计算方法的计算方法式中式中lxy称称X和和Y的离均差积和,的离均差积和,lxx称称X的离均差平的离均差平方和;方和;lyy称称

26、Y的离均差平方和。的离均差平方和。YYXXXYlllYYXXYYXXr 2_2_)()()(2、相关系数、相关系数r的意义的意义 r称为积差相关系数称为积差相关系数,没有单位,它反映具有直,没有单位,它反映具有直线关系的两个变量间,相关关系的密切程度和相线关系的两个变量间,相关关系的密切程度和相关性质的指标,关性质的指标,取值范围是取值范围是-1r1。r为正表示正为正表示正相关,相关,r为负表示负相关,为负表示负相关,r的绝对值越大,则变量的绝对值越大,则变量间的关系越密切;间的关系越密切;|r|=1,称为完全正(或负)相关,称为完全正(或负)相关。3、相关系数的计算、相关系数的计算 例例11

27、.5 对例对例 11.1的资料计算的资料计算SAH患者血清患者血清IL-6和脑脊液和脑脊液IL-6的相关系数。的相关系数。因为血清因为血清IL-6和脑脊液和脑脊液IL-6均是随机变量,且呈均是随机变量,且呈正态分布(可经检验证明),两变量呈直线趋势正态分布(可经检验证明),两变量呈直线趋势(见图(见图11.1),故可进行直线相关分析。),故可进行直线相关分析。已知:已知:lxx=6104.66,lyy=16242.10,lxy=7201.70即即血清血清IL-6和脑脊液和脑脊液IL-6的相关系数的相关系数r=0.74957232.010.1624266.610470.7201r 三、相关系数的

28、假设检验三、相关系数的假设检验 根据样本资料计算所得的相关系数根据样本资料计算所得的相关系数r,称样本相,称样本相关系数,由于存在抽样误差,尽管关系数,由于存在抽样误差,尽管r不为不为0,尚不能,尚不能说明两变量之间有直线相关关系。因此,要对说明两变量之间有直线相关关系。因此,要对r是是否来自否来自=0的总体进行假设检验。可用的总体进行假设检验。可用t检验或直接检验或直接查附表查附表15,r界值表确定界值表确定P值。检验统计量值。检验统计量t值的计值的计算方法如下:算方法如下:2212210rnrnrrSrtr 2 n 对例对例11.5 计算所得计算所得r进行检验,以说明血清进行检验,以说明血

29、清IL-6和脑脊液和脑脊液IL-6是否有直线相关关系。是否有直线相关关系。H0:=0,血清血清IL-6和脑脊液和脑脊液IL-6之间无直线相关关系之间无直线相关关系H1:0,血清血清IL-6和脑脊液和脑脊液IL-6之间有直线相关关系之间有直线相关关系=0.05本例:本例:n=10,r=0.7232,按式,按式(11.19)得:得:=10-2=8,查附表,查附表2,t界值表得,界值表得,t0.02,8=2.896,t0.01,8=2.998。因为。因为t 0.01,8 t t 0.02,8,所以所以0.02P0.01。962.2210)7232.0(17232.02t 按按=0.05 水准水准,拒

30、绝拒绝H0,接受接受H1,可以认为血清可以认为血清IL-6和脑脊液和脑脊液IL-6之间呈正的直线相关关系。也可之间呈正的直线相关关系。也可 以按以按 直接查附表直接查附表15,r界值表(界值表(P280),确),确定定P值。值。r0.02,8=0.715,r0.01,8=0.765。r0.02,8rP0.01,结论同上。,结论同上。2 n直线回归与相关的区别和联系直线回归与相关的区别和联系一、区别一、区别 1、对资料要求不同、对资料要求不同(1)回归分析要求因变量)回归分析要求因变量Y是服从正态分布的随是服从正态分布的随机变量,机变量,X是可以精确测量和严格控制的变量,一是可以精确测量和严格控

31、制的变量,一般称般称型回归,即只能由型回归,即只能由X作自变量推算作自变量推算Y。(2)相关分析要求两个变量)相关分析要求两个变量X、Y是均服从正态是均服从正态分布的随机变量,即双变量正态分布。对这种资分布的随机变量,即双变量正态分布。对这种资料进行回归分析称料进行回归分析称型回归,可以求出两个方程型回归,可以求出两个方程:由由X推算推算Y的方程:的方程:由由Y推算推算X的方程:的方程:XbaYxyxy.YbaXyxyx.2、应用不同、应用不同:说明两变量间依存变化的数量关:说明两变量间依存变化的数量关系用回归,说明变量间的相关关系用相关。系用回归,说明变量间的相关关系用相关。3、意义不同、意

32、义不同:b表示表示X每增(减)一个单位,每增(减)一个单位,Y平均改变平均改变b个单位;个单位;r说明具有直线关系的两个变说明具有直线关系的两个变量间相关关系的密切程度与相关的方向。量间相关关系的密切程度与相关的方向。4、算方法不同、算方法不同。5、取值范围不同、取值范围不同;-1r1,-b50时,用该法)。时,用该法)。1nrus 例例11.6 某地作肝癌病因研究,调查了某地作肝癌病因研究,调查了10个乡个乡肝癌死亡率(肝癌死亡率(1/10万)与食物中黄曲酶毒素相万)与食物中黄曲酶毒素相对含量(以最高就含量为对含量(以最高就含量为10),见表),见表11.6(2)、)、(4)栏。试作等级相关

33、分析。)栏。试作等级相关分析。表表11.6 等级相关系数计算表等级相关系数计算表 黄曲霉毒素黄曲霉毒素 肝癌死亡率肝癌死亡率 相对含量相对含量 (1/10万)万)d d2 编号编号 X U Y V 1 0.7 1 21.5 3 -2 4 2 1.0 2 18.9 2 0 0 3 1.7 3 14.4 1 2 4 4 3.7 4 46.5 7 -3 9 5 4.0 5 27.3 4 1 1 6 5.1 6 64.6 9 -3 9 7 5.5 7 46.3 6 1 1 8 5.7 8 34.2 5 3 9 9 5.9 9 77.6 10 -1 1 10 10.0 10 55.1 8 2 4 合计合

34、计 -422分析步骤如下:分析步骤如下:H0:s=0,即黄曲酶毒素含量与肝癌死亡率无直线关系即黄曲酶毒素含量与肝癌死亡率无直线关系H1:s0,即黄曲酶毒素含量与肝癌死亡率有直线关系即黄曲酶毒素含量与肝癌死亡率有直线关系=0.05分别对分别对X、Y的观察值从小到大编秩,若有相同的观察值从小到大编秩,若有相同的观察值则取平均秩次;求每对观察值秩次之差的观察值则取平均秩次;求每对观察值秩次之差值值d、d2及及d2。本例。本例d2=42。计算计算rs:n=10,查附表,查附表16,rs界值表得:界值表得:rs(0.02,10)=0.745,P=0.02,按,按=0.05水准,拒绝水准,拒绝H0,接受,

35、接受H1,可以认为黄曲霉毒素与肝癌死亡率之间存在正相可以认为黄曲霉毒素与肝癌死亡率之间存在正相关。关。745.0)110(10)42(61)1(61222 nndrs三、三、rs的校正的校正当当X及及Y中,相同的秩次个数较多时(如等级资中,相同的秩次个数较多时(如等级资料),宜用下式计算校正料),宜用下式计算校正rs。yxyxsTnnTnndTTnnr26/)(26/)()(6/)(3323/上式上式Tx(或(或Ty)=(t3-t)/12,t为为X(或(或Y)中)中相同秩次的个数。显然,当相同秩次的个数。显然,当Tx=Ty=0时,式时,式(11.23)与()与(11.21)相等。)相等。(11

36、.23)假设上例中,黄曲酶毒素相对含量,假设上例中,黄曲酶毒素相对含量,15号乡相等,号乡相等,这这5个乡平均秩次皆为(个乡平均秩次皆为(1+2+3+4+5)/5=3,则,则t=5;68号乡相同,平均秩次为号乡相同,平均秩次为7,则,则t=3;910号乡相号乡相同,平均秩次为同,平均秩次为9.5,则,则t=2。而肝癌发病率没有相。而肝癌发病率没有相同的秩次,故同的秩次,故Tx=(53-5)+(33-3)+(23-2)/12=12.5;Ty=0据此假设算得据此假设算得d2=33.5,则,则:783.006/)1010()5.12(26/)1010(5.33)05.12(6/)1010(333/s

37、r今以今以n=10,查附表,查附表15,0.02P0.01。如不校正。如不校正0.01P0.005,可见若相同秩次较多时,如不校正,可见若相同秩次较多时,如不校正,则则rs偏大,而偏大,而P值偏小。值偏小。797.0)110(10)5.33(612 sr 一、一、曲线曲线的意义的意义 在医学研究中,两变量之间的关系有时不呈在医学研究中,两变量之间的关系有时不呈直线而呈曲线关系。如药物在体内的浓度与时间直线而呈曲线关系。如药物在体内的浓度与时间的关系,儿童年龄与身长发育的关系等都不是简的关系,儿童年龄与身长发育的关系等都不是简单的直线关系,这种资料就不能用直线回归分析,单的直线关系,这种资料就不

38、能用直线回归分析,有时可以通过适当的变量变换使之直线化,从而有时可以通过适当的变量变换使之直线化,从而扩大了直线回归的应用。扩大了直线回归的应用。1、曲线拟合:、曲线拟合:就是用适当的曲线方程来描述变就是用适当的曲线方程来描述变量之间的变化关系。量之间的变化关系。曲线拟合最基本方法是曲线拟合最基本方法是曲线直线化,曲线直线化,即通过适即通过适当的变量变换,使曲线关系变为直线关系,然后当的变量变换,使曲线关系变为直线关系,然后用直线回归分析方法求出直线方程,然后还原为用直线回归分析方法求出直线方程,然后还原为曲线方程。曲线方程。2、直接使用变量变换后的直线回归:、直接使用变量变换后的直线回归:若

39、两变量若两变量呈曲线趋势,常使用直线化回归方程,绘制标准呈曲线趋势,常使用直线化回归方程,绘制标准曲线。曲线。二、曲线拟合步骤二、曲线拟合步骤 1、选定曲线类型、选定曲线类型 指数曲线示意图指数曲线示意图 2、将变量作对数变换、将变量作对数变换 选定选定X(或(或K-X)或或Y(或或K-Y)进行对数变换,进行对数变换,K为为常量,使变换后的两变量呈直线关系。也可以将常量,使变换后的两变量呈直线关系。也可以将实测数据在半对数坐标纸上作直线化尝试。实测数据在半对数坐标纸上作直线化尝试。3、按求直线回归方程的方法求直线化方程;、按求直线回归方程的方法求直线化方程;4、将直线化方程转为曲线方程,作曲线

40、图。、将直线化方程转为曲线方程,作曲线图。表表11.7 某地氰化物浓度与污染源距离的关系某地氰化物浓度与污染源距离的关系 与污染源与污染源 氰化物氰化物 距离距离(m)浓度浓度(mg/m3)X Y y=lgY Y (1)(2)(3)(4)50 0.687 -0.1630 0.584 100 0.398 -0.4001 0.364 150 0.200 -.06990 0.227 200 0.121 -0.9172 0.142 250 0.090 -1.0458 0.088 300 0.050 -1.3010 0.055 400 0.020 -1.6990 0.021 500 0.010 -2.0

41、000 0.008 1950(X)-8.2251(y)1、从表中(、从表中(1)、()、(2)栏可见,随)栏可见,随X的增加,的增加,Y有加速减少的趋势,可选用指数曲线;有加速减少的趋势,可选用指数曲线;2、在半对数纸上作图;见图、在半对数纸上作图;见图11.7,呈直线趋势;,呈直线趋势;3、求直线方程;、求直线方程;用用X与与 y(y=lgY)求直线化方程:求直线化方程:a=-0.0287,b=-0.0041 y=-0.0287-0.0041X;4、将直线化方程转为曲线方程:、将直线化方程转为曲线方程:lgY=-(0.0287+0.0041X)XXY)9906.0(9361.010)0041

42、.00287.0(三、曲线拟合方程的评价 同一资料可同时采用多种拟合方法(包同一资料可同时采用多种拟合方法(包括线性方程),然后,计算决定系数括线性方程),然后,计算决定系数r r2 2,和,和剩余标准差。决定系数越大,剩余标准差越剩余标准差。决定系数越大,剩余标准差越小,所拟合的方程效果越好。小,所拟合的方程效果越好。秩秩 回回 归归 当资料不满足最小二乘回归分析时,可以进行当资料不满足最小二乘回归分析时,可以进行秩回归分析。秩回归不要求秩回归分析。秩回归不要求Y的总体分布型,的总体分布型,Y和和X可以呈可以呈直线趋势或非线性趋势直线趋势或非线性趋势,仅要求,仅要求Y的均数的均数随着随着X的

43、增大而增大或减小。的增大而增大或减小。一、秩回归方程的建立一、秩回归方程的建立 UbaVmm 4/)1(4/)1(222nnUnnUVbm )21)(1(nbUbVammm U、V分别是分别是 X X、Y Y 的秩次,的秩次,U、V分别是分别是U、V均数。均数。由一个由一个 X X 值推算值推算 Y Y 的值时,先将的值时,先将 X X 转为转为U,带入方程求,带入方程求出出V,再根据,再根据V求出求出 Y Y 值。值。二、由二、由kX求求kU )(ijijikikUUXXXXUU kX处于处于iX和和jX之之间(间(iX jX),),iU和和jU是与是与iX和和jX对应的秩次。对应的秩次。若

44、若kX maxX,则令,则令kX=minX或或kX=maxX 三、由三、由kV求求kY )(ijijikikYYVVVVYY kV处于处于iV和和jV之间(之间(iV jV),),iY和和jY是与是与iV和和jV是是对应的对应的 Y Y 的观察值。的观察值。若若kV maxV,则令,则令kY=minY或或kY=maxY 例例 10.13 10.13 用例用例 10.1210.12 数据求肝癌死亡率对黄曲酶毒数据求肝癌死亡率对黄曲酶毒素相对含量的回归方程。已知某乡素相对含量的回归方程。已知某乡 X=4.5X=4.5,估计该乡肝癌死,估计该乡肝癌死亡率。亡率。4/)1(4/)1(222nnUnnU

45、Vbm=)110(10385)110(10364 =0.7455=0.7455 )2110)(7455.01()21)(1(nbamm=1.3998=1.3998 UV7455.03998.1 X=4.5X=4.5 位于位于 4 4 和和 5.15.1 之间,之间,iX=4=4,jX=5.1=5.1;iU=5=5,jU=6=6 )56(41.545.45 kU=5.4545=5.4545 4545.57455.03998.1 kV=5.4661=5.4661 kU=5.4661=5.4661 位于位于 5 5、6 6 之间,之间,iY=34.2=34.2,jY=46.3=46.3 )2.343

46、.46(5654661.52.34 kY=39.84/10=39.84/10 万万 四四、秩回归分析注意事项秩回归分析注意事项 1 1、计计算算mb不受相同秩次的影响,无需校正;不受相同秩次的影响,无需校正;2 2、在无相同秩次时在无相同秩次时msbr ;V V 对对 U U 的回归方程与的回归方程与 U U 对对 V V 的回归方程的回归方程相同。相同。3 3、在有相同秩次时在有相同秩次时msbr ,V V 对对 U U 的回归方程与的回归方程与 U U 对对 V V 的回归方程的回归方程不相同,需要时应分别求回归方程。不相同,需要时应分别求回归方程。表表11.1 SS剩的计算剩的计算 序号

47、序号 X Y1 22.4 134.0 99.3861 34.6139 1198.12212 51.6 167.0 133.8335 33.1665 1100.01673 58.1 132.3 141.5015 -9.2015 84.66764 25.1 80.2 102.5713 -22.3713 500.47515 65.9 100.0 150.7032 -50.7032 2570.81456 79.7 139.1 166.9832 -27.8832 777.47287 75.3 187.2 161.7925 25.4075 645.54118 32.4 97.2 111.1831 -13.9831 195.52719 96.4 192.3 186.6842 5.6158 31.537210 85.7 199.4 174.0614 25.3386 642.0447合计合计 592.6 1428.7 1428.70 0.0000 7746.2189 2)(YY Y)(YY XY1797.19610.72

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!