生物统计学课件:第七章 直线回归与相关分析

上传人:努力****83 文档编号:108995151 上传时间:2022-06-16 格式:PPT 页数:43 大小:1.52MB
收藏 版权申诉 举报 下载
生物统计学课件:第七章 直线回归与相关分析_第1页
第1页 / 共43页
生物统计学课件:第七章 直线回归与相关分析_第2页
第2页 / 共43页
生物统计学课件:第七章 直线回归与相关分析_第3页
第3页 / 共43页
资源描述:

《生物统计学课件:第七章 直线回归与相关分析》由会员分享,可在线阅读,更多相关《生物统计学课件:第七章 直线回归与相关分析(43页珍藏版)》请在装配图网上搜索。

1、直线回归分析直线回归分析第七章正向直线关系正向直线关系负向直线关系负向直线关系曲线关系曲线关系直线关系是两变量间最简单的一种关系。直线关系是两变量间最简单的一种关系。这种关系仅在变量的一定取值范围内可用,这种关系仅在变量的一定取值范围内可用,范围过大,散点图就偏离直线,需要借助范围过大,散点图就偏离直线,需要借助于曲线描述。于曲线描述。数学上数学上“回归回归”一词第一个被英国生一词第一个被英国生物统计学家高尔顿物统计学家高尔顿( (Galton)Galton)用于研究用于研究人类身高的遗传问题上人类身高的遗传问题上. .他研究的结论是:很高他研究的结论是:很高( (或矮或矮) )的双亲的双亲的

2、儿子们一般高的儿子们一般高( (或低或低) )于平均值于平均值, ,但不但不像他们的双亲那么高像他们的双亲那么高( (或矮或矮).).因此儿子因此儿子们的高度将们的高度将“回归回归” ” 到平均值到平均值, ,而不是而不是更趋极端更趋极端, ,这也是这也是“回归回归”一词的最初一词的最初含义含义. .一元线性回归一元线性回归 1. 1. 一元线性回归的基本概念一元线性回归的基本概念 一元线性回归可用来分析自变量一元线性回归可用来分析自变量x x取值与取值与因变量因变量Y Y取值的内在联系,不过这里的自变量取值的内在联系,不过这里的自变量x x是确定性的变量,因变量是确定性的变量,因变量Y Y是

3、随机性的变量,是随机性的变量,它们的内在联系用所谓的一元线性回归方程它们的内在联系用所谓的一元线性回归方程来表示来表示 . .进行进行n次独立试验,测得数据如下:次独立试验,测得数据如下:nnyyyYxxxX2121我们的问题是,如何根据这些观测值用我们的问题是,如何根据这些观测值用“最最佳的佳的”形式来表达变量形式来表达变量Y与与x之间的关系?之间的关系?iiixY一元线性回归模型可表示为:一元线性回归模型可表示为:被预测或解释的变量,称为因变量被预测或解释的变量,称为因变量(dependent variable),用,用y表示。表示。用来预测或用来解释因变量的一个或多个变量,用来预测或用来

4、解释因变量的一个或多个变量,称为自变量称为自变量(independent variable),用,用x表示。表示。2(0,).iiN 式式中中的的相相互互独独立立且且 一般而言,根据样本观测值一般而言,根据样本观测值( (x x1 1,y,y1 1),(),(x x2 2,y,y2 2), ,(), ,(x xn n,y,yn n) )对未知参数对未知参数、及及2 2所作的估计与检验称为所作的估计与检验称为一元线性回归分析一元线性回归分析,而,而称为称为截距,截距,称为回归系数,称为回归系数, E(Y)E(Y)+x x 称为回归方程。称为回归方程。根据样本及其观测值可以得到根据样本及其观测值可

5、以得到、及及2 2的估计量及估计值的估计量及估计值 ,和和2, 得到回归方程的估计式或经验回归方程得到回归方程的估计式或经验回归方程 ,xy有多种确定回归方程也就是确定未知参数有多种确定回归方程也就是确定未知参数 2, 和的方法,其中最常用的是最小的方法,其中最常用的是最小 二乘法,二乘法,使及即求出:iibxayba,niiiyyQ12)(niiibxay12)(最小最小得得,00bQaQniiiiniiixbxaybxay110202,)(,)(,:xbyaSSSSbxxy求出,)(1)(211212niiniiniixxnxxxSS其中),)(1)(1111niiniiniiiniiix

6、yyxnyxyyxxSS.)(1)(211212niiniiniiyynyyySS建立一元线性回归方程的具体步骤:建立一元线性回归方程的具体步骤: ,) 1 (1211niiniiniixyx,计算;112niiiniiyxy ,;,)2(yxyxSSSSSS计算(3)计算a和b,写出一元线性回归方程。,xxySSSSbxbYax913131515171718182626222220202323282830303333y35 54 46 67 79 98 87 71010111110101212xbay回归方程如何根据上述条件建立x x9 913131515171718182626222220

7、202323282830303333y y3 35 54 46 67 79 98 87 710101111101012120.32800.3777yx 3280. 0,3777. 0 xbyaSSSSbxxy将将a a、b b和和Q Qe e以及以及 看作是统计量,它们的看作是统计量,它们的表达式分别为表达式分别为 YxxySSSSbxbYa/,),(xxbYbxaYniiiebxaYQ12,)(相互独立;与eQbY ,) 1 (,)(,)()2(bEaE;)(,)1()(222xxSSbDSSxnaD这些统计量之间以及它们与总体参数之间这些统计量之间以及它们与总体参数之间有以下的内在联系:有

8、以下的内在联系:,)2()()3(2 nQEe的无偏估计;是即222nQe都服从正态分布,以及和Yab)4().2(22nQe而 2. 2. 线性回归方程的显著性检验线性回归方程的显著性检验 一元线性回归的应用极其广泛,可是它的一元线性回归的应用极其广泛,可是它的应用必须有一个前提,那就是:在变量应用必须有一个前提,那就是:在变量x取取值以后,值以后,Y所取的值服从所取的值服从N (+ (+x,2 2) )分布。分布。然而,根据最小二乘法,在建立回归方程的然而,根据最小二乘法,在建立回归方程的时候,并不知道时候,并不知道Y所取的值是否服从所取的值是否服从N (+(+x,2 2) )分布。换一句

9、话说,即使分布。换一句话说,即使Y所所取的值不服从取的值不服从N (+ (+x,2 2) )分布,也可以建分布,也可以建立一个回归方程。因此,必须对回归方程的拟立一个回归方程。因此,必须对回归方程的拟合情况或效果作显著性检验。合情况或效果作显著性检验。其理论基础就是总平方和的分解,即其理论基础就是总平方和的分解,即 结论结论:SSyQe+UniiniiieniiyyyUyyQyySS121212)(,)(,)(niiiiniiyyyyyyySS1212)()()(niiniiiyyyy1212)()(, )(niiiiyyyy12niiniiiyyyy1212)()(0)(1niiiiyyyy

10、其中UQeniiiiyyyy1)(niiiiybxabxay1)( )()(niiiixxbbxxbyy1niiniiixxbyyxxb1221)()(. 02xxySSbbSS之间的偏差与是iiniiieyyyyQ)(12通过回归已经达到了最小值,称为剩余平方和。 之间的差异,个表示iniiynyyU)(12所造成的,代入回归方程得到是将iiyx称为回归平方和,记作U。 因此,因此,SSyQe+U, ,其:其:意义如下:意义如下:如果如果U的数值较大,的数值较大,Qe的数值便比的数值便比较小,说明回归的效果好;如果较小,说明回归的效果好;如果U的数值较小,的数值较小, Qe的数值便比较大,说

11、明回归的效果差。的数值便比较大,说明回归的效果差。 niiyyU12)(niiybxxby12)(niixxb122)(.USSQyexxySSSS2)(xxyyeSSSSSSQ2yxxyyxxySSSSSSrSSSSSSr22,现引进21rSSy如果如果|r|r|较大,较大,Q Qe e的数值便比较小,说明回归的数值便比较小,说明回归的效果好或者说的效果好或者说x x与与Y Y的线性关系密切;如果的线性关系密切;如果|r|r|较小,较小, Q Qe e的数值便比较大,说明回归的的数值便比较大,说明回归的效果差或者说效果差或者说x x与与Y Y的线性关系不密切;因此的线性关系不密切;因此称称r

12、 r为为x x与与Y Y的观测值的相关系数。的观测值的相关系数。yxxyySSSSSSSS21综上所述,如果设综上所述,如果设H H0 0:0 0,也就是假,也就是假设设x x与与Y Y不是线性关系,则可以用以下三不是线性关系,则可以用以下三种实质相同的方法检验线性回归方程的种实质相同的方法检验线性回归方程的显著性,且当检验的结果显著时显著性,且当检验的结果显著时x x与与Y Y的的线性关系显著,回归方程可供应用;当线性关系显著,回归方程可供应用;当检验的结果不显著时检验的结果不显著时x x与与Y Y的线性关系不的线性关系不显著,回归方程不可应用。显著,回归方程不可应用。 F检验法:检验法:

13、),2(22nQe已知:当当H H0 0:0 0为真时,为真时, );1 (22U)()(eyQSSEUExyE)()(yE), 0(2Nyy )()(12niiyyyESSEniiyyE12)(2) 1( n)()(eyQESSE2且且U与与Qe相互独立;相互独立;),2, 1 ()2(nFnQUFe当当FF1-(1,n-2)时应该放弃原假设时应该放弃原假设H0。因此,当因此,当H0为真时,为真时, (2)(2)t检验法:检验法: 22)2()(),( nQESSNbex当当H H0 0:0 0为真时,为真时, ),2()2(ntnQSSbtex当当|t|t1-0.5(n-2)时应该放弃原假

14、设时应该放弃原假设H0。 ), 0(2xSSNb(3)r(3)r检验法:检验法:根据根据x x与与Y Y的观测值的相关系数的观测值的相关系数 yxxyyxxySSSSSSrSSSSSSr22,UQUSSUrey2当当H H0 0:0 0为真时,为真时,)2, 1 ()2()1 (22nFnrrF221rrQUe),2, 1 ()2(nFnQUFe例:有人研究了粘虫孵化历期平均温度(x)与历期天数(y)之间的关系,试建立直线回归方程,并检验直线回归关系的显著性。x(0C) 11.8 14.7 15.6 16.8 17.1 18.8 19.5 20.4y(d) 30.1 17.3 16.7 13.

15、6 11.9 10.78.36.7第一步:回归方程第一步:回归方程nxxinyyi8375.16870.1344125.14830.115xxySSSSb 5317. 21788.556938.139xbya04.578375.16)5317. 2(4125.14xy5317. 204.57nxxSSiix22)(1788.55870.13419.23232nyySSiiy22)(2688.377830.11503.20392nyxyxSSiiiixy)(6938.139xy5317. 204.57第二步:假设检验第二步:假设检验xySSbU6628.353)6937.139(5317. 2U

16、SSQye6060.236628.3532688.377)2/( nQUFe89.89) 18/(606.236628.35374.1301. 0 F说明粘虫孵化历期平均温度与历期天数之间有极其显著的直线回归关系。 3. 3. 利用回归方程进行点预测和区间预测利用回归方程进行点预测和区间预测若线性回归作显著性检验的结果是放弃若线性回归作显著性检验的结果是放弃H0,也就是放弃回归系数也就是放弃回归系数0 0的假设,便可以的假设,便可以利用回归方程进行点预测和区间预测,这是利用回归方程进行点预测和区间预测,这是人们关注线性回归的主要原因之一。人们关注线性回归的主要原因之一。iiixYiibxay

17、当当xx0时时, ,0000yYbxay的观测值预测用称为点预测。其中0y),()(000YExyE由于Y0的观测值y0的点预测是无偏的。 点估计点估计若若Y Y与样本中的各与样本中的各Y Y相互独立,则根据相互独立,则根据Z ZY Y0 0-(a+b-(a+bx x0 0) )服从正态分布,服从正态分布,E(Z)E(Z)0 0, )(11 ()(202xSSxxnZD2)2()( nQEeZ与Qe相互独立区间估计区间估计yytyty,置信区间:假设用t检验).2()(11 (22000ntSSxxnnQyytxe例:有人研究了粘虫孵化历期平均温度(x)与历期天数(y)之间的关系,试建立直线回

18、归方程,并检验其显著性水平。若某年的历期平均温度为150C,该年粘虫孵化的历期天数为多少天(取95%置信区间)? x(0C) 11.8 14.7 15.6 16.8 17.1 18.8 19.5 20.4y(d) 30.1 17.3 16.7 13.6 11.9 10.78.36.7时,当15xbxayxySSxxn2)(111788.55)8375.1615(8119835. 121603. 20654.1915)5317. 2(04.57yytyty,置信区间:1603. 2477. 20645.19,1603. 2477. 20645.193508.24,7782.134.相关系数相关系

19、数yxxyyxxySSSSSSrSSSSSSr22,yeySSQSSUr12102 r完全不相关与yxr:02完全相关与yxr:12假设检验假设检验回归:回归:t检验法检验法 22)2()(),( nQESSNbex当当H H0 0:0 0为真时,为真时, ),2()2(ntnQSSbtex), 0(2xSSNbxeSSQ)1 (yxxyxyxySSSSSSSSSSSS)1 (2rSSSSxyxxxyySSSSSSSS/2xxySSSSb )2( nQSSbtex)2()1 (2nrSSSSSSSSyxxxy212rnSSSSSSyxxy212rnr的理论相关系数,与表示设yx0:0:00HH则02/)2(Hntt,则拒绝若例:有人研究了粘虫孵化历期平均温度(x)与历期天数(y)之间的关系,求x与y的相关系数,并检验其显著性水平。x(0C) 11.8 14.7 15.6 16.8 17.1 18.8 19.5 20.4y(d) 30.1 17.3 16.7 13.6 11.9 10.78.36.7yxxySSSSSSr2688.3771788.556938.1399682. 0212rnrt2)9682. 0(128)9682. 0(48. 9707. 3)6(01. 0 tt拒绝H0,说明粘虫孵化历期平均温度与历期天数之间有着极其显著的负相关性。01. 0P

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!