一元回归及相关分析课件

上传人:b410****zcfj 文档编号:240689582 上传时间:2024-04-30 格式:PPT 页数:58 大小:795.60KB
收藏 版权申诉 举报 下载
一元回归及相关分析课件_第1页
第1页 / 共58页
一元回归及相关分析课件_第2页
第2页 / 共58页
一元回归及相关分析课件_第3页
第3页 / 共58页
资源描述:

《一元回归及相关分析课件》由会员分享,可在线阅读,更多相关《一元回归及相关分析课件(58页珍藏版)》请在装配图网上搜索。

1、第七章 一元回归及相关分析第一节 回归和相关的概念 第二节 一元线性回归分析第三节 一元线性相关分析第七章 一元回归及相关分析第一节 回归和相关的概念 1n引言 这一章研究的对象:n由一个变数 两个或多个变数,因为在实际生产实践和科学实验中所要研究的变数往往不止一个,例如:n研究温度高低和作物发育进度快慢的关系,就有温度和发育进度两个变数;n研究每亩穗数、每穗粒数和每亩产量的关系,就有穗数、粒数和产量三个变数。引言2第一节 回归和相关的概念1.函数关系与统计关系 2.自变数与依变数 3.回归分析和相关分析4.两个变数资料的散点图 第一节 回归和相关的概念1.函数关系与统计关系 3 函数关系 有

2、精确的数学表达式 (确定性的关系)直线回归分析 一元回归分析 变量间的关系 因果关系 曲线回归分析(回归分析)多元回归分析 多元线性回归分析 统计关系 多元非线性回归分析 (非确定性的关系)简单相关分析 直线相关分析 相关关系 复相关分析 (相关分析)多元相关分析 偏相关分析 4n函数关系是一种确定性的关系,例如圆面积与半径的关系为 。其不包含误差的干扰。n统计关系是一种非确定性的关系。例如,作物的产量与施肥量的关系,两类变数受误差的干扰表现为统计关系。函数关系是一种确定性的关系,例如圆面积与半径的关系为 5n因果关系:两个变数间的关系若具有原因和反应(结果)的性质。n相关关系:呈现一种共同变

3、化的特点,则称这两个变数间存在。n回归分析:计算回归方程为基础的统计分析方法。因果关系:两个变数间的关系若具有原因和反应(结果)的性质。6 为Y 依X 的回归方程(regression equation of Y on X)。n相关分析:计算相关系数为基础的统计分析方法。计算表示Y 和X 相关密切程度的统计数,并测验其显著性。n这个统计数在两个变数为直线相关时称为相关系数(correlation coefficient),记为r;在多元相关时称为复相关系数(multiple correlation),记作Ry12m;在两个变数曲线相关时称为相关指数(correlation index),记作R

4、。为Y 依X 的回归方程(regres7n一般规则:n当两个变数中Y 含有试验误差而X 不含试验误差时着重进行回归分析;而当Y 和X 均含有试验误差时则着重去进行相关分析。n4.两个变数资料的散点图n对具有统计关系的两个变数的资料进行初步考察的简便而有效的方法,是将这两个变数的n对观察值(x1,y1)、(x2,y2)、(xn,yn)分别以坐标点的形式标记于同一直角坐标平面上,获得散点图(scatter diagram)。一般规则:8n根据散点图可初步判定双变数X 和Y 间的关系,包括:X 和Y 相关的性质(正或负)和密切程度;X 和Y 的关系是直线型的还是非直线型的;是否有一些特殊的点表示着其

5、他因素的干扰等。n例如图9.1是水稻方面的3幅散点图,图9.1A是单株的生物产量(X)和稻谷产量(Y),图9.1B是每平方米土地上的总颖花数(X)和结实率(Y),图9.1C是最高叶面积指数(X)和每亩稻谷产量(Y)。从中可以看出:图9.1A和9.1B都是直线型的,但方向根据散点图可初步判定双变数X 和Y 间的关系,包括:X 和9 相反;前者Y 随X 的增大而增大,表示两个变数的关系是正的,后者Y 随X 的增大而减小,表示关系是负的。图9.1A的各个点几乎都落在一直线上,图9.1B则较为分散;因此,图9.1A中X 和Y 相关的密切程度必高于图9.1B。图9.1C中X 和Y 的关系是非直线型的;大

6、约在x(67)时,Y 随X 的增大而增大,而当x(67)时,Y 随X 的增大而减小。相反;前者Y 随X 的增大而增大,表示两个变数的关系是正10 x,生物产量(g)水稻单株生物产量与稻谷产量的散点图 x,生物产量(g)水稻单株生物产量与稻谷产量的散点图 11x,每m2颖花数(万)水稻每m2颖花数和结实率的散点图x,每m2颖花数(万)水稻每m2颖花数和结实率的散点图12x,最高叶面积指数水稻最高叶面积指数和亩产量的散点图x,最高叶面积指数水稻最高叶面积指数和亩产量的散点图13第二节 一元线性回归分析一、直线回归方程二、直线回归的假设测验和区间估计第二节 一元线性回归分析一、直线回归方程14一、直

7、线回归方程(一)直线回归方程式 (91)n回归截距(regression intercept):a是x=0时的值,即回归直线在y 轴上的截距。n回归系数(regression coefficient):b是x 每增加一个单位数时,平均地将要增加(b0时)或减少(b0时)的单位数。一、直线回归方程15 时,分别对a和b 求偏导数并令其为0,可得正规方程组(normal equations):得 (92)16 (93)(94)将(92)代入(91)可得:(93)(94)将(92)代入(91)可得:17 y a0,b0,b0 a0 x 直线回归方程的图象n由(94)可看到:当x以离均差(x-)为单位

8、时,回归直线的位置仅决定于 和b;当将坐标轴平移到以(,)为原点时,回归直线的走向仅决定于b,所以一般又称b为回归斜率(regression slope)。一元回归及相关分析课件18n(二)直线回归方程的计算n例9.1 一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进连续9年测定3月下旬至4月中旬旬平均温度累积值(x,旬度)和水稻一代三化螟盛发期(y,以5月10日为0)的关系,得结果于表9.1。试计算其直线回归方程。n首先由表9.1算得回归分析所必须的6个一级数据(即由观察值直接算得的数据):(二)直线回归方程的计算19 x累积温y盛发期35.534.131.740.336.840.231

9、.739.244.212169273139-1 表9.1 累积温和一代三化螟盛发期的关系 x累积温y盛发期35.512 表9.1 累积温和一代三化20 n=9 =35.5+34.1+44.2=333.7 =35.52+34.12+44.22=12517.49 =12+16+(-1)=70=122+162+(-1)2=794 =(35.512)+(34.116)+44.2(-1)=2436.4然后,由一级数据算得5个二级数据:n=9 =35.5+34.1+44.2=333.21 SSx=12517.49-(333.7)2/9=144.6356=794-(70)2/9=249.55562436.4

10、-(333.770)/9=-159.0444333.7/9=37.077870/9=7.7778*SSy=SP=因而有:b=-159.0444/144.6356=-1.0996天/(旬度)a=7.7778-(-1.099637.0778)=48.5485(天)SSx=12517.49-(333.7)2/9=122n故得表9.1资料的回归方程为:n上述方程中回归系数和回归截距的意义为:当3月下旬至4月中旬的积温(x)每提高1旬度时,一代三化螟的盛发期平均将提早1.1天;若积温为0,则一代三化螟的盛发期将在6月2728日(x=0时,=48.5;因y是以5月10日为0,故48.5为6月2728日)。

11、n由于x变数的实测区间为31.7,44.2,当x31.7或44.2时,y的变化是否还符合=48.5-1.1x的规律,观察数据中未曾得到任何信息。=48.5485-1.0996x故得表9.1资料的回归方程为:=48.5485-1.099623n所以,在应用=48.5-1.1x于预测时,需限定x的区间为31.7,44.2;如要在x31.7或44.2的区间外延,则必须有新的依据。所以,在应用=48.5-1.1x于预测时,需限定x的区间为24n(三)直线回归方程的图示n直线回归图包括回归直线的图象和散点图,它可以醒目地表示x 和y 的数量关系。n方法:制作直线回归图时,首先以x为横坐标,以y为纵坐标构

12、建直角坐标系(纵、横坐标皆需标明名称和单位);然后取x坐标上的一个小值x1代入回归方程得 ,取一个大值x2代入回归方程得 ,连接坐标点(x1,)和(x2,)即成一条回归直线。如例9.1资料,以x1=31.7代入回归方程得 =13.69;(三)直线回归方程的图示25n以x2=44.2代入回归方程得 =-0.05。在图9.3上确定(31.7,13.69)和(44.2,-0.05)这两个点,再连接之,即为 =48.5485-1.0996x的直线图象。注意:此直线必通过点(,),它可作为制图是否正确的核对。最后,将实测的各对(xi,yi)数值也用坐标点标于图9.3上。以x2=44.2代入回归方程得 =

13、-0.05。在图9.326 x,3月下旬至4月中旬旬平均温度累积值图 旬平均温度累积值和一代三化螟盛发期的关系 27n图9.3的回归直线是9个观察坐标点的代表,它不仅表示了例9.1资料的基本趋势,也便于预测。如某年3月下旬至4月中旬的积温为40旬度,则在图9.3上可查到一代三化螟盛发期的点估计值在5月1415日,这和将x=40代入原方程得到 =48.5485-(1.099640)=4.6是一致的。因为回归直线是综合9年结果而得出的一般趋势,所以其代表性比任何一个实际的坐标点都好。当然,这种估计仍然有随机误差,下文再作讨论。图9.3的回归直线是9个观察坐标点的代表,它不仅表示了例9.28n(四)

14、直线回归的估计标准误nQ 就是误差的一种度量,称为离回归平方和(sum of squares due to deviation from regression)或剩余平方和。n建立回归方程时用了a 和b 两个统计数,故Q 的自由度(四)直线回归的估计标准误29n 得 =SSy-b(SP)=SSy-b2(SSx)=y2-ay-bxy(95)(96A)(96B)(96C)(96D)得(95)(96A)(96B)(96C)30n(五)直线回归的数学模型和基本假定n直线回归模型中,Y 总体的每一个值由以下三部分组成:回归截距 ,回归系数 ,Y变数的随机误差 。n总体直线回归的数学模型:n N(0,)。

15、相应的样本线性组成为:(97)(98)(五)直线回归的数学模型和基本假定(97)(98)31n回归分析时的假定:n(1)Y 变数是随机变数,而X 变数则是没有误差的固定变数,至少和Y 变数比较起来X 的误差小到可以忽略。n(2)在任一X 上都存在着一个Y 总体(可称为条件总体),它是作正态分布的,其平均数 是X 的线性函数:(99)回归分析时的假定:(99)32 的样本估计值,与X 的关系就是线性回归方程(91)。n(3)所有的Y 总体都具有共同的方差 ,而直线回归总体具有 。试验所得的一组观察值(xi,yi)只是 中的一个随机样本。n(4)随机误差 相互独立,并作正态分布,具有 。33n二、

16、直线回归的假设测验和区间估计n(一)直线回归的假设测验 1回归关系的假设测验 (1)t 测验 H0:=0 对 HA:(910)二、直线回归的假设测验和区间估计(910)34 n遵循 的t分布,故由t 值即可知道样本回归系数b来自 =0总体的概率大小n(2)F 测验当仅以表示y资料时(不考虑x 的影响),y变数具有平方和SSy 和自由度 当以表示y资料时(考虑x的影响),则SSy将分解成两个部分,即:(911)35n将 记作U n回归和离回归的方差比遵循 的F分布 因为 得因为36n(二)直线回归的区间估计 1直线回归的抽样误差n在直线回归总体 中抽取若干个样本时,由于 ,各样本的a、b 值都有

17、误差。因此,由 =a+bx给出的点估计的精确性,决定于 和a、b的误差大小。比较科学的方法应是考虑到误差的大小和坐标点的离散程度,给出一个区间估计,即给出对其总体的 、等的置信区间。(二)直线回归的区间估计 37 2回归截距的置信区间 n由(92),样本回归截距a ,而 和b的误差方差分别为:。故根据误差合成原理,a的标准误为:n由 是遵循 的t 分布的。总 体 回归截距有95可靠度的置信区间为:L1=a-t 0.05 ,L2=a+t0.05 (917)(918)2回归截距的置信区间(917)(918)38 3回归系数的置信区间 由(911)可推得总体回归系数 的95%可靠度的置信区间为:L1

18、=b-t 0.05 ,L2=b+t 0.05 4条件总体平均数 的置信区间 n由 ,故 的标准误为:条件总体平均数 的95%置信区间为:L1=-t 0.05 ,L2=+t0.05 (921)(920)(919)3回归系数的置信区间(920)(919)39n5条件总体观察值Y Y 的预测区间 将(94)代入(98)yi=+ei,(922)5条件总体观察值Y 的预测区间(922)40n保证概率为0.95的Y 或y 的预测区间为:L1=-t0.05 ,L2=+t0.05 (923)6置信区间和预测区间的图示 n首先取若干个等距的x 值(x 取值愈密,作图愈准确),算得与其相应的 、和 、的值;然后再

19、由 和 算得各x上的L1和L2,并标于图上;最后将各个L1和L2分别连成曲线即可。保证概率为0.95的Y 或y 的预测区间为:41 例9.10 试制作例9.1资料的y估计值包括和y在内有95%可靠度的置信区间图。表9.6 例9.1资料的置信区间和y y的预测区间的计算(2)(3)(4)(6)(7)(8),(1)x的95置信区间计算y的95预测区间计算(5)L1,L23032343637384042444615.613.411.29.07.96.84.62.40.2-2.02.211.751.371.131.091.121.351.722.172.665.24.13.22.72.62.63.24

20、.15.16.310.4,9.3,8.0,6.3,5.3,4.2,1.4,-1.7,-4.9,-8.3,20.817.514.411.710.59.47.86.55.34.33.952.723.533.463.433.463.533.693.924.219.38.88.38.28.18.28.38.79.39.96.3,4.6,2.9,0.8,-0.2,-1.4,-3.7,-6.3,-9.1,-11.9,24.922.219.517.216.015.012.911.19.57.9 例9.10 试制作例9.1资料的y估计值包括和y在内42 一代三化螟盛发期估计及其 95%置信限 n画出 的图像,

21、依次标出n(x,L1)和(x,L2)坐标点,n再连接各(x,L1)得 线,n连接各(x,L2)得 线。连n接各(x,L2)得 线。和 n 所夹的区间即包括 n在内有95可靠度的置信区间。n称(x,)的连线 ,(x,)n的连线 。其所夹的区间即n为y的95的预测区间或预测带。3月下至4月中旬平均温度累积值 例9.1资料的y y 估计值及其95%置信带 43第三节 一元线性相关分析一、相关系数和决定系数二、相关系数的假设测验三、直线回归和相关的应用要点第三节 一元线性相关分析一、相关系数和决定系数44一、相关系数和决定系数n(一)相关系数n(X,Y)总体没有相关,则落在象限、的点是均匀分散的,因而

22、正负相消,=0。一、相关系数和决定系数(一)相关系数45n当(X,Y)总体呈正相关时,落在象限、的点一定比落在象限、的多,故 一定为正;同时落在象限、的点所占的比率愈大,此正值也愈大。一元回归及相关分析课件46n当(X,Y)总体呈负相关时,则落在象限、的点一定比落在象限、的为多,故 一定为负;且落在象限、的点所占的比率愈大,此负值的绝对值也愈大。一元回归及相关分析课件47n 的值可用来度量两个变数直线相关的相关程度和性质。但是,X 和Y 的变异程度、所取单位及N的大小都会影响其大小。n这些因素的影响是可以消去的。方法就是将离均差转换成以各自的标准差为单位,使成为标准化离差,再以N 除之。n可定

23、义双变数总体的相关系数为:一元回归及相关分析课件48n (933)n(933)的已与两个变数的变异程度、单位和N大小都没有关系,是一个不带单位的纯数,因而可用来比较不同双变数总体的相关程度和性质。n相关系数是两个变数标准化离差的乘积之和的平均数。49n样本的相关系数 r (934)n因为:在回归分析时分成了两个部分:一部分是离回归平方和Q ,另一部分是回归平方和U =(SP)2/SSx。n因此,又可有定义:样本的相关系数 r 50nr 的取值区间是-1,1。双变数的相关程度决定于|r|,|r|越接近于1,相关越密切;越接近于0,越可能无相关。nr 的显著与否还和自由度有关,越大,受抽样误差的影

24、响越小,r 达到显著水平的值就较小。正的r 值表示正相关,负的r 值表示负相关。而相关系数r的正或负和回归系数b是保持一致。r 的取值区间是-1,1。双变数的相关程度决定于 51(二)决定系数 n决定系数(determination coefficient)定义为由x不同而引起的y 的平方和 占y总平方和SSy=的比率;也可定义为由y不同而引起的x 的平方和 占x总平方和SSx=的比率,其值为:(935)(二)决定系数 决定系数(determination c52n所以决定系数即相关系数r 的平方值。n决定系数和相关系数的区别在于:除掉|r|=1和0的情况外,r2总是小于|r|。这就可以防止对

25、相关系数所表示的相关程度作夸张的解释。例如,r=0.5,只是说明由x 的不同而引起的y 变异(或由y 的不同而引起的x 变异)平方和仅占y 总变异(或 x 总变异)所以决定系数即相关系数r 的平方值。53n平方和的r2=0.25,即25%,而不是50%。n r 是可正可负的,而r2则一律取正值,其取值区间为0,1。因此,在相关分析由r 的正或负表示相关的性质,由r2 的大小表示相关的程度。n(三)相关系数和决定系数的计算平方和的r2=0.25,即25%,而不是50%。54二、相关系数的假设测验n(一)的假设测验n测验一个样本相关系数 r 所来自的总体相关系数是否为0,所作的假设为H0:对HA:

26、0。n在的总体中抽样,r的分布随样本容量n的不同而不同。nr的抽样误差:(936)二、相关系数的假设测验(一)的假设测55n当 时:n 或 (937)n此 t 值遵循 的t分布,由之可测验 H0:。n对于同一资料,线性回归的显著性等价于线性相关的显著性。n将(937)移项,即可得到自由度和显著水平一定时的临界 r 值:当 时:56n三、直线回归和相关的应用要点n(1)回归和相关分析要有学科专业知识作指导。n(2)要严格控制研究对象(X 和Y)以外的有关因素,即要在 X 和Y 的变化过程中尽量使其它因素保持稳定一致。n(3)直线回归和相关分析结果不显著,并不意味着X和Y 没有关系,而只说明X 和Y 没有显著的线性关系,它并不能排除两变数间存在曲线关系的可能性。n(4)一个显著的r 或b 并不代表X 和Y 的关系就一定三、直线回归和相关的应用要点57n是线性的,因为它并不排斥能够更好地描述X 和Y 的各种曲线的存在。n(5)在X 和Y 的一定区间内,用线性关系作近似描述是允许的,它的精确度至少要比仅用描述y变数有显著提高。n(6)一个显著的相关或回归并不一定具有实践上的预测意义。n(7)为了提高回归和相关分析的准确性,两个变数的样本容量n(观察值对数)要尽可能大一些,至少应有5对以上。是线性的,因为它并不排斥能够更好地描述X 和Y 的各种曲线的58

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!