概率论与数理统计(回归分析)PPT课件

上传人:每**** 文档编号:71420049 上传时间:2022-04-07 格式:PPT 页数:73 大小:851.50KB
收藏 版权申诉 举报 下载
概率论与数理统计(回归分析)PPT课件_第1页
第1页 / 共73页
概率论与数理统计(回归分析)PPT课件_第2页
第2页 / 共73页
概率论与数理统计(回归分析)PPT课件_第3页
第3页 / 共73页
资源描述:

《概率论与数理统计(回归分析)PPT课件》由会员分享,可在线阅读,更多相关《概率论与数理统计(回归分析)PPT课件(73页珍藏版)》请在装配图网上搜索。

1、 9.2 回归分析回归分析 回归分析回归分析是针对两个或两个以上具有相关关系的是针对两个或两个以上具有相关关系的变量,研究它们的数量伴随关系,并通过一定的数变量,研究它们的数量伴随关系,并通过一定的数学表达式将这种关系描述出来,建立学表达式将这种关系描述出来,建立回归模型回归模型 回归分析中总假设因变量是随机变量,自变量可回归分析中总假设因变量是随机变量,自变量可以是随机变量也可以是一般变量(可以控制或精确以是随机变量也可以是一般变量(可以控制或精确测量的变量)测量的变量) 我们只讨论自变量为一般变量的情况我们只讨论自变量为一般变量的情况 为简单起见,以后的所有随机变量及其观测值均为简单起见,

2、以后的所有随机变量及其观测值均用小写字母表示用小写字母表示 第第9章章 相关分析与一元回归分析相关分析与一元回归分析9.2 回归分析回归分析 如果设随机变量如果设随机变量y是因变量,是因变量,x1,x2,xn是影是影响响y的自变量,回归模型的一般形式为:的自变量,回归模型的一般形式为:y = f (x1,x2,xn) + 其中其中为均值为为均值为0的正态随机变量,它表示除的正态随机变量,它表示除x1,x2,xn之外的随机因素对之外的随机因素对y的影响的影响 在回归分析中,当只有一个自变量时,称为在回归分析中,当只有一个自变量时,称为一元一元回归分析回归分析;当自变量有两个或两个以上时,称为;当

3、自变量有两个或两个以上时,称为多多元回归分析;元回归分析;f是线性函数时,称是线性函数时,称线性回归分析线性回归分析,所,所建回归模型称为建回归模型称为线性回归模型线性回归模型;f是非线性函数时,是非线性函数时,称称非线性回归分析非线性回归分析,所建回归模型称为,所建回归模型称为非线性回归非线性回归模型模型9.2 回归分析回归分析 线性回归模型的一般形式为:线性回归模型的一般形式为:其中,其中, 0和和 i(i = 1,2,k)是未知常数,称为)是未知常数,称为回归系数,回归系数,实际中常假定实际中常假定 N(0, 2) 一元线性回归模型的一般形式为:一元线性回归模型的一般形式为:由由 N(0

4、, 2)的假定,容易推出的假定,容易推出y N( 0 + 1x, 2) kkxxxy.22110,10 xy),(20 N9.2 回归分析回归分析 本章主要讨论一元线性回归分析和可化为线性回本章主要讨论一元线性回归分析和可化为线性回归的一元非线性回归分析归的一元非线性回归分析 它们是反映两个变量之间关系的简单模型,但从它们是反映两个变量之间关系的简单模型,但从中可以了解到回归分析的基本思想、方法和应用中可以了解到回归分析的基本思想、方法和应用9.2 回归分析回归分析9.2.1 一元线性回归分析一元线性回归分析 我们用一个例子来说明如何进行一元线性回归分我们用一个例子来说明如何进行一元线性回归分

5、析析 为了研究合金钢的强度和合金中含碳量的关系,为了研究合金钢的强度和合金中含碳量的关系,专业人员收集了专业人员收集了12组数据如表组数据如表9.1所示所示试根据这些数据进行合金钢的强度试根据这些数据进行合金钢的强度y(单位:单位:107Pa)与合金中含碳量与合金中含碳量x(%)之间的回归分析之间的回归分析序号序号123456789101112含碳量含碳量x(%)0.100.110.120.130.140.150.160.170.180.200.210.23合金钢合金钢的强度的强度y(107Pa)42.043.045.045.045.047.549.053.050.055.055.060.09

6、.2.1 一元线性回归分析一元线性回归分析 为了研究这些数据中所蕴含的规律性,首先在为了研究这些数据中所蕴含的规律性,首先在Excel中由中由12对数据作出散点图,如图对数据作出散点图,如图9.7所示所示从图看到,数据点大致落在一条直线附近,这告诉从图看到,数据点大致落在一条直线附近,这告诉我们变量我们变量x和和y之间大致可看作线性关系从图中还之间大致可看作线性关系从图中还看到,这些点又不完全在一条直线上,这表明看到,这些点又不完全在一条直线上,这表明x和和y的关系并没有确切到给定的关系并没有确切到给定x就可以唯一确定就可以唯一确定y的程的程度度9.2.1 一元线性回归分析一元线性回归分析事实

7、上,还有许多其它随机因素对事实上,还有许多其它随机因素对y产生影响产生影响 如果只研究如果只研究x和和y的关系,可以考虑建立一元线性回的关系,可以考虑建立一元线性回归模型:归模型: (9.1)其中其中是除含碳量是除含碳量x外其它诸多随机因素对合金钢强度外其它诸多随机因素对合金钢强度y的综合影响,假定它是零均值的正态随机变量的综合影响,假定它是零均值的正态随机变量,10 xy),(20 N9.2.1 一元线性回归分析一元线性回归分析 (9.1) 由由(9.1)式,不难算得式,不难算得y的数学期望的数学期望: (9.2)该式表示当该式表示当x已知时,可以精确地算出已知时,可以精确地算出E(y)称方

8、程称方程(9.2)为为y关于关于x的的回归方程回归方程 现对变量现对变量x, y进行了进行了n次独立观察,得样本次独立观察,得样本(xi,yi) (i = 1,2,n)据据(9.1)式,此样本可由方程式,此样本可由方程 (9.3)来描述这里来描述这里i是第是第i次观测时次观测时的值,它是不能观测的值,它是不能观测到的到的xyE10)( iiixy 10,10 xy),(20 N9.2.1 一元线性回归分析一元线性回归分析由于各次观测独立,由于各次观测独立,i看作是相互独立与看作是相互独立与同分布的同分布的随机变量即有随机变量即有 yi = 0 + 1xi + i, i相互独立,且相互独立,且

9、i N(0, 2), i = 1,2,n (9.4)(9.4)给出了样本给出了样本(x1,y1),(x2,y2),(xn,yn)的概的概率性质它是对理论模型进行统计推断的依据,也率性质它是对理论模型进行统计推断的依据,也常称常称(9.4)式为一元线性回归模型式为一元线性回归模型9.2.1 一元线性回归分析一元线性回归分析 要建立一元线性回归模型,首先利用要建立一元线性回归模型,首先利用n组独立观测组独立观测数据数据(x1,y1),(x2,y2),(xn,yn)来估计来估计 0和和 1,以估计值以估计值 和和 分别代替分别代替(9.2)式中的式中的 0和和 1,得到,得到 (9.5)由于此方程的

10、建立有赖于通过观察或试验积累的数由于此方程的建立有赖于通过观察或试验积累的数据,所以称其为据,所以称其为经验回归方程(经验回归方程(或或经验公式)经验公式) 经验回归方程也简称为回归方程,其图形称为经验回归方程也简称为回归方程,其图形称为回回归直线归直线 当给定当给定x = x0时,称时,称 为为拟合值拟合值(预测值(预测值或回归值)或回归值)01xy10 0100 xy 9.2.1 一元线性回归分析一元线性回归分析那么,如何利用那么,如何利用n组独立观察数据来估计组独立观察数据来估计 0和和 1呢?呢?一般常用最小二乘估计法和最大似然估计法一般常用最小二乘估计法和最大似然估计法下面只介绍下面

11、只介绍 0和和 1的最小二乘估计法的最小二乘估计法1参数参数 0和和 1的最小二乘估计的最小二乘估计 设对模型设对模型(9.1)中的变量中的变量x,y进行了进行了n次独立观察,次独立观察,得样本得样本(xi,yi) (i = 1,2,n)由由(9.3)式知随机式知随机误差误差 i = yi ( 0 + 1xi) 最小二乘法的思想是:由最小二乘法的思想是:由xi,yi估计估计 0, 1时,使时,使误差平方和误差平方和达到最小的达到最小的 和和 ,分别作为,分别作为 0, 1的估计,并称的估计,并称 和和 为为 0和和 1的的最小二乘估计最小二乘估计 9.2.1 一元线性回归分析一元线性回归分析

12、niiixyQ121010)(),( 01011参数参数 0和和 1的最小二乘估计的最小二乘估计通常可采用微积分中求极值的办法,求出使通常可采用微积分中求极值的办法,求出使达到最小的达到最小的 和和 即解方程:即解方程: 或或 (9.6)9.2.1 一元线性回归分析一元线性回归分析 niiixyQ121010)(),( 01,0),(0),(110010 QQ niiiiniiixxyxy11011000 1参数参数 0和和 1的最小二乘估计的最小二乘估计即解方程:即解方程: (9.6)或或 (9.7)称称(9.6)或或(9.7)为为正则方程正则方程9.2.1 一元线性回归分析一元线性回归分析

13、 niiiiniiixxyxy11011000 niiiniiniiniiniixyxxyxn1121101110 1参数参数 0和和 1的最小二乘估计的最小二乘估计解正则方程得解正则方程得 (9.8)其中其中 从而得到回归方程:从而得到回归方程:9.2.1 一元线性回归分析一元线性回归分析 xxxyniiniiillxxyyxxxy121110)()( ,11 niixnx,11 niiyny,)(12 niixxxxl. )(1 niiixyyyxxlxy10 1参数参数 0和和 1的最小二乘估计的最小二乘估计 (9.8) 因为因为 ,(9.8)式又可以写成式又可以写成9.2.1 一元线性

14、回归分析一元线性回归分析 xxxyniiniiillxxyyxxxy121110)()( xxxxlns11 xyxylns11 xxxyssxy110 1参数参数 0和和 1的最小二乘估计的最小二乘估计 可以证明,用最小二乘法求出的估计可以证明,用最小二乘法求出的估计 和和 ,分别,分别是是 0, 1的无偏估计,它们都是的无偏估计,它们都是y1,y2,yn的线的线性函数性函数 而且在所有而且在所有y1,y2,yn的线性函数中,最小二的线性函数中,最小二乘估计的方差最小乘估计的方差最小9.2.1 一元线性回归分析一元线性回归分析01【例【例9.3】建立表】建立表9.1中合金钢的强度中合金钢的强

15、度y与含碳量与含碳量x之间之间的回归方程,并计算参数的回归方程,并计算参数 0和和 1的最小二乘估计的最小二乘估计 解:解:首先计算首先计算 参数参数 1和和 0的最小二乘估计分别为的最小二乘估计分别为因此,回归方程为因此,回归方程为 9.2.1 一元线性回归分析一元线性回归分析,158. 011 niixnx,125.4911 niiyny,01857. 0)(12 niixxxxl.4675. 2)(1 niiixyyyxxl,88.13201857. 04675. 21 xxxyll .13.28158. 088.132125.4910 xy xy88.13213.28 2. 回归方程的

16、显著性检验回归方程的显著性检验 对任意两个变量的一组观测数据对任意两个变量的一组观测数据(x1,y1),(x2,y2),(xn,yn)都可以用最小二乘法得到回归方程都可以用最小二乘法得到回归方程 ,但这,但这样得到的回归方程不一定都有意义样得到的回归方程不一定都有意义如果实际上模型如果实际上模型(9.1)中的中的 ,用最小二乘法得到,用最小二乘法得到的的 就没有意义这时称回归方程就没有意义这时称回归方程不显著不显著;如果如果 , 就有意义,这时称回归方程就有意义,这时称回归方程是是显著显著的的 9.2.1 一元线性回归分析一元线性回归分析xy10 01 xy10 01 xy10 2. 回归方程

17、的显著性检验回归方程的显著性检验 综上,一元线性回归方程的显著性检验,就是要综上,一元线性回归方程的显著性检验,就是要根据观测数据检验假设根据观测数据检验假设H0: 1 = 0 H1: 1 0 如果检验结果拒绝原假设如果检验结果拒绝原假设H0,说明一元线性回归,说明一元线性回归方程是显著的,否则,表明方程是显著的,否则,表明y与与x线性关系不显著,线性关系不显著,不需要建立这种模型了不需要建立这种模型了 在一元线性回归方程的显著性检验中,有多种等在一元线性回归方程的显著性检验中,有多种等价的检验方法这里介绍常用的价的检验方法这里介绍常用的F检验法检验法 9.2.1 一元线性回归分析一元线性回归

18、分析2. 回归方程的显著性检验回归方程的显著性检验 采用方差分析的思想,我们研究影响观测值采用方差分析的思想,我们研究影响观测值yi的原的原因因 注意到回归方程注意到回归方程 只反映了只反映了x对对y的影响,的影响,所以,所以,拟合值拟合值 是观测值是观测值yi中只受中只受xi影响的那一部分影响的那一部分 而而 则是除去则是除去xi的影响后,受其它种种因素影响的影响后,受其它种种因素影响的部分,故将的部分,故将 称为称为残差残差于是,观测值于是,观测值yi可以分可以分解为两部分解为两部分 和和 另外,另外, 也可分解为两部分:也可分解为两部分:记记9.2.1 一元线性回归分析一元线性回归分析x

19、y10 iy iiyy iiyy iy iiyy yyi )()(iiiiyyyyyy ,)(12 niiyySST,)(12 niiyySSM.)(12 niiiyySSE2. 回归方程的显著性检验回归方程的显著性检验记记SST反映了观测数据总的波动,称为反映了观测数据总的波动,称为总变差平方和总变差平方和SSM反映了由于自变量反映了由于自变量x的变化影响因变量的变化影响因变量y的差异,的差异,体现了体现了x对对y的影响,称为的影响,称为回归平方和回归平方和;SSE反映了种种其它因素对反映了种种其它因素对y的影响的影响, 称为称为残差平方和残差平方和 注意到注意到 满足正则方程满足正则方程(

20、9.6),有,有 即有即有,)(12 niiyySST,)(12 niiyySSM.)(12 niiiyySSE,0)(0)(110110 niiiiniiixxyxy niiiiniiixyyyy11009.2.1 一元线性回归分析一元线性回归分析,0 1 2. 回归方程的显著性检验回归方程的显著性检验由由 及及 ,得,得于是于是从而从而 = SSM + SSE即总变差平方和即总变差平方和SST可以分解为两部分:回归平方和可以分解为两部分:回归平方和SSM与残差平方和与残差平方和SSE9.2.1 一元线性回归分析一元线性回归分析iixy10 xy10 )(1xxyyii niiiiniiii

21、yyxxyyyy111)()( 0)()(111 niniiiiiixyyxyy niiyySST12)( niiiiyyyy12)()( niniiiiyyyy1122)()(2. 回归方程的显著性检验回归方程的显著性检验 SSM / SSE为为x的影响部分与随机因素影响部分的的影响部分与随机因素影响部分的相对比值相对比值 若它不是显著地大,表明回归方程中的若它不是显著地大,表明回归方程中的x并不是影并不是影响响y的一个重要的因素,于是由数据得到的回归方程的一个重要的因素,于是由数据得到的回归方程就没有什么意义;就没有什么意义; 如果它显著地大,表明如果它显著地大,表明x的作用显著地比随机因

22、素的作用显著地比随机因素大,这样方程就有意义大,这样方程就有意义 所以我们考虑用所以我们考虑用SSM / SSE构造检验统计量构造检验统计量9.2.1 一元线性回归分析一元线性回归分析2. 回归方程的显著性检验回归方程的显著性检验考虑用考虑用SSM / SSE构造检验统计量可以证明,当原构造检验统计量可以证明,当原假设假设H0成立时,即成立时,即 1 = 0时,有时,有将将 作为检验统计量,作为检验统计量,H0的拒绝域为的拒绝域为9.2.1 一元线性回归分析一元线性回归分析)2, 1()2/( nFnSSESSMF)2/( nSSESSMF)2, 1( nFF 2. 回归方程的显著性检验回归方

23、程的显著性检验若若F统计量的观测值为统计量的观测值为F0,则,则P值为值为 回归方程的显著性检验结果,通常汇总为方差分回归方程的显著性检验结果,通常汇总为方差分析表,如表析表,如表9.2所示所示 表表9.2 方差分析表方差分析表9.2.1 一元线性回归分析一元线性回归分析 0FFPP 来源平方和自由度平均平方和F统计量P值回归SSM1SSMP残差SSEn 2SSE / (n 2)总计SSTn 1)2/( nSSESSM【实验【实验9.1】使用】使用Excel建立表建立表9.1中合金钢的强度中合金钢的强度y与与含碳量含碳量x之间的回归方程,并对所建立的回归方程作之间的回归方程,并对所建立的回归方

24、程作显著性检验显著性检验 实验准备:实验准备: (1) 函数函数SLOPE的使用格式:的使用格式:SLOPE(known_ys, known_xs) 功能:返回回归直线的斜率其中功能:返回回归直线的斜率其中known_ys为因为因变量观测数据或单元格区域变量观测数据或单元格区域known_xs为自变量观为自变量观测数据或单元格区域测数据或单元格区域9.2.1 一元线性回归分析一元线性回归分析【实验【实验9.1】使用】使用Excel建立表建立表9.1中合金钢的强度中合金钢的强度y与与含碳量含碳量x之间的回归方程,并对所建立的回归方程作之间的回归方程,并对所建立的回归方程作显著性检验显著性检验 实

25、验准备:实验准备: (2) 函数函数INTERCEPT的使用格式:的使用格式:INTERCEPT(known_ys,known_xs) 功能:返回回归直线的截距其中功能:返回回归直线的截距其中known_ys为因为因变量观测数据或单元格区域变量观测数据或单元格区域known_xs为自变量观为自变量观测数据或单元格区域测数据或单元格区域9.2.1 一元线性回归分析一元线性回归分析实验步骤实验步骤: (1) 计算参数计算参数 1,在单元格,在单元格B14中输入公式:中输入公式:=SLOPE(C2:C13,B2:B13) (2) 计算参数计算参数 0,在单元格,在单元格B15中输入公式:中输入公式:

26、=INTERCEPT(C2:C13,B2:B13)即可得到即可得到 0, 1的估计值,如图的估计值,如图9.8(a)所示所示 9.2.1 一元线性回归分析一元线性回归分析 (a) (b) 图图9.8 0, 1的估计值与回归方程的显著性检验的估计值与回归方程的显著性检验据此得到回归方程:据此得到回归方程:注:例注:例9.3中结果与此方程有些出入,原因是计算时中结果与此方程有些出入,原因是计算时的舍入误差所致的舍入误差所致9.2.1 一元线性回归分析一元线性回归分析xy90.132083.28 (3) 计算回归值,在单元格计算回归值,在单元格D2中输入公式:中输入公式:=B$15+B$14*B2

27、将单元格将单元格D2中公式复制到单元格区域:中公式复制到单元格区域:D3:D13如图如图9.8(b) (4) 计算计算y1,y2,yn的总变差平方和的总变差平方和SST、回归、回归平方和平方和SSM和残差平方和和残差平方和SSE: 计算计算SST,在单元格,在单元格B16中输入公式:中输入公式:= DEVSQ(C2:C13)9.2.1 一元线性回归分析一元线性回归分析 计算计算SSE,在单元格,在单元格B17中输入公式:中输入公式:= SUMXMY2(C2:C13,D2:D13) 计算计算SSM,在单元格,在单元格B18中输入公式:中输入公式:= B16-B17 5) 计算检验统计量计算检验统

28、计量F和检验和检验P值:值: 计算计算F,在单元格,在单元格B19中输入公式:中输入公式:=B18/B17*10 计算计算P,在单元格,在单元格B20中输入公式:中输入公式:=FDIST(B19,1,10) 得到检验得到检验P值,如图值,如图9.8(c)P = 7.59 10-8 0.05,拒绝原假设,故拒绝原假设,故 1显著非显著非0,回归方程显著,回归方程显著9.2.1 一元线性回归分析一元线性回归分析 3. 回归方程的判定系数回归方程的判定系数 前面已讲到观测数据前面已讲到观测数据y1,y2,yn的总变差平方的总变差平方和和SST可以分解为回归平方和可以分解为回归平方和SSM与残差平方和

29、与残差平方和SSE两部分,即两部分,即 SST = SSM + SSE 将回归平方和与总变差平方和之比值称为将回归平方和与总变差平方和之比值称为判定系判定系数数,记为,记为R2,即,即 9.2.1 一元线性回归分析一元线性回归分析SSTSSESSTSSMR 12 3. 回归方程的判定系数回归方程的判定系数 判定系数判定系数R2可以解释为可以解释为y1,y2,yn的总变化量的总变化量中被回归方程所描述的比例中被回归方程所描述的比例 R2越大,总变化量中被回归方程所描述的比例就越大,总变化量中被回归方程所描述的比例就越大,说明自变量对因变量的影响越大从而残差越大,说明自变量对因变量的影响越大从而残

30、差平方和就越小,即拟合效果越好平方和就越小,即拟合效果越好 可见可见R2反映了回归方程对数据的拟合程度,是衡反映了回归方程对数据的拟合程度,是衡量拟合优劣的一个很重要的统计量量拟合优劣的一个很重要的统计量 称称R2为回归方程的为回归方程的拟合优度拟合优度 9.2.1 一元线性回归分析一元线性回归分析 3. 回归方程的判定系数回归方程的判定系数 如果所有观测数据的散点都落在回归直线上,残如果所有观测数据的散点都落在回归直线上,残差平方和差平方和SSE = 0,R2 = 1,拟合是完全的;,拟合是完全的; 如果如果y的变换与的变换与x无关,无关,x完全无助于解释完全无助于解释y的变差,的变差,此时

31、,此时, 则则R2 = 0 可见,可见,0 R2 1 R2越接近于越接近于1,表明回归平方和占总变差平方和的,表明回归平方和占总变差平方和的比例就越大,回归直线与各观测点越接近,用比例就越大,回归直线与各观测点越接近,用x解释解释y的变差部分就越多,回归直线的拟合程度就越好;的变差部分就越多,回归直线的拟合程度就越好;反之,反之,R2越接近于越接近于0,回归直线的拟合程度就越差,回归直线的拟合程度就越差9.2.1 一元线性回归分析一元线性回归分析,yy 在一元回归模型中,可以证明在一元回归模型中,可以证明R恰好是由恰好是由(xi,yi),i=1,2,n计算得到的样本相关系数计算得到的样本相关系

32、数r, 即有即有 事实上,由于事实上,由于 由由(9.8)式,式, 所以所以 ,于是,于是9.2.1 一元线性回归分析一元线性回归分析.22rR niiyySSM12)( niiiyyxxSSM11)( niiiniiyyxxyy1112)()( 2212121121112122)()()()()()()(ryyxxyyxxyyyyxxyyyyRniiniiniiiniiniiiniinii niiniixxxx1221121010)()( 【实验【实验9.2】使用】使用Excel画出表画出表9-1中合金钢的强度中合金钢的强度y与与含碳量含碳量x之间的回归直线之间的回归直线, 并计算回归方程的

33、拟合优并计算回归方程的拟合优度度 (1) 在在Excel中画出中画出y与与x之间的散点图之间的散点图, 如图如图9.7所示所示 (2) 用鼠标右键单击散点图中的数据点,在弹出的用鼠标右键单击散点图中的数据点,在弹出的快捷菜单中选择快捷菜单中选择“添加趋势线添加趋势线”,如图,如图9.9所示所示 (3) 在打开的在打开的“添加趋势添加趋势线线”对话框中,对话框中,“类型类型”取取默认的默认的“线性线性”;9.2.1 一元线性回归分析一元线性回归分析 在在“选项选项”选项卡中,修改选项卡中,修改“趋势预测趋势预测”中中“前推前推”和和“倒推倒推”为为0.1,选中,选中“显示公式显示公式”和和“显示

34、显示R平平方值方值”复选框,如图复选框,如图9.10所示单击所示单击“确定确定”按钮按钮 得回归直线、回归方程与拟合优度得回归直线、回归方程与拟合优度,如图如图9.11所示所示9.2.1 一元线性回归分析一元线性回归分析【实验【实验9.2】使用】使用Excel画出表画出表9.1中合金钢的强度中合金钢的强度y与与含碳量含碳量x之间的回归直线之间的回归直线, 并计算回归方程的拟合优并计算回归方程的拟合优度度 回归直线、回归方程与拟合优度回归直线、回归方程与拟合优度, 如图如图9.11所示所示 图中显示,回归直线的方程为图中显示,回归直线的方程为方程的拟合优度为方程的拟合优度为0.95039.2.1

35、 一元线性回归分析一元线性回归分析,9 .132083. 82xy 4. 误差方差的估计误差方差的估计 在一元线性回归模型在一元线性回归模型y = 0 + 1x + , N(0, 2)中,随机误差中,随机误差 的大小可由它的方差的大小可由它的方差 2衡量,衡量, 2越小,越小,回归方程拟合数据的程度就越好回归方程拟合数据的程度就越好 如何估计如何估计 2? 9.2.1 一元线性回归分析一元线性回归分析 4. 误差方差的估计误差方差的估计 由观测值由观测值(x1,y1),(x2,y2),(xn,yn),通过参,通过参数估计得到了回归方程数估计得到了回归方程 残差平方和残差平方和说明了实际观测值说

36、明了实际观测值yi与估计值与估计值 之间的差异程度之间的差异程度我们称我们称 为为均方残差(均方残差(也记为也记为MSE) 可以证明可以证明9.2.1 一元线性回归分析一元线性回归分析,10 xy niiiyySSE1)(iy 22 nSSE 222)( nSSEEE 4. 误差方差的估计误差方差的估计 因此,我们将因此,我们将 作为随机误差的标准差作为随机误差的标准差 的的估计,称估计,称 为随机误差为随机误差 的的估计标准误差估计标准误差,简,简称称标准误差,标准误差,或叫或叫根均方残差根均方残差 估计标准误差估计标准误差 反映了回归方程预测因变量反映了回归方程预测因变量y时预时预测误差的

37、大小,若各观测点靠近回归直线,测误差的大小,若各观测点靠近回归直线, 越小,越小,回归直线对各观测点的代表性就越好,根据回归方回归直线对各观测点的代表性就越好,根据回归方程进行预测也就越准确程进行预测也就越准确 可见可见 也从一个侧面反映了回归直线的拟合程度也从一个侧面反映了回归直线的拟合程度 9.2.1 一元线性回归分析一元线性回归分析22 nSSE 22 nSSE 4. 误差方差的估计误差方差的估计 在实验在实验9.1中,中,SSE = 17.133(见图(见图9.8)所以回归方程所以回归方程 的估计标准误差为的估计标准误差为9.2.1 一元线性回归分析一元线性回归分析xy90.13208

38、3. 82 .3089. 12 nSSE 5. 残差分析残差分析 在一元线性回归模型在一元线性回归模型(9.4)式中假定了误差式中假定了误差 i(i=1,2,n)的正态性、独立性和同方差性)的正态性、独立性和同方差性 其中,误差其中,误差 i = yi ( 0 + 1xi) (i1,2,n)是是未知的,不可观测的未知的,不可观测的 若所建回归方程若所建回归方程 合适,残差合适,残差 可近似看做可近似看做 i (i1,2,n) ,即,即 应基本应基本上反映未知误差上反映未知误差 i的上述特性的上述特性 利用残差利用残差 (i1,2,n)的特征反过来的特征反过来考察原模型的合理性就是残差分析的基本

39、思想考察原模型的合理性就是残差分析的基本思想 9.2.1 一元线性回归分析一元线性回归分析xy10 iiiyy iiiyy iiiyy 5. 残差分析残差分析 在将回归方程应用于实际之前必须进行残差分析,在将回归方程应用于实际之前必须进行残差分析,这是十分重要的一个环节如果残差基本符合模型这是十分重要的一个环节如果残差基本符合模型中对误差的假定,才能最终认为所选模型是合适的,中对误差的假定,才能最终认为所选模型是合适的,所建回归方程是可行的,可以用于预测和控制,否所建回归方程是可行的,可以用于预测和控制,否则,所选模型可能不合适,需要改进,所建回归方则,所选模型可能不合适,需要改进,所建回归方

40、程也不能应用于实际程也不能应用于实际 残差的正态性检验可以通过第八章所讲分布拟合残差的正态性检验可以通过第八章所讲分布拟合检验法进行检验,也可以用频率检验、残差图分析检验法进行检验,也可以用频率检验、残差图分析等方法进行检验下面简单介绍一下残差正态性的等方法进行检验下面简单介绍一下残差正态性的频率检验及残差图分析方法频率检验及残差图分析方法9.2.1 一元线性回归分析一元线性回归分析 5. 残差分析残差分析 (1) 残差正态性的频率检验残差正态性的频率检验 残差正态性的频率检验是一种很直观的检验方残差正态性的频率检验是一种很直观的检验方法其基本思想是将残差落在某范围的频率与正态法其基本思想是将

41、残差落在某范围的频率与正态分布在该范围的概率(或称为理论频率)相比较,分布在该范围的概率(或称为理论频率)相比较,通过二者之间偏差的大小评估残差的正态性通过二者之间偏差的大小评估残差的正态性 9.2.1 一元线性回归分析一元线性回归分析 5. 残差分析残差分析 在回归模型中,若假定在回归模型中,若假定 i N(0, 2),则,则(i1,2,n)由于均方残差由于均方残差(MSE)是是 2的无偏估计的无偏估计因此,当因此,当n较大时,较大时, (i1,2,n)可近似认为可近似认为是取自标准正态分布总体的样本是取自标准正态分布总体的样本 称称 (i1,2,n)为为标准化残差标准化残差9.2.1 一元

42、线性回归分析一元线性回归分析)1 , 0( Ni SSEnnnii2121122 /i /i 5. 残差分析残差分析 由于服从由于服从N(0,1)分布的随机变量取值在分布的随机变量取值在(1,1)内内的概率约为的概率约为0.68,在,在(1.5,1.5)内的概率约为内的概率约为0.87,在在(2,2)内的概率约为内的概率约为0.95等等等等 因此理论上因此理论上, 标准化残差标准化残差 (i1,2,n)中中有大约有大约68应在应在(1,1)内内, 87应在应在(1.5,1.5)内内, 95应在应在(2, 2)内等等如果残差在某些区间内的频内等等如果残差在某些区间内的频率与上述理论频率有较大的偏

43、差,则有理由怀疑率与上述理论频率有较大的偏差,则有理由怀疑 ,从而从而 i (i1,2,n)的正态性假定的合理性的正态性假定的合理性. 用这种方法检验残差的正态性是十分方便的在实用这种方法检验残差的正态性是十分方便的在实际应用中,一般取二三个具有代表性的区间即可际应用中,一般取二三个具有代表性的区间即可9.2.1 一元线性回归分析一元线性回归分析 /ii 5. 残差分析残差分析 (2) 残差图分析残差图分析 凡是以残差为纵坐标,而以观测值凡是以残差为纵坐标,而以观测值yi,拟合值,拟合值 ,自变量自变量xi(i = 1,2,n)或序号、观测时间等为)或序号、观测时间等为横坐标的散点图,均称为横

44、坐标的散点图,均称为残差图残差图 可以通过残差图对误差项的正态性、等方差性、可以通过残差图对误差项的正态性、等方差性、独立性及对模型中是否应该包含自变量的高次项、独立性及对模型中是否应该包含自变量的高次项、观测值中是否有异常值存在等作出直观的考察观测值中是否有异常值存在等作出直观的考察 9.2.1 一元线性回归分析一元线性回归分析iy 5. 残差分析残差分析 (2) 残差图分析残差图分析 如果线性回归模型的假定成立,标准化残差如果线性回归模型的假定成立,标准化残差(i=1,2,n)应相互独立且近似服从应相互独立且近似服从N(0,1),那,那么残差图中绝大多数散点(么残差图中绝大多数散点(95%

45、)应随机地分布在)应随机地分布在2到到+2的带子里这样的残差图称为合适的残差图,的带子里这样的残差图称为合适的残差图,如图如图9-12左左 9.2.1 一元线性回归分析一元线性回归分析 /i5. 残差分析残差分析 (2) 残差图分析残差图分析 图图9.12(b)中表明残差的方差随自变量的增大而增中表明残差的方差随自变量的增大而增大,不是常数图大,不是常数图9.12(c)散点分布有二次趋势,表明散点分布有二次趋势,表明回归模型不合适,可以考虑在回归模型中加入自变回归模型不合适,可以考虑在回归模型中加入自变量的二次项,建立非线性回归方程量的二次项,建立非线性回归方程9.2.1 一元线性回归分析一元

46、线性回归分析【实验【实验9.3】使用】使用Excel数据分析功能对表数据分析功能对表9-1中合金钢中合金钢的强度的强度y与含碳量与含碳量x作一元线性回归分析作一元线性回归分析 设例设例9.3中数据已整理如图中数据已整理如图9.7所示,回归分析步骤所示,回归分析步骤如下:如下: (1) 在在Excel主菜单中选择主菜单中选择“工具工具”“数据分析数据分析”,打开打开“数据分析数据分析”对话框,在对话框,在“分析工具分析工具”列表中列表中选择选择“回归回归”选项,单击选项,单击“确定确定”按钮按钮9.2.1 一元线性回归分析一元线性回归分析【实验【实验9-3】使用】使用Excel数据分析功能对表数

47、据分析功能对表9-1中合金中合金钢的强度钢的强度y与含碳量与含碳量x作一元线性回归分析作一元线性回归分析 (2) 在打开的在打开的“回归回归”对话框中,依次输入对话框中,依次输入“Y值值输入区域输入区域”和和“X值输入区域值输入区域”,选中,选中“残差残差”和和“残差图残差图”,如图,如图9-13所示,单击所示,单击“确定确定”按钮按钮9.2.1 一元线性回归分析一元线性回归分析得到回归分析的结果如图得到回归分析的结果如图9-14和和9-15所示所示 结果显示,回归方程为:结果显示,回归方程为: 方程的拟合优度方程的拟合优度R2为为0.9503F统计量的统计量的P值值=7.59 10-8 0.

48、05,说明,说明 1显著非显著非0,回归方程显著,回归方程显著9.2.1 一元线性回归分析一元线性回归分析xy90.132083. 82 回归方程回归方程: 其中回归系数其中回归系数 1=132.90,意味着含碳量每增加,意味着含碳量每增加0.01%,合金钢的强度平均增加合金钢的强度平均增加1.329个个107Pa 从残差图可以看出,所建回归模型是合适的从残差图可以看出,所建回归模型是合适的9.2.1 一元线性回归分析一元线性回归分析xy90.132083. 82 6利用回归方程进行估计和预测利用回归方程进行估计和预测 在回归方程通过各种检验后,就可以利用它对因在回归方程通过各种检验后,就可以

49、利用它对因变量的取值进行预测了变量的取值进行预测了. 对因变量的取值进行预测分为点预测(点估计)对因变量的取值进行预测分为点预测(点估计)和区间预测(区间估计)和区间预测(区间估计) 点预测是根据回归方程代入自变量的值,得到对点预测是根据回归方程代入自变量的值,得到对应因变量的预测值,而区间预测则是在点预测的基应因变量的预测值,而区间预测则是在点预测的基础上,给出给定置信水平下的因变量的预测区间础上,给出给定置信水平下的因变量的预测区间 9.2.1 一元线性回归分析一元线性回归分析 6利用回归方程进行估计和预测利用回归方程进行估计和预测 (1) 点预测点预测 假设通过各种检验的假设通过各种检验

50、的“最优最优”回归方程为回归方程为 对给定的对给定的x0值,代入回归方程值,代入回归方程 中就可得中就可得的的 值值. 它既可以作为实际值它既可以作为实际值的估计值,也可以作为的估计值,也可以作为 的估计值,这的估计值,这就是所谓的点预测就是所谓的点预测 例如,对合金钢强度例如,对合金钢强度y对含碳量对含碳量x的回归方程的回归方程 当已知含碳量当已知含碳量x0= 0.22时,就可以预时,就可以预测合金钢强度为测合金钢强度为9.2.1 一元线性回归分析一元线性回归分析xy10 0100 xy xy10 00100 xy0100)(xyE ,90.132083.28xy 57.318.90.132

51、083.2800 xy 6利用回归方程进行估计和预测利用回归方程进行估计和预测 (2) 区间预测区间预测 区间预测分为个体的区间预测和均值的区间预测,区间预测分为个体的区间预测和均值的区间预测,这里只介绍个体的区间预测这里只介绍个体的区间预测 对给定的对给定的x0值,因变量值,因变量y的相应值的相应值y0记成记成由于由于y0服从正态分布,且服从正态分布,且 可以证明可以证明其中其中 9.2.1 一元线性回归分析一元线性回归分析,000 yy.020),( N,)(00yyE ),2()(112000 ntlxxnyyxx ,2 nSSE niixxxxl12)( 6利用回归方程进行估计和预测利

52、用回归方程进行估计和预测 因此,对给定的因此,对给定的x0,在给定的置信水平,在给定的置信水平1 下,下,y0的的置信区间为置信区间为可以看出,对于给定的可以看出,对于给定的n和和 ,lxx越大或越大或x0越靠近越靠近 ,区间的长度就越短,预测精度就越高区间的长度就越短,预测精度就越高由于由于 刻画了观测点刻画了观测点x1,x2,xn的的分散程度,因此,想提高预测精度就要使分散程度,因此,想提高预测精度就要使x1, x2, xn尽量分散尽量分散9.2.1 一元线性回归分析一元线性回归分析 xxxxlxxnntylxxnnty20202020)(11)2(,)(11)2( x niixxxxl1

53、2)( 6利用回归方程进行估计和预测利用回归方程进行估计和预测 例如,合金钢强度例如,合金钢强度y对含碳量对含碳量x的回归方程的回归方程当已知含碳量当已知含碳量x0= 0.22时,就可以得到合金钢强度置时,就可以得到合金钢强度置信水平为信水平为95%的置信区间:的置信区间:(54.01,60.63)9.2.1 一元线性回归分析一元线性回归分析xy90.132083.28 9.2 回归分析回归分析 9.2.2 可化为线性回归的一元非线性回归可化为线性回归的一元非线性回归 现实世界中严格的线性模型并不多见,它们或多现实世界中严格的线性模型并不多见,它们或多或少都带有某种程度的近似;或少都带有某种程

54、度的近似; 在不少情况下,非线性模型可能更加符合实际,在不少情况下,非线性模型可能更加符合实际,因此,非线性回归与线性回归同样重要因此,非线性回归与线性回归同样重要 下面主要介绍可化为线性回归的一元非线性回归下面主要介绍可化为线性回归的一元非线性回归分析分析 9.2.2 可化为线性回归的一元非线性回归可化为线性回归的一元非线性回归 在对数据进行分析时,常常先描出数据的散点图,在对数据进行分析时,常常先描出数据的散点图,判断两个变量间可能存在的函数关系判断两个变量间可能存在的函数关系 如果两个变量间存在线性关系,我们可以用前面如果两个变量间存在线性关系,我们可以用前面所述的方法建立一元线性回归方

55、程所述的方法建立一元线性回归方程 来描述来描述 如果它们之间存在着一种非线性关系,这时常用如果它们之间存在着一种非线性关系,这时常用的方法是通过变量变换,使新变量之间具有线性关的方法是通过变量变换,使新变量之间具有线性关系,然后利用一元线性回归方法对其进行分析系,然后利用一元线性回归方法对其进行分析 xy10 9.2.2 可化为线性回归的一元非线性回归可化为线性回归的一元非线性回归 表表9.3给出了一些常见的可线性化的一元非线性函给出了一些常见的可线性化的一元非线性函数及线性化方法数及线性化方法下面通过一个具体实例说明一元非线性回归分析的下面通过一个具体实例说明一元非线性回归分析的方法:方法:

56、【实验【实验9.4】设随机变量】设随机变量x与与y的观测数据如下,试建的观测数据如下,试建立立y与与x的回归模型的回归模型下面分三步进行分析建立模型:下面分三步进行分析建立模型:x234578101114151618y106.42108.20109.58109.50110.00109.93110.49110.59110.60110.90110.76111.009.2.2 可化为线性回归的一元非线性回归可化为线性回归的一元非线性回归【实验【实验9.4】设随机变量】设随机变量x与与y的观测数据如下,试建的观测数据如下,试建立立y与与x的回归模型的回归模型1. 确定回归函数可能形式确定回归函数可能形

57、式为确定可能的函数形式,首先描出数据的散点为确定可能的函数形式,首先描出数据的散点图步骤如下:图步骤如下:选中单元格区域:选中单元格区域:B2:C14,并选择主菜单并选择主菜单“插插入入”“图表图表”,打开,打开“图表向导图表向导”对话框,选中对话框,选中图表类型图表类型“XY散点图散点图”,单击,单击“完成完成”按钮,即可按钮,即可得到散点图得到散点图x234578101114151618y106.42108.20109.58109.50110.00109.93110.49110.59110.60110.90110.76111.00散点图如图散点图如图9.16所示所示 散点图呈现出明显的向上

58、且上凸的趋势,可能选散点图呈现出明显的向上且上凸的趋势,可能选择的函数关系有很多,比如可以给出如下三种曲线择的函数关系有很多,比如可以给出如下三种曲线函数:函数:令令 三种曲线函数又可以三种曲线函数又可以表示为:表示为:v = a + bu,y = a + bw,y = a + bz9.2.2 可化为线性回归的一元非线性回归可化为线性回归的一元非线性回归,1xbay ,ln xbay .xbay ,1 xu ,/1 yv ,ln xw ,xz 2. 变量变换变量变换 (1) 增加变量增加变量u=1/x, 在单元格在单元格D2中输入公式:中输入公式:=1/B2, 并将单元格并将单元格D2中公式复

59、制到单元格区域中公式复制到单元格区域D3:D14中中 (2) 增加变量增加变量v=1/y, 在单元格在单元格E2中输入公式:中输入公式:=1/C2, 并将单元格并将单元格E2中公式复制到单元格区域中公式复制到单元格区域E3: E14中中 (3) 增加变量增加变量w=lnx, 在单元格在单元格F2中输入公式中输入公式: =LN(B2), 并将单元格并将单元格F2中公式复制到单元格区域中公式复制到单元格区域F3: F14中中9.2.2 可化为线性回归的一元非线性回归可化为线性回归的一元非线性回归 (4) 增加变量增加变量 在单元格在单元格G2中输入公式:中输入公式:=SQRT(B2) 并将单元格并

60、将单元格G2中公式复制到单元格区域中公式复制到单元格区域G3: G14中中 结果如图结果如图9.17所示所示9.2.2 可化为线性回归的一元非线性回归可化为线性回归的一元非线性回归分别做分别做v对对u、y对对w和和y对对z散点图,如图散点图,如图9.18所示:所示: 从散点图可以看出变换从散点图可以看出变换后的两变量的关系接近线后的两变量的关系接近线性,可以考虑建立线性回性,可以考虑建立线性回归模型归模型9.2.2 可化为线性回归的一元非线性回归可化为线性回归的一元非线性回归 3. 回归方程的比较回归方程的比较利用实验利用实验9-1中介绍的方法分别建立中介绍的方法分别建立v和和u、y和和w及及

61、y和和z线性回归方程为:线性回归方程为: (1) v = 0.0090 + 0.0008 u 模型的各项检模型的各项检验结果如图验结果如图9-19 9.2.2 可化为线性回归的一元非线性回归可化为线性回归的一元非线性回归 3. 回归方程的比较回归方程的比较 (2) y = 106.315 + 1.7140 w 模型的各项检验结果如图模型的各项检验结果如图9-20 图图9-20 模型模型29.2.2 可化为线性回归的一元非线性回归可化为线性回归的一元非线性回归 3. 回归方程的比较回归方程的比较 (3) y = 106.301 + 1.1947 z 模型的各项检验结果如图模型的各项检验结果如图9

62、-21 9.2.2 可化为线性回归的一元非线性回归可化为线性回归的一元非线性回归 3. 回归方程的比较回归方程的比较 从上面三个结果看,三个线性模型均有效(这里略从上面三个结果看,三个线性模型均有效(这里略去做残差分析,有兴趣的读者可以自己做一做)去做残差分析,有兴趣的读者可以自己做一做) 其中第一个模型的判定系数其中第一个模型的判定系数R2最大、标准误差最小最大、标准误差最小, 即第一个方程拟合得最好,所以应选用线性回归方程即第一个方程拟合得最好,所以应选用线性回归方程v = 0.0090 + 0.0008 u,原数据的回归方程为:,原数据的回归方程为:即即9.2.2 可化为线性回归的一元非线性回归可化为线性回归的一元非线性回归xy10008. 00090. 01 .00081. 00090. 0 xxy 3. 回归方程的比较回归方程的比较 由本例可以看到,通过变量变换,使新变量之间具由本例可以看到,通过变量变换,使新变量之间具有线性关系,对新变量建立线性模型,从而得到用原有线性关系,对新变量建立线性模型,从而得到用原变量表达的非线性模型的方法是一种建立非线性模型变量表达的非线性模型的方法是一种建立非线性模型有效方法有效方法9.2.2 可化为线性回归的一元非线性回归可化为线性回归的一元非线性回归

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!