认识最小二乘法

上传人:小** 文档编号:51261831 上传时间:2022-01-24 格式:DOC 页数:14 大小:199.50KB
收藏 版权申诉 举报 下载
认识最小二乘法_第1页
第1页 / 共14页
认识最小二乘法_第2页
第2页 / 共14页
认识最小二乘法_第3页
第3页 / 共14页
资源描述:

《认识最小二乘法》由会员分享,可在线阅读,更多相关《认识最小二乘法(14页珍藏版)》请在装配图网上搜索。

1、认识最小二乘法 对“用最小二乘法探求回归直线方程”的教学反思 北京师范大学数学系 李勇 人民教育出版社中学数学室 宋莉莉 第六次课题研讨会开设的研究课之一数学 3中“ 2.3 变量间的相关 关系”的第 3 课时“用最小二乘法探求回归直线方程” 引起了广泛的讨论 .包 括 执教者在内的许多一线教师都反映自己在讲授统计知识时, 往往由于对知识内容 一知半解不得不“照本宣科”,有时甚至会出现理解上的偏差;在指导学生体会 统 计思想时,更是感到“心有余而力不足” . 教师的这些感受都是真实自然的, 主要原因有三: 其一是绝大多数教师自己虽然学过 “概率论与数理统计” 类课程, 但这 些课程大都是统计学

2、的数学基础,少有统计思想的介绍;其二是以往的高 中数学教材中几乎不涉及统计学思想, 教师在教学过程中远离统计学内容, 结果 使自己对概 率统计知识变得陌生;其三是缺乏必要的适于中学概率统计的教学 参考资料 .统 计学是一门“实践性”和“过程性”都很强的学科,任何一个单独的统 计概念、公式、统计方法及其所蕴涵的统计思想都与解决特定实际问题的过程相 关联. 因此应 在统计知识的教学过程中,重视渗透和明确统计思想 . 统计思想既 深刻又有其独特性, 正如统计学家陈希孺先生所说 “统计学不止是一种方法或技 术,还含有世界观 的成分它是看待世界上万事万物的一种方法” . 统计教学 不容忽视的一个目标就是

3、培养学生的“统计思想” .以上是统计教学非常重要的两个方面, 但在教师的知识储备不足时是不可能 实现的,所以当务之急是提高教师自身的统计水平 . “高水平数学教学的前提是 教师自己准确理解所教内容” . 因此本文想以“最小二乘法”为载体,通过挖掘 其产生的历史背景、思想源头、来龙去脉、与其他统计知识的联系等,为教师提 供一个感受统计思想的内涵、 统计方法的特征、 统计学家创设统计方法时的思想 火花等的机会 .一、最小二乘法与最小一乘法1. 什么时候用最小二乘法 在研究两个变量之间的关系时,可以用回归分析的方法进行分析。当确定了 描述两个变量之间的回归模型后, 就可以使用最小二乘法估计模型中的参

4、数, 进 而建立经验方程 .例如,在现实世界中,这样的情形大量存在着:两个变量X和丫(比如身高和体重)彼此有一些依赖关系,由X可以部分地决定丫的值,但这种关系又是不 确定的 . 人们常常借助统计学中的回归模型来寻找两个变量之间的关系,而模型 的建立当然是依据观测数据 . 首先通过试验或调查获得 x 和 丫的一组对应关系 (Xi,丫1),(X2,丫2),,, (Xn,Yn),然后回答下列 5 个问题:1. 这两个变量是否有关系? ( 画出散点图,作直观判断 )2. 这些关系是否可以近似用函数模型来描述?(利用散点图、已积累的函数曲线形状的知识和试验数据,选择适当的回归模型,如一元线性模型y=b)

5、+bix,二次函数模型 y=bo+ bix + bzx2等)3. 建立回归模型.4. 对模型中的参数进行估计,最小二乘法是这些参数的一种常用估计方法.5. 讨论模型的拟合效果.在上述第3步中,设所建立的回归模型的一般形式是,其中丫称为响应变量,x称为解释变量或协变量;是一 一个由参数一决定的回归函数;f是一个不可观测的随机误差.为了通过试验数据来估计参数-的值,可以采 用许多统计方法,而最小二乘法是目前最常用、最基本的.由一的估计值T决定的A方程1 = -I二称为经验回归方程或经验方程.教科书中涉及的回归模型是最简单的一元线性模型Y=bo+bix+t,是一个不可观测的随机误差此时模型的拟合效果

6、可以通过 Pears on相关系数弘朋一刃=21Y i-lZ来描述。事实上,在线性回归模型中可以证明相关指数等于相关系数的平方.2. 什么是最小二乘法思想简单地说,最小二乘的思想就是要使得观测点和估计点的距离的平方和达到 最小.这里的“二乘”指的是用平方来度量观测点与估计点的远近(在古汉语中“平方”称为“二乘”),“最小”指的是参数的估计值要保证各个观测点与估 计点的距离的平方和达到最小.例如,对于回归模型Y=f(x9)+若(耳人),(心打)为收集到的观测数据,贝炖该用 卜人锄来估计益,这 里i是的估计值。这样点爲:的估计就是I:;,它们之间距离的平方就是11半厂,进而最小二乘估计量就是使得Q

7、二弘-疔+(3金掰(*)达到最小值的参数.特别当各个1和相应的估计值相等,即二人时,最小二乘 估计量就是使得曲二加-几屈ri_i(*)达到最小值的参数.如果我们能够在固定解释变量值的前提下观测预报变量,就认为解释变量的 观测值和估计值相等,从而可以通过(*)式求最小二乘估计.在实际应用中,人 们常忽略“各个和相应的估计值相等”的条件,而把(*)式的最小值点称为参 数的最小二乘估计量,其原因有二:其一是不知道最小二乘方法的原理;或是A找不到估计量I的合理数学表达式,也就无法通过(*)式求最小二乘估计量,只 好用(*)式的最小值点作为参数的估计.在教科书中,已知(Xi,yi),(X2,y2),,,

8、 (Xn,yn)是变量X和丫的一组观 测数据,要估计的是回归直线方程 y=bo + bix中参数bo,bi的值。所以这时目标 函数为工5-(如半如i)2 于是这时的最小二乘法就是寻求bo, bi的值,使在各点处的偏差yi - (bo + biXi) (i =i,2,,, n)的平方和达到最小.在这种情形中,有意思的事情是:估计得到的直线=bo+ bix 一定经过观测数据点的中心(,)aa( ).进一步,若观测数据全部落在某一直线上,则这个直线方程的截距和斜率必 是模型参数的最小二乘估计量.因此最小二乘法还为我们提供了一种求解方程组 的方法关于最小二乘估计的计算,涉及更多的数学知识,这里不想详述

9、 .其一般的 过程是用目标函数对各b求偏导数,并令其等于0,得到一个线性方程组.高斯 当年将其命名为正则方程,并创设了解线性方程组的消元法一一高斯消元法 从 计算的角度看,最小二乘法与插值法类似,都是处理数据的算法 但从创 设的思想看,二者却有本质的不同.前者寻求一条曲线,使其与观测数据“最接 近”,目的是代表观测数据的趋势;后者则是使曲线严格通过给定的观测数据, 其目的是通过来自函数模型的数据来近似刻画该函数 .在观测数据带有测量误差 的情况下,就会使得这些观测数据偏离函数曲线,结果使得与观测数据保持一 致的插值法不如最小二乘法得到的曲线更符合客观实际 最小二乘法能在统计学中得到应用,也是因

10、为测量误差的存在。事实上,在 高斯等人创立了测量误差理论,对最小二乘法进行了误差分析之后, 这种方法才 在统计界获得了合法地位,正式成为了一种统计方法 3. 关于最小一乘法将上述最小二乘法的一般形式改为目标函数,就是最小一乘法。最小一乘法诞生在 1760年,比最小二乘法还要早40多年.但 是由于当时无法解决的计算问题,最小一乘法在此后的百余年中都没有获得长足 的发展直到1950 年,发现了用线性规划求解的方法以及电子计算机的使用,才解决了计算难题如今,统计理论的发展使最小一乘法在某些应用部门(如数量 经济学)显示了优良的性质,正在逐步受到应用界的重视 有意思的是,有人做过这样的试验:准备大量的

11、散点图,让一些人各自用目 测的方法画直线结果表明,大多数人目测的结果更接近于最小一乘法而不是最 小二乘法获得的直线。二、最小二乘法的发现史及其在统计学中的地位发现最小二乘法的动因是天文学和测地学中处理数据的需要 陈希孺先生所 著数理统计学简史中记载了这样一段历史.在18世纪,天文学和测地学中的 一些数据分析问题可以描述如下:有(1)个可以测量的量X。,xi,,, Xm, 和m个未知的参数B 1, B 2,,, B m.按照某种理论,它们之间应有线性关系、丄 1 0但是由于实际工作中对X0,X1, ,, Xm的测量存在误差,而且式只是理论上的 近似而非严格成立也就是说,式左边的表达式实际上不等于

12、 0,其真实值与 测量有关,可视为一种误差若进行了 n次测量,在实际问题中,n总是大于甚至是远远大于m目的是多提供一些信息,以便对参数B 1, B 2, , , B m作出较精确的估计.设在第i次测量中,Xo,Xi,,, Xm分别取值Xoi,Xli,,, Xmi,则 按照式,应有1 丄! 1 丄 1(i =1,2,,, n)。若式严格成立,则只要从上述n个方程中任意挑出m个就可以解出B i,B 2,,, B m的值.但式并非严格成立,于是需要设计合适的算法来估计参数的值.1750年,天文学家梅耶发表了一种方法.他在研究海上航行船只的定位问题 时,得到了一个包含3个未知参数的形如式的关系式以及

13、27组观测数据.梅耶 把这27个方程分成3组,然后把每组中的9个方程相加,共得到3个方程,这 样可以解出3个未知参数.至于分组的方法,梅耶以其中一个系数为准,按各方 程中此系数的大小分组:最大的 9个,最小的9个和剩下的9个各成一组.在最 小二乘法发现之前,这个方法曾经比较流行,并被冠以梅耶的名字.值得一提的是,梅耶还估计了这种方法的误差,并试图对误差的界限作一个估计.虽然今天看来梅耶的做法有一些错误,但他在那么早的阶段就做出这种努力,是难能可贵的.1787 年,拉普拉斯在研究天文问题时引出了一个形如式的 作4,n= 24 的方程组.他的求解方法是,先把24个方程编号,然后按下列方式得到需要求

14、解 的4个方程.方程1: 24个方程的和;方程2:前12个方程之和-后12个方程之和;方程3:编号为3,4,10,11,17,18的方程之和一编号为1,7,14,20 的方程之和;方程4:编号为2,8,9,15,16, 21,22的方程之和编号为5, 6,12, 13,19的方程之和。拉普拉斯没有解释如此组合的原因,这使得他的方法无法应用于类似的问题.对解决这类问题做过尝试的还有大数学家欧拉,但他的做法显得杂乱无章, 缺乏基本的合理性.看来这个问题的解决还需要一点新的思路.1805年,法国数 学家勒让德采取了一个新的角度来考虑这个问题.他不再关心如何找出个数等于 未知数个数的方程组,而是考虑如

15、何使误差在整体上达到平衡,于是他采取使 的原则去求解B 1, B 2, , , B m.这一原则使误差不过分集中在几个方程上,而 是比较均匀地分布于各方程,从而有助于揭示系统的更接近真实的状态.而勒让德之前的学者的做法对于误差在各方程之间的分布的影响是不清楚的.后来,最小二乘法逐步渗入到统计数据分析领域,对统计学的发展产生了重 大影响.统计史家对此评价很高,有的认为最小二乘法之于统计学,犹如微积分 之于数学.有的学者称最小二乘法是19世 纪统计学的“中心主题”.最小二乘法 之所以能获得如此的显赫地位,主要得益于它与线性模型的联系.勒让德创设最小二乘法是为了解决形如式的线性表达式(如今已发展为线

16、性模型)的,由此导出的也是一个线性的方程组,这使得最小二乘法具有计算简便的特点但更加重要的是,“线性”的特点使最小二乘法在误差分析方面较之其他方法具有不可替代的优势在1809年高斯对最小二乘估计进行的误差分析中发现, 在线性 模型的所有无偏估计类中,最小二乘估计是唯一的方差最小的无偏估计;进入 20世纪后,哥色特、费歇尔等人还发现,在正态误差的假定下,最小二乘估计 有较完善的小样本理论,使基于它的统计推断易于操作且有关的概率计算不难进 行.与此同 时,对最小二乘法误差分析的研究也促进了线性模型理论的发展.如今,线性模型已经成为理论结果最丰富、应用最广泛的一类回归模型.三、对“用最小二乘法探求回

17、归直线方程”的教学建议1. 体现“过程性”在本部分内容的教学中,应结合具体问题体现两个过程一是回归分析的过程,即:要研究两个定量变量(如年龄和脂肪含量)是否具有某种关系 画散点图,直观判断.用回归直线代表试验数据的趋势* 用最小二乘法求得斜率和截距的估计值,得到经验方程 . =bo+bix用 经验回归 方程对相应变量进行预测二是用最小二乘法估计回归直线的过程这个过程包 括两个环节,一是通过让学生自己寻求回归直线,引导他们认识到应该从“整体上”看待这个问题,即“从整体上看,各观测数据点与直线的距离最小”是确 定直线的一个合理原则;二是让学生经历用数学语言刻画 “从整体上看,各观测 数据点与直线的

18、距离最小”的过程2. 体现统计思想对于本部分内容,统计思想主要体现在两个方面首先建立回归直线的目的, 是为了从整体上代表两个变量的观测数据的关系,这与用平均数来代表一个变量的数据是类似的二是观测值不可能正好落在回归直线上这是因为回归直线方 程y=bo+bix是线性回归模型Y=bo+biX+=y+J的一部分,这里是误差项.该模型 假定,变量x与y有线性关系y=b+bix,而凡是不能被该线性关系描述的y的变 化都由误差项来承担.由于误差,观测值不可能正好落在这条直线上.如果这个模 型有意义的话,这些观测值不会离这条直线太远.而且bo和bi是通过样本估计出AA来的(通常用,1表示),存在随机误差,这

19、种误差也会导致预测结果的偏差参考文献:1. 章建跃.数学学习论与学习指导.北京:人民教育出版社,2001.2. 李勇 , 张淑梅 . 统计学导论 . 北京:人民邮电出版社 , 2007.3. 陈希孺 . 数理统计学简史 . 长沙:湖南教育出版社 , 2002.4. 吴喜之 . 统计学:从数据到结论(第二版) . 北京:中国统计出版社 , 2006.5. Gudmund R. Iversen, Mary Gergen. 吴喜之等,译 . 统计学基本概念和方法 . 北京:高 等教育出版社 , 2000. 纽约:施普林格出版社 , 1997.6. 中国大百科全书总编辑委员会数学编辑委员会.中国大百科

20、全书数学.北京:中国大百科全书出版社 . 19922008-10-06 人教网 一般都是用 matlab 搞定的,它里面有现成的函数供使用的 典型程序解析:x=0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1;%input xi datay=1.978 3.28 6.16 7.08 7.34 7.66 9.56 9.48 9.30 11.2; % input yi data n=2; % polynomial orderp=polyfit(x, y, n)% polyfit 的输出是一个多项式系数的行向量(拟合二项式的系 数)ezplot(-9.8108*x*x+20

21、.1293*x-0.0317)% 对拟合的函数作图 xi=linspace(0,1,100); % x-axis data for plotting z=polyval(p, xi);% 为了计算在 xi 数据点的多项式值,调用 MATLAB 的函数 polyvalplot(x,y, o ,x,y,xi,z,:)% 在同一个图形里看他们的拟合程度 典型例题:对以下数据分别作二次 ,三次多项式拟合 ,并画出图形 .x=1:16;y=4, 6.4, 8, 8.4, 9.28, 9.5, 9.7, 9.86, 10, 10.2, 10.32, 10.42, 10.5, 10.55, 10.58,10

22、.6 ;源程序:二次多项式拟合x=1:1:16;y=4, 6.4, 8, 8.4, 9.28, 9.5, 9.7, 9.86, 10, 10.2, 10.32, 10.42, 10.5, 10.55, 10.58,10.6 ;a=polyfit(x,y,2)a =-0.0445 1.0711 4.3252ezplot(-0.0445*xA2+1.0711*x+4.3252)三次多项式拟合 x=1:1:16;y=4, 6.4, 8, 8.4, 9.28, 9.5, 9.7, 9.86, 10, 10.2, 10.32, 10.42, 10.5, 10.55, 10.58,10.6 ;a=poly

23、fit(x,y,3)a =0.0060-0.19632.13462.5952ezplot(0.0060*xA3-0.1963*xA2+2.1346*x+2.5952)简介用连续曲线近似地刻画或比拟曲线拟合平面上离散点组所表示的坐标之间的函数关系的一种数据处理方法。用解析表达式逼近离散数据的一种方法。在科学实验或社会活动中,通过实验或观 测得到量x与y的一组数据对(xi ,yi) (i = 1, 2, ,m),其中各 xi是彼 此不同的。人们希望用一类与数据的背景材料规律相适应的解析表达式,y=f(x ,c )来反映量x与y之间的依赖关系,即在一定意义下“最佳”地逼 近或拟合已知数据。f(x ,

24、c)常称作拟合模型,式中c = (c1,c2,,cn)是一些待定参数。当c在f中线性出现时,称为线性模型,否则称为非线性模 型。有许多衡量拟合优曲线拟合公式推导度的标准,最常用的一种做法是选择参数c使得拟合模型与实际观测值在各点的残差(或离差)ek = yk f(xk ,c)的加权平方和达到最小,此时所求曲线 称作在加权最小二乘意义下对数据的拟合曲线。有许多求解拟合曲线的成功方法,对于线性模型一般通过建立和求解方程组来确定参数,从而求得拟合 曲线。至于非线性模型,则要借助求解非线性方程组或用最优化方法求得所 需参数才能得到拟合曲线,有时称之为非线性最小二乘拟合。曲线拟合:贝塞尔曲线与路径转化时

25、的误差。值越大,误差越大;值越 小,越精确。编辑本段意义线直线化是曲线拟合的重要手段之一。对于某些非线性的资料可以通过简单的变量变换使之直线化,这样就可以按最小二乘法原理求出变换后变量的直线方程,在实际工作中常利用此直线方程绘制资料的标准工作曲线,同 时根据需要可将此直线方程还原为曲线方程,实现对资料的曲线拟合。编辑本段常用的非线性函数1. 指数函数(exponential function)Y=aebX(12.29)对式(12.29 )两边取对数,得0将曲线拟合在选定点上lnY=lna+bX (12.30)b0时,丫随X增大而增大;b 0) (12.32)b0时,丫随X增大而增大,先快后慢;

26、b0, X0)(12.34)曲线拟合式中b0时,丫随X增大而增大;b0时,丫随X增大而减少。 对式(12.34 )两边取对数,得lnY=lna+blnX (12.35)所以,当以lnY和lnX绘制的散点图呈直线趋势时,可考虑采用幕函数 来描述丫和X间的非线性关系,lna和b分别是截距和斜率。更一般的幕函数Y=aXb+k(12.36)式中k为一常量,往往未知。编辑本段利用线性回归拟合曲线的一般步骤(一) 绘制散点图,选择合适的曲线类型 一般根据资料性质结合专业知识便可确定资料的曲线类型,不能确th垃二辽d 廿丄二曲线拟合定时,可在方格坐标纸上绘制散点图,根据散点的分布,选择接近的、合适 的曲线类

27、型。(二) 进行变量变换Y =f(Y),X =g(X)(12.37)使变换后的两个变量呈直线关系。(三) 按最小二乘法原理求线性方程和方差分析(四) 将直线化方程转换为关于原变量X、Y的函数表达式简单地说都属于III类油,具体建议下。润滑油基础油分类简介国外各大石油公司过去曾经根据原油的性质和加工工艺把基础油分为石蜡基基础油、中间基基础油、环烷基基础油等。20世纪80年代以来,以发动机油的发展为先导,润滑油趋向低黏度、多级化、通用化,对基础油的黏度指数提出了更高的要求, 原来的基础油分类方法已不能适应这一变化趋势。 因此,国 外各大石油公司目前一般根据黏度指数的大小分类,但一直以来没有严格的标

28、 准。API于1993年将基础油分为五类(API-1509 ),并将其并如EOLCS (API 发动机油发照认证系统)中,其分类方法见表 -1 。表-1API-1509 基础油分类标准试验方法 ASTM D2007 ASTM D2270 ASTM D2622/D4294/D4927/D3120类别 饱和烃含量 /% 黏度指数 VI 硫含量 /%(质量分数 )I 类 90% 800.3II 类 90% 80120 90% 120 140很高黏度指数120W VI140 高黏度指数90 VI120 中黏度指数40VI90 低黏度指数VI80 的 MVI 油都属于国际分类的 I 类基础油;而 VI异构烷烃 环烷烃芳 烃。正构烷烃的凝点最高,且随碳原子数增加而升高。如正十六烷的凝点为18.16 C,正十八烷为36.7 C;异构烷烃的凝点比相应的正构烷烃的低,而且随 着分支程度的增大而迅速下降;带侧链的环状烃,侧链分支程度愈大,凝点下降 也愈快。从分子结构对润滑油的一些物理性质的影响可以看出, 要想从烃分子的 结构来改变润滑油的性能是受到限制的,当改变分子结构使某一性能改善的同 时,往往另一性能就变差,只有适当的选择才能得到性能相对较全面的润滑油

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!