数理统计第一次大作业-回归分析

上传人:muw****50 文档编号:157061558 上传时间:2022-09-28 格式:DOC 页数:9 大小:451.51KB
收藏 版权申诉 举报 下载
数理统计第一次大作业-回归分析_第1页
第1页 / 共9页
数理统计第一次大作业-回归分析_第2页
第2页 / 共9页
数理统计第一次大作业-回归分析_第3页
第3页 / 共9页
资源描述:

《数理统计第一次大作业-回归分析》由会员分享,可在线阅读,更多相关《数理统计第一次大作业-回归分析(9页珍藏版)》请在装配图网上搜索。

1、北京市农业经济总产值的逐步回归分析姓名: 学号:摘 要:农业生产和农村经济是国民经济的基础,影响农村经济总产值的因素有多种,主要包括农林牧渔业。本文以北京市农业生产和农村经济总产值为对象,首先分析了各种因素的线性相关性,建立回归模型,再利用逐步回归法进行回归分析,得到最符合实际情况的回归模型。以SPSS 17.0为分析工具,给出了实验结果,并用预测值验证了结论的正确性。关键词:农业生产和农村经济,线性回归模型,逐步回归分析,SPSS1. 引言农林牧渔业统计范围包括辖区内全部农林牧渔业生产单位、非农行业单位附属的农林牧渔业生产活动单位以及农户的农业生产活动。军委系统的农林牧渔业生产(除军马外)也

2、应包括在内,但不包括农业科学试验机构进行的农业生产。在近几年中国经济快速增长的带动下,各地区农林牧渔业也得到了突飞猛进的发展。以北京地区为例,2005年的农业总产值为1993年的6倍。因此用统计方法研究分析农业总产值对指导国民经济生产,合理有效的进行产业布局,提高生产力等有着重要意义。表1 北京市农业经济产值及各产品产量统计数据本文以北京市农生产为对象,分析了农业经济总产值与粮食产量、棉花产量、油料产量、蔬菜产量、干鲜果品产量、猪牛羊肉产量、禽蛋产量、水产品产量的关系,并建立农业经济总产值的回归模型。表1中列出了1999年至2008年间的统计数据(数据来源于北京统计信息网)。2. 线性回归模型

3、的建立2.1 线性回归模型的假设为了研究农业经济总产值与各种农生产量的关系,必须要建立二者之间的数学模型。数学模型可以有多种形式,比如线性模型,二次模型,指数模型,对数模型等等。而实际生活中,影响农业经济总产值的因素很多,并且这些因素的影响不能简单的用某一种模型来描述,所以要建立农业经济总产值的数学模型往往是很难的。但是为了便于研究,我们可以先假定一些前提条件,然后在这些条件下得到简化后的近似模型。以下我们假定两个前提条件:1) 农产品的价格是不变的。这样我们可以认为每一种农产品的总产值将与产品的总产量成正的线性关系。2) 每一种农产品的总产值对于农业经济总产值的贡献都是很大的。因此可以根据每

4、种产品的总产值预测农业经济总产值。即农业经济总产值与每种产品的总产值成正的线性关系。由以上两个假设,我们可以建立农业经济总产值与各种农产品生产量的线性回归模型,模型如下: (1)其中,是因变量, 是自变量,是各个自变量的系数。各变量符号的定义见表2。表2 线性回归模型中各变量的含义农林牧渔业总产值粮 食棉 花油 料蔬 菜干鲜果品猪牛羊肉禽蛋产量水产品2.2 线性回归模型的验证以上,我们通过假设两个前提条件得到了农业经济总产值与各种农生产量的线性回归模型。然而这些假设是否合理,模型又是否能很好的近似实际的经济情况,我们需要进一步的验证。作数据散点图,观察因变量与自变量之间关系是否有线性特点。散点

5、图结果如图1所示。(a) (b)(c) (d)(e) (f) (g) (h)图1 因变量与各自变量的散点图(a)农业总产值与粮食产量散点图;(b)农业总产值与棉花产量散点图;(c)农业总产值与油料产量散点图;(d)农业总产值与蔬菜散点图;(e)农业总产值干鲜果品产量散点图;(f)农业总产值与猪牛羊肉产量散点图;(g)农业总产值与禽蛋产量散点图;(h)农业总产值与水产品产量散点图从图1中不难发现,农业经济总产值与粮食产量、蔬菜产量、干鲜果品产量、猪牛羊肉产量具有良好的线性关系,而与棉花产量、油料产量和禽蛋产量没有明确的线性关系。水产品产量虽然与农业经济总产值呈现较强的线性关系,但是二者是负相关的

6、,即布产量越大,农业经济总产值越小,这样不符合我们建立线性回归模型的初衷,也与建立模型的两个假设相背。经分析,某些变量与农业经济总产值不呈正的线性相关的原因主要有两个:1) 与第一个假设相背。即这些农产品的价格并不是一个常数,而会随着时间的推移、生产工艺的改进、产品的淘汰等原因产生变动。当价格变动范围较大时,产品的总产值和总产量就不是线性关系了,应当用别的模型来近似。2) 与第二个假设相背。即这些农产品的总产值对于农业经济总产值的贡献非常小,以至于某种农产品总产值的变化不足以引起农业经济总产值的变化。如图1,可以明显发现最后三种轻农产品的产量与农业经济总产值都不具有良好的正的线性关系,而前六种

7、重农产品中有五种与农业经济总产值呈现强的线性关系,说明重农在农业经济中占的比重比轻农要大。在后来的逐步回归分析结果中我们可以看到,这些不符合假设条件,与农业经济总产值呈弱的或者负的线性关系的自变量都被排除到回归模型之外了。但是并不是说所有与因变量呈强线性关系的自变量都在回归模型中,在最终确定回归方程之前还应当应当用逐步回归方法进行分析。3逐步回归分析3.1 线性回归的方法线性回归是描述一个因变量Y与一个或多个自变量X之间的线性依存关系。根据一批样本值来估计这种线性关系,建立回归方程,用回归方程进行预测和控制。在多元线性回归分析中,选择“最优”回归方程的方法有强行进入法、消去法、向前选择法、向后

8、剔除法和逐步回归法。1) 强行进入法:选择的自变量全部进入回归模型。2) 消去法:建立回归方程时,根据设定的条件剔除部分自变量。3) 向前选择法:从模型中无自变量开始,然后设定判据,每次将一个最符合判据的变量引入模型,直至所有符合判据的变量都进入模型为止。4) 向后剔除法:先建立全模型,然后设定判据,每次剔除一个最不符合进入模型判据的变量。5) 逐步回归法:向前选择法和向后剔除法的结合,先设定判据,选择符合判据且对因变量贡献最大的自变量进入回归方程,然后根据向后剔除法,将模型中贡献最小的且符合剔除判据的变量剔除出模型,重复进行直到回归方程中的自变量均符合进入模型的判据,模型外的都不符合进入模型

9、的判据为止。本实验采用逐步回归法。3.2 线性回归的结果及分析利用表1中的数据建立回归模型,用SPSS软件的线性回归分析功能,得到以下数据。表3中可以看出粮食产量、蔬菜产量和干鲜果品产量这三个自变量经过逐步回归过程被选择进入了回归方程。选择的判据是变量进入回归方程的F的概率不大于0.05,剔除的判据是变量进入回归方程的F的概率不小于0.10。选择的过程是,最先引入了变量,建立了模型1;接着引入变量,没有变量被剔除,建立了模型2(含有、);最后引入变量,没有变量被剔除,建立了模型3,故最终的模型中含有变量、。表3 引入或从模型中剔除的变量输入移去的变量a模型输入的变量移去的变量方法1粮 食.步进

10、(准则: F-to-enter 的概率 = .100)。2干鲜果品.步进(准则: F-to-enter 的概率 = .100)。3蔬 菜.步进(准则: F-to-enter 的概率 = .100)。a. 因变量: 农林牧渔业总产值表4 拟合过程小结模型汇总模型RR 方调整 R 方标准 估计的误差1.986a.972.9695.42672.998b.996.9942.27613.999c.998.9971.6835a. 预测变量: (常量), 粮 食。b. 预测变量: (常量), 粮 食, 干鲜果品。c. 预测变量: (常量), 粮 食, 干鲜果品, 蔬 菜。表4显示各模型的拟合情况,模型3的复

11、相关系数R=0.999,可决系数=0.998,调整可决系数为0.997,估计值的标准差为1.6835。可见模型3的拟合度较高,变量、的作用显著。表5显示各模型的方差分析结果。方差分析结果表明,当回归方程为模型1、2、3时,其显著性概率值均小于0.001,即拒绝总体回归系数均为0的原假设。因此,最终的回归方程应当包含粮食产量, 干鲜果品产量, 蔬菜产量这3个自变量,且方程拟和效果很好。表5 方差分析Anovad模型平方和df均方FSig.1回归8190.90218190.902278.136.000a残差235.594829.449总计8426.49692回归8390.23124195.1168

12、09.766.000b残差36.26575.181总计8426.49693回归8409.49132803.164989.048.000c残差17.00562.834总计8426.4969a. 预测变量: (常量), 粮 食。b. 预测变量: (常量), 粮 食, 干鲜果品。c. 预测变量: (常量), 粮 食, 干鲜果品, 蔬 菜。d. 因变量: 农林牧渔业总产值表6显示方程外各模型变量的有关统计量,即标准化偏回归系数Beta、回归系数显著性检验的t值、P(Sig)值、偏相关系数Partial Correlation、共线性统计的容差Collinearity statistic Toleran

13、ce。可见,模型3方程外的各变量偏回归系数经检验,P值均大于0.11,故不能引入方程。表6 逐步回归过程中不在方程中的变量已排除的变量d模型Beta IntSig.偏相关共线性统计量容差VIF最小容差1棉 花.101a1.948.092.593.9711.030.971油 料-.054a-.654.534-.240.5461.832.546蔬 菜.497a4.071.005.838.08012.542.080干鲜果品.277a6.203.000.920.3093.238.309猪牛羊肉.426a1.030.337.363.02049.373.020禽蛋产量.094a1.519.173.498.

14、7791.284.779水产品-.142a-1.367.214-.459.2923.428.2922棉 花.012b.351.738.142.6261.597.199油 料-.034b-1.021.347-.385.5411.850.261蔬 菜.232b2.607.040.729.04223.638.042猪牛羊肉.200b1.147.295.424.01951.834.019禽蛋产量.015b.433.680.174.6021.660.191水产品-.059b-1.273.250-.461.2633.798.2193棉 花.027c1.165.297.462.5941.685.040油 料

15、.000c-.015.988-.007.3932.544.031猪牛羊肉-.029c-.158.881-.070.01286.500.012禽蛋产量-.008c-.299.777-.133.5261.900.037水产品.011c.196.852.087.1377.293.022a. 模型中的预测变量: (常量), 粮 食。b. 模型中的预测变量: (常量), 粮 食, 干鲜果品。c. 模型中的预测变量: (常量), 粮 食, 干鲜果品, 蔬 菜。d. 因变量: 农林牧渔业总产值表7显示各模型的偏回归系数B、标准差Std. Error、常数Constant、标准化偏回归系数Beta、回归系数显

16、著性检验的t值和P(Sig)值。按照模型3建立的多元线性回归方程为: (2)方程中的常数项,偏回归系数、,经t检验、的P值分别为0.000、0.000、0.005、0.040,按=0.10水平,均有显著性意义。表7 回归计算过程中各方程系数表系数a模型非标准化系数标准系数tSig.共线性统计量B标准 误差试用版容差VIF1(常量)127.0896.21020.466.000粮 食.946.057.98616.677.0001.0001.0002(常量)91.8646.24814.704.000粮 食.725.043.75616.940.000.3093.238干鲜果品.717.116.2776

17、.203.000.3093.2383(常量)84.8655.34415.879.000粮 食.576.065.6008.794.000.07213.846干鲜果品.507.117.1964.323.005.1646.103蔬 菜.094.036.2322.607.040.04223.638a. 因变量: 农林牧渔业总产值表8显示残差统计的结果,标准化残差的绝对值最大为1.286,小于设定值3。如超过3,则显示具体观察单位Case number 的标准化残差,以帮助发现离群点。表8 残差统计量残差统计量a极小值极大值均值标准 偏差N预测值179.029272.737226.62030.56781

18、0标准 预测值-1.5571.509.0001.00010预测值的标准误差.6321.3671.043.22710调整的预测值175.986270.603226.16830.740210残差-2.16421.7404.00001.374610标准 残差-1.2861.034.000.81610Student 化 残差-1.5541.599.0951.09810已删除的残差-3.16404.6143.45162.596010Student 化 已删除的残差-1.8361.928.1271.20610Mahal 距离.3685.0362.7001.49510Cook 的距离.0001.239.28

19、0.38510居中杠杆值.041.560.300.16610a. 因变量: 农林牧渔业总产值图2 农业经济总产值的预测值与其Student化残差散点图从图2的农业经济总产值的预测值与其Student化残差散点图中可以看到,所有观测量随机地落在垂直围绕2的范围内,预测值与Student化残差值之间没有明显的关系,所以回归方程应该满足线性与方差齐性的假设且拟和效果较好。3.3 线性回归的结果及分析多元线性回归方程为:代入2006年的统计数据,得到2006年农业经济总产值的实际值为8210.0亿元,误差为可见回归模型的预测还是比较准确的。4总结与讨论本文以北京市农业经济总产值为例,分析了农业经济总产

20、值与各种农产品产量的关系。首先分析了农业经济总产值与各种农产量的线性关系,建立了线性回归模型,再利用逐步回归法进行回归分析,得到最符合实际情况的回归模型。以SPSS 17.0为分析工具,给出了实验结果,并用预测值验证了结论的正确性。从最终的线性回归模型中我们可以看到,农业经济总产值可以由粮食产量,干鲜果品产量,蔬菜产量很好地解释。原因主要有两个方面,首先,粮食、干鲜果品产量、蔬菜产量属于日常消费量很大的基础性农产品,具有良好的价格稳定性,符合前文提到的第一个假设。然后,这三类产品在北京市的农业经济占较大的比重。这三个产业的产量浮动将影响整个北京市农业经济总产值。粮食和蔬菜产量占比重大的主要原因

21、是北京市有大量居民,这些居民的日常饮食所带来的需求量很大,而随着生活质量的提高,对均衡营养的追求使得干鲜果品已成为人们生活中不可缺少的一部分。同时也可以看到,尽管猪牛羊肉的产量与农业经济总产值也具有一定的线性关系,但由于近年来猪肉价格飞涨,并不具有良好的价格稳定性,因而不满足前文的第一个假设,所以逐步回归分析过程中这一变量被剔除了。然而,最终的结果显示,拟合曲线和实际点还是有一个一定的偏差,而且最终分析得到的自变量个数也比较少,可能还有其他产业较显著的影响了农业经济总产值,有待进一步考察。参考文献1 孙海燕, 周梦, 李卫国, 冯伟, 应用数理统计, 北京航空航天大学, 2004.92 周复恭, 黄运成, 应用线性回归分析, 中国人民大学出版社, 1989.83 北京市统计信息网, 2009 北京市统计年鉴4 倪青山, 刘小丹, SPSS 应用实验教程, 湖南大学出版社, 2007

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!