毕业论文定稿版优秀毕业论文统计学本科

上传人:jin****ng 文档编号:204835791 上传时间:2023-04-27 格式:DOCX 页数:33 大小:213.65KB
收藏 版权申诉 举报 下载
毕业论文定稿版优秀毕业论文统计学本科_第1页
第1页 / 共33页
毕业论文定稿版优秀毕业论文统计学本科_第2页
第2页 / 共33页
毕业论文定稿版优秀毕业论文统计学本科_第3页
第3页 / 共33页
资源描述:

《毕业论文定稿版优秀毕业论文统计学本科》由会员分享,可在线阅读,更多相关《毕业论文定稿版优秀毕业论文统计学本科(33页珍藏版)》请在装配图网上搜索。

1、毕业论文定稿版优秀毕业论文 统计学本科基于SPSS的多 元回归分析模型选取的应用喳慶乂商大厚毕业论文题 目 基于SPSS的多元回归分析模型选取的应用院(系)数学与统计学院专业年级2010级统计学专业学生姓名殷婷学号2010101217指导教师安军职称 副教授日 期2014-5-10基于SPSS的多元回归分析模型选取的应用数学与统计学院 2010 级统计专业 2班 殷婷 学号:2010101217指导老师 安军摘要本文不仅对于复杂的统计计算通过常用的计算机应用软件 SPSS 来实现,同时通过 对两组数据的实证分析,来研究统计学中多元回归分析中的变量选取,让大家对统计学 中的多元回归分析中模型的选

2、取以及变量的选取和操作方法有更深层次的了解 . 一组 数据是对于淘宝交易额的未来发展趋势的研究,一组数据时对于我国财政收入的研究. 本文通过两个实证即淘宝交易额研究和财政收入研究从不同程度上对非线性回归模型 和变量选取的研究运用通俗的语言和浅显的描述将SPSS在多元回归分析中的统计分析 方法呈现在大家面前,让大家对多元回归分析以及SPSS软件都可以有更深一步的了解. 通过SPSS软件对数据进行分析,对数据进行处理的方法进行总结,找出SPSS对于数 据处理和分析的优缺点,最后得在对变量的选取和软件的操作提出建议.关键词:统计学,SPSS,变量选取,多元回归分析AbstractThis artic

3、le not only for complex statistical calculations done by the commonly used computer application software of SPSS, through the empirical analysis of the two groups of data at the same time, to study the statistics of the variables in the multivariate regression analysis, let everybody in the multiple

4、 regression analysis of statistical model selection as well as the selection of variables and operation methods have a deeper understanding. Is a set of data for the future development trend of research taobao transactions, a set of data for the research of our countrys fiscal revenue. In this paper

5、, through two empirical taobao transactions and fiscal revenue research from different degree of the study of nonlinear regression model and variable selection using a common language and plain the SPSS statistical analysis method in multiple regression analysis of present in front of everyone, let

6、everyone to multiple regression analysis and SPSS software can have a deeper understanding. Through SPSS software to analyze data, and summarizes method of data processing, find out the advantages and disadvantages of SPSS for data processing and analysis, finally had to put forward the proposal to

7、the operation of the selection of variables and software.Keywords: Statistical, SPSS, The selection of variables, multiple regression analysis目录第一章 引 言3第二章 多元回归模型的选取42.1 多元回归分析概述 42.2 相关系数概述 52.3 非线性回归模型概述 52.4 多元线性回归模型自变量的选取 6第三章 非线性回归模型案例:淘宝交易额模型的研究 73.1 回归模型变量的确定 73.1.1 数据来源 73.1.2 复相关系数 83.1.3 散

8、点图看线性关系 93.1.4 回归分析看拟合度 113.1.5 确定回归模型变量 113.2 调整后的变量的相关分析 123.2.1 散点图 123.2.2 计算相关系数 143.3 多元线性回归分析 163.4 小 结 18第四章 线性回归分析变量选取案例:财政收入模型的研究 184.1 数据来源及变量选取 184.2 相关分析 204.2.1 散点图 204.2.2 计算相关系数 214.3 线性回归分析 244.4 逐步回归 264.5 小 结 27第五章 总 结 28参考文献 30第一章 引 言随着社会的发展,统计的运用范围越来越广泛,统计学作为高等院校经济类专业和 工商管理类专业的核

9、心课程,不管是在经济管理领域,或是在军事、医学等领域的研究 中对于数量分析与统计分析都需要更高的要求,需要用到的数学知识较多,应用方面的 灵活性也较强,计算量大且复杂.然而科学研究的深入,研究的对象也日益变得复杂, 复杂系统的研究问题更是成为当今研究的热点. 为了更好的描述一个复杂的现象,就需 要大量的数据和信息,如何高效、准确地利用已知的信息便成为当今社会研究的一项重 ii* ru aj*要课题.在科学技术飞速发展的今天,统计学通过不断吸收和融合相关学科的新理论,开发 应用新技术和新方法,拓展新的领域的同时不断深化和丰富了统计学传统领域的理论与 方法. 在我国,社会主义市场经济体制的逐步建立

10、,实践发展的需要对统计学提出了新 的更多、更高的要求. 随着我国社会主义市场经济的成长和不断完善,统计学的潜在功 能将得到更充分更完满的开掘. 从 20世纪60年代开始,关于回归自变量的选择成为统 计学中研究的热点问题,统计学家提出了许多回归选元的准则,并提出了许多行之有效 的选元方法. 在应用回归分析去处理实际问题时,回归自变量选择是首先要解决的重要 问题. 通常在做回归分析时,人们根据所研究问题的目的,结合经济理论罗列出对因变 量可能有影响的的一些因素作为自变量引进回归模型,把一些对因变量影响很小的,有 些甚至是没有影响的自变量,不但使得计算量变大,估计和预测的精度也下降了. 此外, 如果

11、遗漏了某些重要变量,回归方程的效果肯定不好. SPSS 软件作为当今国际上运用 广泛的统计分析软件,其功能齐全带有各种特点,在各个领域内都得到了迅速普及,并成 为各个行业提高管理水平、形成科学决策的重要手段. 然而,我国对于该软件的运用和 理解始终处于早期应用阶段,无论是在功能的研究开发还是实际生活当中的运用都与西 方发达国家相差甚远. 尤其是在管理决策方面,都因为没有进行深度分析而造成了浪费, 要么就是利用SPSS软件进行简单分析而未进行深度开发,导致所得的信息有限、各信 息间的关系不明确,最终导致管理者的判断出现偏差.基于以上背景,本文通过总结和吸取其他国内外学者对统计学研究的,并结合我国

12、的实际情况,本文采用了案例一对于网络购物这块的的研究,通过对 2005 年到2012 年的居民消费水平,以及我国网络普及度,我国人人均纯收入以及我国的居民消费水平对淘宝网的未来发展趋势进行非线性回归模型的研究以及案例二对于我国财政收入的进 行变量选取研究,通过对1992年到 2012年的人均国内生产总值,城镇居民家庭人均可 支配收入,全社会固定投资,进出口总额,居民消费价格水平对我国财政收入的影响进 行定量数据的研究. 通过对数据的选取,回归模型的确定以及软件的操作方法来告知读 者如何在SPSS的操作中变量选取的原则、要求和方法.第二章 多元回归模型的选取2.1 多元回归分析概述 回归分析是确

13、定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法 (即寻找具有相关关系的变量减的数学表达式并进行统计推断的一种统计方法).按照 其所涉及的自变量,可分为一元回归分析和多元回归分析;线性回归分析和非线性回归 分析是按照自变量和因变量之间的关系划分的.而本文运用了多元线性回归分析中的方法,多元线性回归分析就是指回归分析中包 括两个或两个以上的自变量,且因变量和自变量之间是线性关系.多元回归分析的主要 内容有以下几点:(1) 从一组数据出发,确定某些变量之间的定量关系式,即建立数学模型并估计其 中的未知参数.估计参数的常用方法是最小二乘法;(2) 对这些关系式的可信程度进行检验;(3) 在

14、许多自变量共同影响着一个因变量的关系中,判断哪些自变量的影响是显著 的,哪些自变量的影响是不显著的,将影响显著的自变量选入模型中,而剔除影响不显 著的变量,通常用逐步回归等方法;利用所求的关系式对某一生产过程进行预测或控制.回归分析研究的主要问题是确定Y与X间的定量关系表达式,这种表达式称为回归 方程;对求得的回归方程的可信度进行检验;判断自变量X对因变量Y有无影响;利用 所求得的回归方程进行预测和控制.回归分析主要应用于研究两个变量之间到底是哪 个变量受哪个变量的影响,影响程度如何,通过分析现象之间相关的具体形式,确定其 因果关系,并用数学模型来表现其具体关系,并根据实测数据来求解模型的各个

15、参数, 然后评价回归模型是否能够很好的拟合实测数据;如果能够很好的拟合,则可以根据自 变量作进一步预测.2.2 相关系数概述 相关关系是一种非确定性的关系,相关系数是研究变量之间线性相关程度的量. 相 关关系是现象间客观存在的,但数值又是不严格及不完全确定的相互依存关系.1)复相关系数在一元回归分析中我们用相关系数r来说明两变量之间线性相关的程度,在多元回 归分析中,仍用它来表示y与其他自变量之间的线性密切程度,此为复相关系数.复相 关是指因变量与多个自变量之间的相关关系. 复相关系数只是反映变量间表面的非本 质的联系,因为变量很有可能受到其他变量的影响.2)偏相关系数在多变量的情况下,变量之

16、间的相关系数是相当复杂的. 任意两个变量之间都有可 能存在着相关关系,因此,只知道被解释变量与解释变量的总的相关程度是不够的. 如 果需要了解某两个变量间的相关程度,就应在消除其他变量影响的情况下来计算他们的 相关系数,这就是偏相关系数. 偏相关系数与复相关系数不同,复相关系数的取值在 0-1 之间,而偏相关系数则是有正有负,所以复相关系数与偏相关系数之间也有可能相 差很大. 变量之间本存在错综复杂的关系,甚至可能使得符号也相反,但是偏相关系数 才是变现变量之间的本质联系的.偏相关的主要用途:偏相关主要是用来研究自变量与因变量之间的关系的,其通过 得到的自变量与因变量数据来进行计算,通过偏相关

17、系数可以看出哪些自变量对因变量 的影响更大一些,同时对于偏相关系数较小的变量,可以剔除.2.3 非线性回归模型概述非线性回归模型是指在众多的现象中,分析变量之间的关系时不符合解释变量线性 和参数线性的一种模型. 在实际的经济活动中,经济变量的关系是相当复杂的,直接表 示为线性关系的情况也并不多见. 但大多数的非线性关系是可以通过一些简单的数学 处理,使之转化为线性关系,从而通过线性回归来进行计算. 而非线性回归模型又分为 可化为线性模型的非线性回归模型和不可化为线性模型的非线性回归模型.本文研究的是可转化为线性模型的非线性回归模型,而可转化为线性模型的非线性 回归模型又有好几种方法可以对变量进

18、行转换.其有以下几种模型:1)多项式函数模型对于形如:y P +B x + B xx ,0 1 1 2 2 k k 的模型为多项式模型.令z x,z x2, ,z xk ,1 1 2 2 k k , 原模型可化为线性形式y P + P z + P Z + P z ,0 1 1 2 2 k k 那么就可以用多元线性回归分析的方法进行处理了.2)指数函数模型对于形如:y 卩 + 卩 exi + 卩 ex2 + + 卩 exk ,012k的模型为指数函数模型.令z ex1, z ex2,,z exk ,i2k原模型可化为线性形式y P +P z + P z + P z ,01 12 2k k那么就可

19、以用多元线性回归分析的方法进行处理了.3)双曲线模型;4)半对数模型和双对数模型等.本文将对指数函数型非线性模型进行案例说明,所以对于其他类型的非线性回归模 型的道理是一致的,在这里就不进行一一解释.2.4 多元线性回归模型自变量的选择在多元线性回归模型中自变量的选择实质上就是模型的选择 .现设一切可供选择 的变量是t个,它们组成的回归模型称为全模型(记:m t +1),在获得n组观测数据 后,我们有模型:J Y X P + wN (0Q 21 )nn其中:Y是n X1的观测值,P是m X1未知参数向量,X是n x m结构矩阵,并假定X的 秩为 m .现从x ,x,,x这t个变量中选t变量,不

20、妨设x ,x ,x ,那么对全模型中的参数12t12厂P和结构矩阵X可作如下的分块(记:p 厂+1):P=(P , P), X -Q : X )p qp q我们称下面的回归模型为选模型:Y = X 卩 +88 N (0, J 21 )n其中:Y是n x 1的观测值,0是p x 1未知参数向量,X是n x p结构矩阵,并假定Xppp的秩为 p .自变量的选择可以看成是这样的两个问题,一是究竟是用全模型还是用选模型,二 是若用选模型,则究竟应包含多少变量最适合.然而自变量的选择与相关系数,回归分 析都有密切的关系,自变量的选择需要通过一系列的验证,剔除之后才能得到最好的变 量从而得到最好的回归模型

21、.下面我们用两个案例来对多元回归模型的选取来进行解 释和探讨.第三章 非线性回归模型案例:淘宝交易额研究3.1回归模型变量的确定3.1.1数据来源 为研究淘宝网未来发展趋势,从新浪官方微博淘宝数据魔方中获得淘宝2009年聚 划算中购物群众的年龄比例作为定性数据,进行研究年龄对淘宝购物的影响.并在新浪 财经网上获得淘宝网自 2003年到2012年的淘宝交易额以及淘宝注册人数的数据.在中 商情报局里获得我国近网络普及度等数据并从国家统计年鉴中选取统计指标居民消费 水平.淘宝注册人数(x )在一定程度上反应了网络购物的群众的人数,反应了当今社会1网络购物的普遍性.同时淘宝的注册人数也展现了人们对网络

22、购物的认可度,换言之也 就是说接受了网络购物并会在网上进行消费,是对网络购物很大程度上的支持.我国网络普及度(x)是指我国近几年网络在我国普及的范围,这一块更好的反映 2了网络对居民网络消费的影响,因为网络是网络消费的必要条件.我国网络普及度反映 的是在我国日趋发展的经济下,人们对网络的接受程以及信任程度也是直接影响到淘宝 的网络购物.居民消费水平(x3)主要通过消费的物质产品和劳务的数量和质量来反映.居民 消费水平的提高也能很好的展现在网络消费上作出的贡献.第二产业增加值( x )是指采矿业,制造业,电力、煤气及水的生产和供应业,建 4筑业.而制造业的发展也相继影响着产品的销售,所以在这里采

23、用第二产业对淘宝交易额的影响. 通过对以上这三个定量数据的研究来其与淘宝交易额的关系,从而研究淘宝 未来的发展趋势以及优劣态. 原始数据如下:年檢淘宝网年 交易邑额Cfc) y-淘宝注册 人数(77 AO xi2 网度丄 国及%) 阪曰p居民消费第产业 増加值(亿 兀200-31710005447S62436. 31;/no43:4i?nn7M:號739D4. 312005瀚1S5008.5559687598. 09203616935.0.0.10.56299103719. 542007433:15300167310125831. 3620GS99工犧980022. 6S430149003.

24、442009顽1iOOb28.99283.157638, 7R20104000JTuuu豹.310525 8783. 212j0117800650QQ38. 312570220412. 81201 a100007000042.1140982 181.201313000SOOOO50162542E0D34. 2表 3.1为消除数据之间因单位不同产生的量纲的影响,对数据进行标准化得如下数据得到yearyxlx2i3x42003-a, 7E-CL S3-1.20-1.1S-1.器2004-X75-C. 31-1.08-1.04-1. 152005-D.73-C. 78-0. 28-D. -C. 95

25、2006-D; 72HL 75-0.85-D.71电馬2007-D. 66-Cl.旳-0. 50.-D.45-0. 3Y2008-D.54-山.54-0.08D. IT-C. 022009-0.32-.310.320. 0E0. 112Q:0D.住0. 34O66D. 370. S62011a. 921.240.91a. 901. 0620121.401. 40L151.291. 2820132.041. ?31.661.841. 51表 3.23.1.2 复相关系数对表 3.2 的数据进行复相关系数的研究,看变量之间的复相关关系,得到如下表3.3的复相关系数表:CorrfllatloFts.

26、Vx2x419矿913*Sitg. (2-bailed).000.WO.OQD.000N1111111111xlCan怕 imlkn越71.941時想415乂两2也丽.000.000.Q.0OTN1111111111x2PearBon C&ir&l 吕 tian423Ml1.gae*-gg广陶.(f-toiiedi)DQQQEbqqdN11111111111泊Pe arson CaelaticnnJ63如-.a&B-i.saaSig.ODQ.000.0N1111111ii11nAPearson CaelaticnnST45B91*想MT1Sig. (2-tailed).0Q0.MQ.QGDN1

27、111111111aB. CarrelBinn Is slgnlioantatthB 0.01 IbvI 2-balled)表 3.3表 3.3 中有带“*”号的结果表明有关的两变量在 0.01 的显著性水平下显著相关, 由上图可知,y与的相关系数为09870,表示变量之间存在线性关系,其相关系数 检验对应的概率P值为0.000,低于显著性水平005,说明淘宝交易额与淘宝注册人数 之间相关性显著.y与ex2的相关系数为09230,表示变量之间存在线性关系,其对应 P值为0000,小于显著性水平005,说明淘宝交易额与我国网络普及度之间相关性显 著.y与x3的相关系数为09630,表示变量之间存

28、在线性关系,其对应P值为0.000, 小于显著性水平005,说明淘宝交易额与居民消费水平之间相关性显著.y与ex4的相 关系数为0.9190,表示变量之间存在线性关系,其对应P值为0.000,小于显著性水平 005,说明我国第二产业增加值与居民消费水平之间相关性显著.综上所述通过SPSS得出的相关系数的矩阵得到为:r = 0.987 , r =0.923 , r = 0.963 , r = 0.919 yx1yx2yx3yx4虽然变量都通过了检验,但是可以看到r和r较另外两个复相关系数较低,因此对变yx2yx4量进行散点图的分析来了解自变量与因变量的相关关系.313 散点图看线性关系对y与各个

29、变量作出散点图(1)淘宝注册人数X与淘宝网交易总额y的相关性散点图:(2) 网络普及度x与淘宝网交易总额y的散点图:22D0-OOIKr1ZC图3.2(3)我国居民消费水平x3与淘宝交易额y的散点图:(4)第二产业增加值x对淘宝交易额y的散点图:4图3.4图3.2和3.4分别是自变量x和x与因变量的相关系数图,可以看出自变量x和因2 4 2变量y之间呈明显的指数线性关系,而变量x也是同样与因变量y之间呈明显的指数线4 性关系.他们之间是非线性回归模型的关系.所拟合的效果不理想所以我们还需要对数 据进行进一步的处理和分析,得到确切的答案.3.1.4 回归分析看拟合度对数据进行回归分析:Coeff

30、icients3ModelUnstendardoze-d CoefficientsSndardizad CoefficienistSig.Siol. ErrorBeta1(Conatant).001.ooa.123Xi俸弔Q1.976.000m2-229,Q71-.229-3242.oia1.4391.伽17JQ7.OOD-.899.068-.899-13 J 47.000乩 Dependent Vari a bOe; y表 3.4表3.4是自变量与因变量得到的回归分析,可知,因变量y与常数项和自变量xi,x,xo,x的回归的标准化回归系数分别为0.01, 0.660, -0.229,1.43

31、9, -0.899. 而通MP检 234验可以看到由上表 2.4 可以看出常数项以及各自变量的 P 值分别为: 0.906, 0.000, 0.018, 0.000 及 0.000.可以看出原始变量所得到的 P 值并没有全部通过检 验 说明常数项对因变量影响不显著.对数据进行t值检验,在给定的 = 0.05,自由 度n = 11 - 2 = 9的临界值时,查表得t 9二2262,其常数项的t值为0.123小于2.262, 0.025说明常数项不显著.综上所述,可以初步得到一个模型为:y = 0.01 + 0.660x 一 0.229x +1.439x 一 0.899x .12343.1.5 确

32、定回归模型变量综上通过散点图、复相关系数以及回归分析可以知道由于自变量X和X与因变量y24 之间是非线性关系,是呈指数线性关系为研究之间线性关系,所以得到的模型的拟合程 度并不是很理想因此对自变量X和X进行取e的对数即ex2和ex4来对变量进行研究看24拟合效果得到下表.yeary.H.i3:f胡.2003-0.33a-T. 1:80.W .2D04-0.跖-,Q. S1fl. 34-1.0. 33ZDD.5-0.73-0.730.33-0.390.39 狮心艮-0.75Q的们10.W2DD?-0.66-0.69:0.60-0.45:0.69 :20DB-0.540J2-0.170J82009

33、4132-0.311 1.370.Q51.12狈D0.110胡1.930.3?1.752DL10.921 加久加0.902.89 .2&121.401.4Q3.1?1.393.612DL32-041.735乩1.844.52表 3.5下面对表 3.5进行变量分析与研究,通过对非线性模型中的变量的研究来了解多元 回归分析中变量的选取与使用,同时对自变量进一步进行分析.3.2 调整后变量的相关分析3.2.1 散点图对 y 与各个变量作出散点图图3.5(2) e的网络普及度次方ex2与淘宝网交易总额y的相关性检验:图3.6(3) 我国居民消费水平x3与淘宝交易额y的相关性检验:图3.7(4) e的第

34、二产业增加值的次方eX4对淘宝交易额y的影响:图3.8 由以上四个散点图可知,其所有的点均落在了左上至右下的一条直线上,表明了数 据之间存在显著相关关系. 所以我们还需要对数据进行进一步的分析,得到确切的答 案.3.2.2 计算相关系数(1)复相关系数r是用来衡量回归直线对于观察值配合的密切程度,即用来衡量因 变量y与自变量X, ex2,x3,ex4之间相关的密切程度.以下是用SPSS对数据进行相 关性分析,得到如下的相关系数图CorVXiSX2ypBisrSom CorfuaiiDn1,ga?.979.M3.99T$ig.桂呵|琲.000.000000aao1111111111KiPearf

35、i-on Oorrfliaiton9871.網旷S67-.000.000ooooooN11111111曰血Pearsiitfi 0,表示变量之间存在线性关系,其相关系数检 验对应的概率P值为0000,低于显著性水平005,说明淘宝交易额与淘宝注册人数之 间相关性显著.y与ex2的相关系数为09790,表示变量之间存在线性关系,其对应P 值为0000,小于显著性水平005,说明淘宝交易额与我国网络普及度之间相关性显著. y 与x的相关系数为09630,表示变量之间存在线性关系,其对应P值为0.000,小于显3著性水平005,说明淘宝交易额与居民消费水平之间相关性显著.y与ex4的相关系数 为09

36、970,表示变量之间存在线性关系,其对应P值为0000,小于显著性水平0.05, 说明我国第二产业增加值与居民消费水平之间相关性显著.综上所述通过SPSS得出的相关系数的矩阵得到为:r 二 0,987 , r 二 0,979 , r 二 0,963 , r 二 0,997 yxyx2yx3yx4由以上数据可以看出,各列之间存在正相关关系.即淘宝网注册人数X、e的我国网络 普及度ex?、我国居民消费水平x、e的我国第二产业增加值次方ex4与淘宝交易总额y存3在显著的相关关系.(2)计算偏相关系数:下面是用SPSS作出的偏相关系数: 消除我国网络普及度、第二产业增加值和居民消费水平的影响后,计算淘

37、宝注 册人数与淘宝交易额的偏相关系数为:Corr&lgitionsControl Vairlaiblesxl& bx4 yCorrelation1.0C1D.795Signiificancc)_01Bdf0x1Correlation.7951.00DSignificance (2-tailed).01Bdf60表3.7由上可知,淘宝注册人数与淘宝交易额的偏相关系数为0.795. 消除淘宝交易额、第二产业增加值和居民消费水平的影响后,我国网络普及度和淘宝交易额的偏相关系数为:CorrelationsCanilrdl Variabl&V与X2x3 &.& xlyCorruljjb 口 1.0 DO

38、.733吕i自“训c日(2-Ld.ilsd.039dr060K2CcrrelatloniU.000Signiiflciance (-tailedidf表3.8由上可知我国网络普及度与淘宝交易额的偏相关系数为0.733. 消除淘宝注册人数、第二产业增加值和我国网络普及度的影响后,我国居民消费水平和淘宝交易额的偏相关系数:Corre-latlonsCointroi Varlaislesyx3旨誠 & x1 & ex2yCorrelation1.D00-.932Signiifi匚Erm曰(2-iailed).0D1df06x3CcrrelBoion-.9321.0D0Signiificance (2

39、-tailed)-001df60表3.9由上可知,我国居民消费水平和淘宝交易额的偏相关系数为-0.932. 消除淘宝注册人数、我国网络普及度和居民消费水平的影响后,计算第二产业增 加值与淘宝交易额的偏相关系数:CorrelationsConlroll ZarlalblasVex4Xl & “曲 & 冏iyQnfiukiliQirt1.000.946SSgniifficance (2-tafled).000dfG-C)rvsliliuirlis94fi1 .Q0gSwgnifficancc (2-tail cd).000dfti0表3.10由上可知, e 的第二产业增加值次方与淘宝交易额的偏相关

40、系数为0.946. 下表为各个变量之间的偏相关系数表,为方便,这里直接变各变量之间的偏相关系数:ryX1ex2X3ex4y0.7950. 7730.9320.946X10.7950.6110.7580.59eX20.7730.6110.7020.521X30.9320.7580. 7020.818eX40.9460.590.5210. 818表 3.11这里我们对变量X和X采用的是其指数幂,是因为在对变量的相关性进行检验时,24通过散点图可以看出X和X与因变量之间呈的是指数线性关系,是非线性关系所以对24数据进行了处理,因为原始变量之间存在的非线性关系得出的结果不具有代表性.可以 通过散点图看

41、到从以上的偏相关系数来看,如果ex2,X和ex4保持不变,y与X之间存31在相关关系,当x,X和eX4的保持不变时,.和y之间存在相关关系,其他关系同上,13在这里就不进行一一解释.我们也可以通过以上的偏相关系数表可以看出各个自变量之 间也存在一定的偏相关关系,但是相对于自变量与因变量之间的偏相关关系较小,说明 这些变量之间的选择比较显著.但是其关系强度较前者略低,所以经过以上系数得到的 偏相关系数可以看出,其相关程度较原关系的强度低,应采用原数据的自变量和因变量. 即所采用的自变量和因变量保持不变.通过复相关系数的计算和偏相关系数的计算结果 可以看出,复相关系数的取值在0-1之间,偏相关系数

42、的取值在-1到1之间,由上数据便 可看出偏相关系数与复相关系数之间的差距相差甚大,有的甚至改变了符号.从上可以 看出通过复相关系数不能很好的确定变量之间的相关关系,不能明确的解释变量,而偏 回归系数可以看出变量是否符合要求.从下面的回归分析中继续对变量进行研究.3.3多元线性回归分析对数据进行回归分析,得到如下结果:Model SummaryModeRR SquareAdjusted R SquareStd, Error of the Estimate11.0003999.999.03296a. Predictors: (Constant), ex4, x3, ex2. xl表3.12复相关系

43、数为1,判定系数为0.999,调整系数为0.999,估计值的标准误差为0.03296.AMOVAbModQlSum of SquareddiMean SquareFSig1ResidualTotal.00710.0002.498.0012.2S9E3(00Fa. Pr&dicfers: (Constant eM 超 ex2s x1b, Dependent Vairiable: y表 3.13由上面结果的看其显著性检验结果为,回归平方和为9.993,残差平方和0.007,总平方和10.000, F统计量的值为2.299E3,对应的概率P值为0.000,小于显著性水平005,即:淘宝交易总额y与淘

44、宝网注册人数x、e的我国网络普及度次方ex?、我国居1民消费水平x和e的我国第二产业增加值次方ex4之间存在线性关系,所以可认为所建3立的回归方程有效.CaefficifintE*IKtodelUnstaidardizd CoefficientsStandard zndi Coefficiienls1Sig.日S:d. ErrorBeta1(Constanl)-1.119.093-12.C39.000xl.244.076J2443.215.018.107.041-1672.63B.039隔.51-J216278.001e-4总IBJOBS.507M52.000玄D-o pendent VSar

45、iablc: y表 3.14由上表可知,因变量y与常数项和自变量x,ex?,x,ex4的回归的标准化回归系 13数分别为-1119, 0.244,0.107, -0.321, 0.6153个回归系数B的显著性水平均小于0.05,这里可以认为自变量x,ex,x,ex4对因变量y有显著性影响.于是得到回归方程为:13y = 1.119 + 0.244 x + 0.107 e x2 0.321 x + 0.615 eq,13由上图可知对数据进行t值检验,在给定的 = 0.05,自由度n = 11 -2 = 9的临界值时, 查表得t9二2.262,因为x,ex2,x , ex。的参数对应的t统计量的绝

46、对值均大于2.262,0.02513这说明5%的显著性水平下,斜率系数均显著不为0,表明淘宝网注册人数x1,e的我国 网络普及度次方ex2,我国居民消费水平x , e的我国第二产业增加值次方ex4等变量联3合起来对该商品的消费支出有显著的影响P检验:由上表可以看出各自变量以及常数项的P值分别为:0.00, 0.018, 0.039,0.001及0.000,可以看出其P值均小于005,均通过检验综上所述,四个自变量对因变量都有显著性影响,并都通过了检验可以得到最优方 程式为:y = 1.119 + 0.244 x + 0.107 ex2 0.321 x + 0.615 ex 4 132.4 小结

47、通过相关系数和回归分析对原始变量进行对比,通过相关系数的对比可以看到对变 量进行处理后所得到的回归方程的拟合效果更好,对因变量的影响更加的显著.再加上 最后对变量进行回归分析及检验可以得出淘宝网注册人数X, e的我国网络普及度次方 ex2,我国居民消费水平x3,e的我国第二产业增加值次方ex4等变量联合起来对淘宝交 易总额y有更显著的影响说明研究多元线性回归分析中对变量的线性关系的要求也是 直接影响自变量对因变量影响程度的重要因素.在研究变量之间相关关系的时候一定 要对变量进行检验和处理.综上可以知道影响淘宝交易额的公式可以近似为:y = 1.119 + 0.244 x + 0.107 5 0

48、.321 x + 0.615 ex 4 .3即:淘宝注册人数增加就可使得淘宝网的交易额增加.众所周知我国网络普及度是 在逐年增加的,可以看出淘宝交易额的增加与我国网络普及度呈指数增长,随着社会的 发展,中国的发展更是越来越迅速,网络普及度的增加使得更多的地方有网络,更多的 人了解网络才能使得我国淘宝注册人数的增加.同时我国第二产业增加值表示了我国 制造业的增加,而淘宝的销售与制造业之间存在紧密的关系,这里可以看到我国第二产 业增加值与淘宝交易额呈指数型增长趋势.这几个自变量之间存在着相对严密的关系. 人均收入的增加固使得人们的消费指数上升,那么人们在网络购物和日常消费的比例也 会发生变化,这里

49、我们可以看出这个比例是在增加的,那么淘宝交易额增加也是必不可 少的.第四章 线性回归分析变量选取案例:财政收入模型的研究4.1数据来源及变量选取 为研究我国财政收入情况,为研究人均国内生产总值,城镇居民家庭人均可支配收 入,全社会固定资产投资,第一产业增加值,教育经费对财政收入的影响,通过中国国 家统计局下载 1992年到 2012年的数据进行研究.人均国内生产g)总是指国内生产总值的绝对值与该年平均人口的比值,是衡量一 个国家或地区每个居民对该国家或地区的经济贡献或创造价值的指标.城镇居民家庭人均可支配收入)是指在16周岁及以上,有劳动能力,参加或要 求参加社会经济活动的人口.全社会固定资产

50、投资(x3)反映固定资产投资规模、结构和发展速度的综合性指标的 同时,也是观察工程进度和考核投资效果的重要依据.第一产业增加值( x )是指按市场价格计算的一个国家(或地区)所有常住单位在一4定时期内从事第一产业生产活动的最终成果. 第一产业是指农、林、牧、渔业.教育经费总投入(x5)包括国家财政性教育经费、社会团体和公民个人办学经费、社 会捐赠经费、学费和杂费、其他教育经费.财政收入(y )指国家财政参与社会产品分配所取得的收入,是实现国家职能的财力 保证.原数据如下:年枱财政帧入;亿元)V人均国旳 生产融谊 x4教育经赞万亓)k519曲年34S3. 372311.092026. 6S0SD

51、. 15S66. 6S 67 04: 911993 年434S. 9!5998.362577. 413072. 36963. 76135993741994 讦21S. 110448496. 217012. 19572. 6911SS7S1&:1995年6242 25045 7342832OD1B 312135a 8118779501199G 年7407. 995845. 89922913. 51401b.:心2623941997S651. 11t-120.185160. 3.-24911. 114441.S92531732619眈年9875 956796 035425128406114817=

52、 632949059219U9 年11444. 0H7153. 55S54114770. 0333490416200013395 237857 68628032917 714944 72384908062001 年lGSBfi. 049621.716859. 637213. 515701.2T463766261B9O3. 64/39B. 05702, H+H+99. &l(.h:7. 0.! 782.00321715 2510541 978472 255566 6117381 72620826532门Ci 4=年2G39G. 4712335.509421.670477. 4321412-737

53、2425989Z00b431649 2914135 361IM9388773 612242U841883912006#38760 216499 711759 510999824040981530872和T年51321. 7R2IE9一 461 3705. 0L37323. 9 +2Bf,2T1214806632008#61330 3523707 7115780 817282B 4337021450C73742009 年68518 325607 5317174 7224598 7735226165027065201 0 年B3101. 5130015. 051S1109. 4?51fi83. 7

54、740533. &1961 S+71S01141103874 435197 792L8D9 83114851呂47486 212 SS 69 29 362012 年117253. 53S459.4724564=. 7374694. 745237S.荧2 73 7S 93 45表 4.1由于数据单位不同,为了消除量纲的影响,用 SPSS 对数据进行标准化处理,得到如下 标准化的数据(所有取值保留了两位小数):年谢贝4政肢人均圉FT生 产炷産 史元xl口 C.万一人)注仝仕登虱走GZ.7TmS第-产业熾W1S(:忆元):,!=.勰77经费 m1992一a bb1OB一1 20一0 84一 25一Q

55、 961993=BB-1. OL一-O- BO-1. L6-0- 941 094 I-0, B3-0, 92一0 97-0 7G-IX 96-0 8S1油ij年一a bo一0 82一0 85一0 73一0 76一 Q 831日曰曰年7775一CL 77一 . 71-0. 62-0. 7B1 9叭年-0, 73-0, 70一0 72一0 697. 59一0 7519jeT-一 d 70d 3B一0 G8一GG一0 5fi一0 70100日年65S3一 6一 .-0. 5G-0. E42000 年-0, 5&一0 56一 0 55 Dr 61一CL 55一0 5S2001 为一 a 51一。 4Q一a 46一0 57一0也8一0 482002y一口. 42-O. 33-D. 51-0. 42-0. 377003-0. 35-口 32一0 21一33672S30丄年一a 22一。 15一0 0了一0 26一00百一。 132005一” 06O. 020. 10090. 03O. 0 0年15a, 23门29CL 156 182Q070510. 570S06 3G6 51a is空口口占

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!