同工同酬数学建模

上传人:文*** 文档编号:69694918 上传时间:2022-04-06 格式:DOC 页数:32 大小:1.49MB
收藏 版权申诉 举报 下载
同工同酬数学建模_第1页
第1页 / 共32页
同工同酬数学建模_第2页
第2页 / 共32页
同工同酬数学建模_第3页
第3页 / 共32页
资源描述:

《同工同酬数学建模》由会员分享,可在线阅读,更多相关《同工同酬数学建模(32页珍藏版)》请在装配图网上搜索。

1、东南大学第四届大学生数学建模竞赛2010年5月12日13时5月17日13时参赛题目 A B(在所选题目上打勾) 东南大学教务处东南大学数学建模竞赛组委会同工同酬问题的数学模型摘要本文围绕社会新问题同工同酬问题进行统计分析,以概率论数理统计理论为基础,建立了多元线性回归模型,利用spss软件进行统计处理,科学合理地分析了该企业员工工资与可控因素的关系,并考察了女工所受到的待遇情况。 我们首先建立多元线性回归模型,确定了日平均工资与各因素的基本关系,针对问题1运用逐步分析法,得出日工资与工龄和学历更加密切。然后采用单因变量多因素方差分析,进一步验证了结果。针对问题2对女工进行单独分析,得出女工并未

2、受到不公正待遇。在模型的改进中,通过对多元线性回归模型中的多重共线性问题、变量的自相关性的分析,以及对回归方程和回归系数的显著性检验,定出了非线性模型分析和引入交互项以改善模型这两个方向: 非线性模型分析:通过对日工资与工龄的关系进行分析,得出工龄对日工资具有一定的非线性影响,据此我们先设出了一个经验性的非线性回归模型并进行分析求解,然后对日工资与各个因素的关系采用曲线估计的方法,得出最佳的非线性模型幂指数曲线模型,大大提高了模型的拟合度。 引入交互项:对模型结果的偏相关系数进行分析,初步确定需要引入交互项,而后对各因素采用双因素方差分析法,对上述改进过的非线性模型引入8个交互项后,采用非线性

3、方法分析,最终得出的方程对原始数据具有极高的拟合度。 我们还利用残差分析法,分析模型的缺陷与误差,并做出了相应的改进和评价。通过残差分析,剔除个别异常点,得到了更高的拟合度。关键词:同工同酬;多元回归模型;单因变量多因素方差分析;交互分析;spss;一、问题重述职工工资可以说是人们最为关切、议论最多的部分,因此也常常是最受重视的部分。一般说来,现代企业的工资具有补偿职能、激励职能、调节职能、效益职能。科学合理的工资制度,是激励职工的劳动积极性,提高劳动效率的重要手段,正确运用工资的杠杆作用在调动员工积极性方面会起到事半功倍的效果。此外,对于企业中的各种不同的“特殊职务族”,是否要制定和执行专门

4、的倾斜与优惠政策,如对管理干部、高级专家、女工等,也是需要重点考虑的问题。随机抽取了某企业若干职工的相关数据。现在需要建立适当的数学模型研究下列问题:(1)分析平均日工资与其他因素之间的关系,尤其需要说明与哪些因素关系密切;(2)考察女工是否受到不公正待遇,以及她们的婚姻状况是否影响其收入;(3)继续改进你的模型,并给出模型误差分析。二、问题假设与相关符号说明1模型的基本假设1) 员工平均日工资只与本模型中的7个变量有关,与其他因素无关;2) 样本对于该公司具有广泛代表性;3) 所给的性别、工龄、婚姻与否、学历等因素是确定的,不是随机的,且真实可信;4) 各个影响因素之间不相关,互相独立;5)

5、 假设各个因素的观测值没有系统误差,随机误差的平均值为0;6) 各因素的随机误差在不同样本点是不相关的,不存在序列相关,并有相同的精度;7) 样本中日工资对各因素遵从正态分布。2符号说明三、 问题分析1) 本题目给出了该公司日工资与7个特征值之间的90组统计数据,要求我们通过对数据的处理得出日平均工资与其他因素之间的关系,并说明与哪些因素关系更为密切,同时判断该公司女工是否受到不公正待遇以及她们的婚姻状况是否影响其收入;2) 判断平均日工资与7个特征因素之间的关系是典型的多元统计类问题,可以通过建立多元回归方程得出平均日工资与其他特征因素之间的关系,并且可以通过单因变量多因素统计分析、逐步回归

6、方式、特征因素相关性比较得出7个影响因素对于平均日工资的影响大小;3) 对于统计数据中的非数据型变量,对于简单情况可以通过设置0、1进行数据离散量化;对于复杂情况(如题目中的学历),有4种可取情况,因而可以设置成3个0、1型自变量以方便进行数据拟合统计,考虑到男性婚姻与否与女性未婚对平均日工资的影响一样,可以将已婚女性的婚姻状况设为1,其他为0;4) 对于女性员工是否受到不公正待遇以及其婚姻状况是否影响其收入可以针对女性数据做统计分析,比较显著性指标以得到结果四、模型的建立及求解1.1 线性回归方程的建立: 设其中 为该多元线性方程的常量; 分别为变量 的系数;为随机误差回归参数的估计(用普通

7、最小二乘法估计): 所谓最小二乘法,就是寻找参数的估计值,使离差平方和 达到极小,即寻找满足 (n 为样本个数)依照此式求出的就称为回归参数的最小二乘估计。将上述方程整理后,可用矩阵形式表示,借用软件可以很容易求出称 为经验回归方程称为的残差,(n 为样本个数)1.2 线性回归模型的求解用spss软件对原始数据作多元线性回归分析:表【1】:拟合度检验模型汇总模型RR 方调整 R 方标准 估计的误差更改统计量Durbin-WatsonR 方更改F 更改df1df2Sig. F 更改1.896a.803.7817.593.80336.326980.0001.057a. 预测变量: (常量), x9

8、, x2, x3, x7, x6, x8, x1, x5, x4。表【2】:方差分析表:Anovab模型平方和df均方FSig.1回归18848.71692094.30236.326.000a残差4612.1848057.652总计23460.90089a. 预测变量: (常量), x9, x2, x3, x7, x6, x8, x1, x5, x4。b. 因变量: y表【3】:系数系数a模型非标准化系数标准系数tSig.B 的 95.0% 置信区间相关性共线性统计量B标准 误差试用版下限上限零阶偏部分容差VIF1(常量)80.41612.1366.626.00056.264104.568x1

9、-.9842.619-.030-.376.708-6.1974.229-.292-.042-.019.3762.656x2.089.007.70313.505.000.076.103.751.834.669.9081.102x3.6962.652.021.262.794-4.5835.974-.253.029.013.3872.581x4-41.83411.723-1.096-3.569.001-65.163-18.505-.541-.371-.177.02638.378x5-35.3718.055-.770-4.391.000-51.401-19.341.342-.441-.218.0801

10、2.517x6-26.9638.354-.447-3.228.002-43.587-10.338.297-.339-.160.1287.814x7.8431.975.026.427.671-3.0874.774.296.048.021.6621.510x8-.7282.214-.019-.329.743-5.1353.679.210-.037-.016.7071.414x95.2528.656.135.607.546-11.97322.477.527.068.030.04920.214a. 因变量: y回归诊断:拟合优度检验:由表2,复相关系数R=0.896,决定系数R2=0.803。已知R2

11、=SSR/SST, 复相关系数R表示的是因变量y与全体自变量之间的线性关系,可以用它来表示回归方程对原有数据拟合程度的好坏,且R2越接近于1,回归拟合的效果越好。本题R=0.896,R2=0.803可以认为此回归方程通过了拟合度检验。回归方程的显著性检验: 由表3(方差分析表),统计量F=36.326,P值=0.000,可知其回归方程十分显著,即可以以99.9%以上的概率断言自变量x1,x2,x9全体对因变量y产生显著影响。【结论】 1. 根据表4(系数表),得到回归方程为:y = 80.416 0.984*x1 + 0.089*x2 + 0.696*x3 41.834*x4 35.371*x

12、5 26.963*x6 + 0.843*x7 0.728*x8 +5.252*x9对模型中回归系数的解释如下,x1 的系数为-0.894,说明当男女工在同等条件下,男工的工资比女工工资多0.894元,x2 系数为0.089,说明在其他条件不变情况下,工龄增加一个月,工资增长0.089元;x3系数为0.696,说明相同情况已婚女性比未婚女性日工资高0.696元,x4, x5, x6均为负,且x4x5x6,说明学历越高,日工资越高,且学历为博士的职工比硕士的日工资高8.4元,比本科文凭的员工高19.87元;x7系数为0.843,说明在其他因素不变的条件下,管理人员的日工资比技术人员高0.843元,

13、x8的系数-0.728,说明一线工作职工的日工资比未从事一线工作的低;x9说明其他因素保持不变下,受过培训的职工的日工资比未受过培训的高5.252元。2. 回归系数的显著性检验: 由表4的“Sig.”一列,x2的P值=0.000,x4的P值=0.001,x5的P值=0.000,x6的P值=0.002,即自变量x2, x4. x5 ,x6对y均有显著影响,也就是平均日工资受工龄,学历(本科、硕士、博士、博士后)的影响最大,并且这两个因素对日工资影响程度基本相当。其他如性别(x1),女性婚姻状况(x3),工作性质(x7),一线经历(x8),培训情况(x9),对日工资的影响非常小,影响最小的是女性婚

14、姻状况,其次是一线经历,接下来依次是性别,工作性质,培训情况。由x1, x3对y没有显著影响,可以认为,女工并未受到不公平待遇,且她们的婚姻状况几乎不影响其收入。1.3 逐步回归确定主要影响因素表【4】模型汇总e模型RR 方调整 R 方标准 估计的误差更改统计量R 方更改F 更改df1df2Sig. F 更改1.751a.565.56010.775.565114.092188.0002.864b.746.7408.279.18162.033187.0003.879c.772.7647.880.02710.034186.0024.895d.800.7917.421.02811.970185.00

15、1e. 因变量: 日工资表【5】系数a模型非标准化系数标准系数tSig.共线性统计量B标准 误差试用版容差VIF4(常量)85.8067.48811.459.000工龄(月).089.006.70214.211.000.9631.038本科-47.3587.475-1.241-6.336.000.06116.333硕士-35.3167.715-.769-4.578.000.08312.019博士-27.4517.934-.455-3.460.001.1367.379a. 因变量: 日工资逐步回归是一种简明、实用、快速的选择最优方程的一种方法,最终得到最优回归子集。因而,对数据进行多元线性逐步回

16、归分析,得到以上分析结果,R值变小,这是由于自变量减少的缘故所引起的,从系数的分析来看,工龄与受教育程度sig0.05,都通过了显著性检验,对于平均日工资具有较大影响,这与多元线性回归方式所得结果是相同的。1.3 回归模型的误差分析1.3.1 相关性分析表【6】:相关系数模型x9x2x3x7x6x8x1x5x41相关性x91.000.057-.179.132.131-.038.305-.028.723x2.0571.000.111-.020-.043-.185.044-.101-.007x3-.179.1111.000-.199-.078-.391-.689-.062-.221x7.132-.

17、020-.1991.000.073.187.366.036.208x6.131-.043-.078.0731.000.186.041.890.724x8-.038-.185-.391.187.1861.000.150.177.165x1.305.044-.689.366.041.1501.000-.039.220x5-.028-.101-.062.036.890.177-.0391.000.633x4.723-.007-.221.208.724.165.220.6331.000由上表可以看出,y 与 x2 的相关系数=0.751最大,偏相关系数普遍偏低,只有=0.969很大,说明在线性模型下自

18、变量x4 和x9的相关性很大,即本科生和培训情况相关最大,硕士生和培训情况关系也较大。1.3.2 多重共线性诊断 考察共线性统计量,只有=38.378,=20.214,=12.517 大于10;其余的都小于10;而且这三个大于10的值只是略大于10,说明回归方程受到轻微的共线性影响。1.3.3 残差分布图【1】 图【2】由P-P图更加形象地说明了统计数据点(粗线)与回归方程线(细线)比较良好的拟合程度。由直方图看出残差比较符合正态分布,说明统计数据点基本靠近与推导出的回归方程线,但也有一定的误差!图【3】 图【4】 由此残差的散点图可见,此散点图具有非随机性,残差具有轻微的非线性趋势,可能因为

19、回归方程不是最佳的,或者自变量间具有一定的相关性。所以这个模型还可以进一步改进。2.1 单因变量多因素分析单因变量多因素分析是对一个独立变量是否受到多个因素而进行的方差分析,可以检验不同水平间的变量均值,可以分析各个因素之间的主效应以及各因素之间的交互效应。由于我们可以认为所给数据中平均日工资符合正态分布,因而我们可以使用该方法。我们选择平均日工资为因变量,令性别、婚姻状况、学历、工龄、工作性质、一线经历、培训情况为固定因子,工龄为随机因素变量,采用spss软件进行统计计算得出如下结果:表【7】:各元素与平均日工资的主效应检验Tests of Between-Subjects EffectsD

20、ependent Variable:日工资SourceType III Sum of SquaresdfMean SquareFSig.Partial Eta SquaredNoncent. ParameterObserved Powera性别Hypothesis4.00114.001.212.653.016.212.071Error245.0261318.848c学历Hypothesis43.995143.9952.334.151.1522.334.294Error245.0261318.848c婚姻状况Hypothesis2.21212.212.117.737.009.117.062Err

21、or245.0261318.848c工作性质Hypothesis27.573127.5731.463.248.1011.463.202Error245.0261318.848c一线经历Hypothesis43.521143.5212.309.153.1512.309.291Error245.0261318.848c培训情况Hypothesis.0000.工龄(月)Hypothesis14882.00868218.85311.611.000.984789.5741.000Error245.0261318.848c由表【7】和假设检验知识可以得知,在各影响因素中,工龄F值为11.611,显著概率为

22、0.000,通过了显著性检验,因而工龄对于平均日工资有显著影响,而学历和一线经历的显著性概率分别为0.151和0.153,没有通过显著性检验,但从显著性检验以及各元素之间对比得知,学历和一线经历对于平均日工资相比之下有较大影响。而对于性别和婚姻状况两个因素,从显著性概率可以基本推断,平均日工资与该两项因素影响较小,可以忽略不计。为了更为合理的说明女性婚姻状况是否影响其收入,我们将男性女性的统计数据分开,再次利用该方法进行分析,可以得到以下结果:表【8】在除去男性员工条件下的个因素与平均日工资之间的主效应检验Tests of Between-Subjects EffectsDependent V

23、ariable:日工资SourceType III Sum of SquaresdfMean SquareFSig.Partial Eta Squared婚姻状况Hypothesis.8001.800.083.792.027Error28.80039.600b培训情况Hypothesis.0000.Error.c学历Hypothesis43.512143.5124.533.123.602Error28.80039.600b一线经历Hypothesis6.61316.613.689.467.187Error28.80039.600b工作性质Hypothesis.0000.Error.c工作性质H

24、ypothesis.0000.Error.c工龄(月)Hypothesis7914.11040197.85320.610.014.996Error28.80039.600b从表【8】可以看出,婚姻状况sig显著检验概率值为0.792,没有通过显著性检验,说明婚姻状况对于平均日工资的影响可以忽略,该公司女工没有得到不公平待遇。五、模型的改进【方案一】对上述线性模型分析,=0.803, R=0.896,即回归方程对原有数据的拟合程度还可以进一步提高,首选的方法是作非线性回归分析1、各个变量中,x2本身即为定量性变量,以纵轴为y轴,横轴为x2轴,得y x2 的散点图如下:图【5】2、由y x2的散点

25、图可见,线性回归方程将x2 对y的影响视为线性具有一定的误差,所以模型应该可以进一步改进,以提高拟合度。从直观上看,可设上图 ,为常数,则:用spss软件进行非线性回归分析,得表【9】参数估计值参数估计标准误95% 置信区间下限上限a065.42410.27444.97885.869a1-.7111.624-3.9442.522a22.357.1412.0762.638a3-39.2959.810-58.817-19.773a45.000.0005.0005.000a5-33.2466.883-46.944-19.549a6-27.0927.144-41.308-12.876a7.2981.6

26、61-3.0073.603a8-1.6091.757-5.1041.887a96.1607.304-8.37420.695 表【10】 方差分析:ANOVAa源平方和df均方回归319011.7431031901.174残差3393.2578042.416未更正的总计322405.00090已更正的总计23460.90089因变量: ya. R 方 = 1 -(残差平方和)/(已更正的平方和)= .855。3、由表中数据,得决定系数=0.855, =836;由0.803提高到0.855,F值由36.326提高到836,即回归方程的拟合优度和显著性都有了显著的提高,也即此非线性回归方程的模型更好

27、。4、残差分析:作残差图如下:图【6】 图【7】与线性回归模型的残差图比较,从该模型的残差散点图上看,随机性有了较大提高,但也有一些异常点的存在,这可能是由于随机抽取的90个样本中存在局限性,偶然性所致。但是前面所设的未必是最佳的,所以考虑下面的模型,应该有更好的方案。【方案二】由y x2的散点图和上面所述模型,我们知道这两个变量间有一定的曲线关系,而具有曲线特点的模型较多,我们需要从这众多模型之中找到最适合本题的模型,包括上面的模型也未必就是最佳的模型,所以我们通过曲线估计过程来选择最佳模型。1. 利用spss软件作曲线估计,从11种模型中选择最佳模型,部分结果如下(其他模型见附录):模型5

28、:三次曲线模型表【15】模型汇总RR 方调整 R 方估计值的标准误.836.698.6889.069自变量为 x2。ANOVA平方和df均方FSig.回归16387.07935462.36066.409.000残差7073.8218682.254总计23460.90089自变量为 x2。模型7:幂指数曲线模型表【17】模型汇总RR 方调整 R 方估计值的标准误.863.745.742.146自变量为 x2。ANOVA平方和df均方FSig.回归5.49315.493257.169.000残差1.88088.021总计7.37389自变量为 x2。模型9:生长曲线模型表【19】模型汇总RR 方调

29、整 R 方估计值的标准误.775.601.597.183自变量为 x2。ANOVA平方和df均方FSig.回归4.43114.431132.594.000残差2.94188.033总计7.37389自变量为 x2。图【8】2. 由各个表格可以看出,采用幂指数曲线模型时,决定系数=0.745,在各个模型中最大;估计值的标准误差=1.46,在各个模型中最小;F=257.169,在各个模型中最大。所以,用幂指数曲线建立的模型将会是最佳模型。利用spss软件求得幂指数模型的系数见下表:表【20】系数未标准化系数标准化系数tSig.B标准误Betaln(x2).254.016.86316.036.000

30、(常数)16.4241.27012.932.000因变量为 ln(y)。根据幂指数曲线方程,和表中数据得=16.424,=0.254;所以,有3、设用spss软件作非线性回归分析:表【21】参数估计值参数估计标准误95% 置信区间下限上限a040.90810.27820.45461.361a1-1.0371.565-4.1522.078a2.931.053.8251.037a3-38.7019.471-57.549-19.853a45.000.0005.0005.000a5-31.9316.639-45.143-18.718a6-27.1506.896-40.874-13.426a7-.138

31、1.604-3.3303.054a8-2.0231.700-5.4051.360a95.8237.049-8.20519.850ANOVAa源平方和df均方回归319242.6521031924.265残差3162.3488039.529未更正的总计322405.00090已更正的总计23460.90089因变量: ya. R 方 = 1 -(残差平方和)/(已更正的平方和)= .865。4 由参数估计值表,得非线性回归方程为: 由方差分析表:=0.865,=897.3。和上一个模型相比,决定系数由0.855增大到0.865,F值由836增大到897.3,说明回归方程的拟合优度和显著性都有了明

32、显提高,此模型要比上一个模型更佳!5残差分析:作残差图如下:图【9】 图【10】从上图可见,该残差散点图具有较好的随机性,说明此该模型对于原有数据的拟合程度较好,同时也可以看出有一些异常点,这可能由数据本身的偶然性和局限性所导致。【对模型优化的补充】由上面的过程我们很容易想到:对于其它的自变量,可否也用类似的方式找出它们各自的最佳模型,从而使整体的回归方程的显著性达到更高的水平呢?为此,作如下讨论。1、 分析y x1的散点图:图【11】2、 由图来看,上一个模型中y与x2线性相关应该很合适,为进一步精确探讨和说明,我们对其他11类模型都做曲线估计,对应的图如下:图【12】其中,线性模型:=0.

33、085,F=8.179; 二次模型:=0.085,F=8.179;三次曲线模型:=0.085,F=8.179复合模型:=0.071,F=6.755; 生长曲线模型:=0.071,F=6.755;各种模型中,以线性模型决定系数和统计量F值最大,即对x2来说,用线性模型最佳。3.、对于其它变量应用同样的方法,我们都得出以线性模型来回归分析最佳的结论。也就是说,如果要对上一个模型再作改进,考虑改进y xi 以行不通了,我们要改用别的方法。可以在上一个模型基础上考虑是否具有较强的自相关性,若有的话可以消除自相关性。【方案三】1、 分析上个模型的参数估计值的相关性:表【22】参数估计值的相关性a0a1a

34、2a3a4a5a6a7a8a9a01.000-.236-.322-.946.-.566-.666-.233-.042-.704a1-.2361.000.139.098.-.106-.017.319-.179.253a2-.322.1391.000.032.-.061-.036-.037-.195.075a3-.946.098.0321.000.637.726.170.084.713a4.a5-.566-.106-.061.637.1.000.891.027.163-.037a6-.666-.017-.036.726.8911.000.060.170.119a7-.233.319-.037.17

35、0.027.0601.000.128.097a8-.042-.179-.195.084.163.170.1281.000-.121a9-.704.253.075.713.-.037.119.097-.1211.000由上表看出,偏相关系数=0.726, =0.713,=0.891,据此初步断定变量有一定的自相关性,也就是说各个变量之间并非相互独立地对因变量y产生影响,即存在着交互作用。因此,我们对各个因素两两进行分析,得到了双因素方差分析的结果,其中只有性别和一线经历,性别和培训情况,女性婚姻状况和一线经历,学历和工作性质,工作性质和一线经历,工作性质和培训情况的交互项通过了显著性检验,结果如

36、下面的表格:表【23】Tests of Between-Subjects EffectsDependent Variable:日工资SourceType III Sum of SquaresdfMean SquareFSig.工作性质3511.05113511.05116.000.000一线经历1581.96611581.9667.209.009工作性质 * 一线经历1339.03311339.0336.102.015SourceType III Sum of SquaresdfMean SquareFSig.性别3439.30113439.30115.580.000一线经历1881.6561

37、1881.6568.524.004性别 * 一线经历1109.74411109.7445.027.028SourceType III Sum of SquaresdfMean SquareFSig.性别1179.58111179.5816.479.013性别 * 培训情况881.6071881.6074.842.030培训情况3011.00813011.00816.539.000SourceType III Sum of SquaresdfMean SquareFSig.婚姻状况3521.40813521.40816.026.000婚姻状况 * 一线经历932.4471932.4474.244

38、.042一线经历2370.82312370.82310.790.001SourceType III Sum of SquaresdfMean SquareFSig.学历2918.1393972.7135.599.002工作性质458.0951458.0952.637.108学历 * 工作性质1312.9112656.4553.778.027SourceType III Sum of SquaresdfMean SquareFSig.学历2918.1393972.7135.599.002工作性质458.0951458.0952.637.108学历 * 工作性质1312.9112656.4553.

39、778.027SourceType III Sum of SquaresdfMean SquareFSig.工作性质965.4711965.4715.249.024培训情况1509.34911509.3498.206.005工作性质 * 培训情况977.8541977.8545.317.024于是我们将上述的各个双因素的交互项加入方案二的模型之中,得到如下方程式:用spss软件进行非线性回归分析,结果如下:表【24】参数估计值参数估计标准误95% 置信区间下限上限a025.9303.537E7-7.051E77.051E7a1-1.0201.781-4.5702.529a2.919.057.8

40、061.033a3-22.5473.537E7-7.051E77.051E7a45.000.0005.0005.000a5-21.5869737145.106-1.941E71.941E7a6-2.4059737146.602-1.941E71.941E7a717.0963.537E7-7.051E77.051E7a8-14.82612.557-39.85810.206a99.6683.960E7-7.894E77.894E7b05.8865.728E13-1.142E141.142E14b1-4.6529.147-22.88813.583b25.8865.728E13-1.142E141.1

41、42E14b3-18.1923.537E7-7.051E77.051E7b4-10.9229737145.249-1.941E71.941E7b5-26.2589737145.172-1.941E71.941E7b610.93212.549-14.08535.948b7-3.5213.960E7-7.894E77.894E7ANOVAa源平方和df均方回归319445.7791817746.988残差2959.2217241.100未更正的总计322405.00090已更正的总计23460.90089因变量: ya. R 方 = 1 -(残差平方和)/(已更正的平方和)= .874。由方差分析

42、表得,=0.874,=959.55,相比于方案二的模型,有0.865增加到0.874,F值由897.3增加到959.55,即回归方程相对于原有数据的拟合优度和显著性都有所增加,也就是模型得到了进一步的提高。得到的更加可靠的模型为:图【13】残差分析从上面残差图看出,该回归方程的残差基本满足正态分布,说明统计数据点很好地靠近了推导出的回归方程线,该模型的结果高度精确地体现了原题中日工资和其他各种因素的关系。【方案四】从残差图的奇异点知数据有一定的偶然性,故而从残差对自变量的残差图中,取出六个奇异点,这六个点为原数据表中第36,47,48,53,84,90个数据(见附录),然后对剩余的84组数据用

43、方案五的回归模型进行分析,部分结果如下:表【25】ANOVAa源平方和df均方回归286983.3371815943.519残差1558.6636623.616未更正的总计288542.00084已更正的总计21296.23883因变量: ya. R 方 = 1 -(残差平方和)/(已更正的平方和)= .927。参数估计值参数估计标准误95% 置信区间下限上限a026.0623.161E7-6.311E76.311E7a1.0382.000-3.9554.030a2.910.046.8181.003a3-23.6693.161E7-6.311E76.311E7a45.000.0005.0005

44、.000a5-20.4183.288E7-6.565E76.565E7a6-2.5203.288E7-6.565E76.565E7a717.2093.161E7-6.311E76.311E7a8-15.3448.551-32.4161.728a910.7001.479E7-2.952E72.952E7b06.3686.183E15-1.235E161.235E16b1-7.6676.895-21.4346.100b26.3686.183E15-1.235E161.235E16b3-18.4763.161E7-6.311E76.311E7b4-11.1093.288E7-6.565E76.565

45、E7b5-26.8753.288E7-6.565E76.565E7b610.5309.004-7.44628.506b7-3.3461.479E7-2.952E72.952E7分析得出=0.927,=1636.6,和F值都有了明显的提高,回归方程的拟合度和显著性都达到了极高值,模型的误差也达到极小。六、 模型的评价1. 模型的优点:1) 尽可能地考虑了问题的随机性,通过不断改进模型,最终使所建立的模型与实际情况较为吻合。2) 本模型合理、巧妙地引入01虚拟变量对定性变量进行转换;3) 采用了逐步分析法,对问题进行深入分析;4) 有相应的专业软件spss支持,可信度较高,对性别和女性婚姻状况进行

46、单因素方差的分析具有说服力。5) 清晰的列出了多种因素综合的交互影响,全面考察了各变量的影响力,避免了单一因素分析的不准确性。2. 模型的缺点:1) 模型忽略了除了所给因素之外的因素对员工工资的影响,与实际问题存在偏差。2) 模型改进中加入了一点主观因素,认为学历与工作岗位存在相关性,有些片面。【参考文献】:1 冯成志,社会科学统计软件,清华大学出版社;2 何晓群,刘文卿,应用回归分析,中国人民大学出版社;3 郝黎仁,樊元等,spss实用统计分析,中国水利水电出版社; 4 姜启源,数学建模讲义,清华大学.附录:1 原始数据表格编号日工资性别工龄(月)婚姻状况学历工作性质一线经历培训情况1331

47、71本科技术岗位002340140本科技术岗位003340180本科管理岗位004420190本科技术岗位005341190本科管理岗位006341191本科技术岗位007341271本科技术岗位108361301本科技术岗位009430300本科技术岗位0010401300本科技术岗位0012401311本科管理岗位0013371381本科技术岗位0014370410本科技术岗位0015381421本科技术岗位0016420420本科管理岗位0017380420本科技术岗位0018381421本科管理岗位0019371471本科技术岗位1020371521本科技术岗位1022390540本科

48、技术岗位0023471541本科管理岗位0024391541本科技术岗位0026491661本科管理岗位0027410670本科管理岗位0028411670本科管理岗位0029501750本科技术岗位0030470780本科管理岗位0031471790本科技术岗位0032450910本科管理岗位0033451921本科技术岗位1034441941本科管理岗位00365111031本科技术岗位00374801030本科技术岗位00384801110本科管理岗位00424711171本科技术岗位10436801390本科管理岗位00485711620本科技术岗位00496001670本科管理岗位0

49、0505611721本科技术岗位10516111741本科技术岗位10535711990本科技术岗位00545712091本科技术岗位00566212100本科技术岗位00577002130本科管理岗位00586212201本科技术岗位10596212221本科技术岗位00607402220本科技术岗位00617612230本科技术岗位00626802230本科技术岗位00636212271本科管理岗位00646212321本科技术岗位10656712351本科技术岗位10677702530本科管理岗位00686212571本科技术岗位10696812601本科技术岗位00716502870本科技术岗位00725712900本科技术岗位00746203090本科管理岗位10756513191本科管理岗位00766803250本科技术岗位00776503260本科管理岗位00785703290本科管理岗位00796813371本科技术岗位00815713551本科技术岗位10826503570本科技术岗位00866504060本科管理岗位00877614370本科技术岗位0088811

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!