数据分析算法与模型一附答案

上传人:沈*** 文档编号:67777839 上传时间:2022-04-01 格式:DOC 页数:12 大小:229KB
收藏 版权申诉 举报 下载
数据分析算法与模型一附答案_第1页
第1页 / 共12页
数据分析算法与模型一附答案_第2页
第2页 / 共12页
数据分析算法与模型一附答案_第3页
第3页 / 共12页
资源描述:

《数据分析算法与模型一附答案》由会员分享,可在线阅读,更多相关《数据分析算法与模型一附答案(12页珍藏版)》请在装配图网上搜索。

1、数据分析算法与模型模拟题(一)一、计算题 (共 4 题, 100 分)1、影响中国人口自然增长率的因素有很多,据分析主要因素可能有:(1 )从宏观经济上看,经济整体增长是人口自然增长的基本源泉;(2 )居民消费水平,它的高低可能会间接影响人口增长率。 (3) 文化程度,由于教育年限的高低, 相应会转变人的传统观念,可能会间接影响人口自然增长率( 4 )人口分布,非 农业与农业人口的比率也会对人口增长率有相应的影响。 为了全面反映中国 “人 口自然增长率” 的全貌, 选择人口增长率作为被解释变量, 以反映中国人口的增 长;选择“国名收入”及“人均 GDP ”作为经济整体增长的代表;选择“居民 消

2、费价格指数增长率” 作为居民消费水平的代表。 暂不考虑文化程度及人口分布 的影响。从中国统计年鉴收集到以下数据(见表 1 ):表 1 中国人口增长率及相关数据年份人口自然增长率国民总收入居民消费价格指数增长人均 GDP(%。)(亿元)率( CPI)%(元)198815.731503718.81366198915.0417001181519199014.39187183.11644199112.98218263.41893199211.6269376.42311199311.453526014.72998199411.214810824.14044199510.555981117.1504619

3、9610.42701428.35846199710.06780612.8642019989.1483024-0.8679619998.1888479-1.4715920007.58980000.4785820016.951080680.7862220026.45119096-0.8939820036.011351741.21054220045.871595873.91233620055.891840891.81404020065.382131321.516024设定的线性回归模型为:算法1多元线性回归.xlsx(1 )求出模型中的各个参数,试从多个角度评价此线性回归模型,并检验模型 的经济意义

4、;(2 )检验模型中是否存在多重共线性问题(逐步回归),若有,试消除多重共 线性。解:(1 )首先进行数据预处理,数据经检查,无缺失值,接着将数据导入dataHoop 平台中,进行异常值检验等分析,数据基本正常,但是数据存在多重共线性,多 重共线性将在第二问中详述。然后对数据进行多元线性回归拟合,以人口自然增长率 (丫)作为因变量,国民总 收入(X1)、居民消费价格指数增长率(X2)和人均GDP(X3)作为自变量,得到拟 合结果为:丫 = 14.7236 +0.0003X1 + 0.0644X2 - 0.0052X3调整R方为0.8831 ,F检验的p值为0 ,(常数项)t检验的p值为0,国民

5、总收 入t检验的p值为0.0427,居民消费价格指数增长率t检验的p值为0.1359, 人均GDPt检验的p值为0.0243。该模型解释为在其他变量不变的情况下,国 民收入每增长1亿元,则人口增长率随之增长 0.0003% ;在其他变量不变的情 况下,居民消费价格指数增长率每增长1%,则人口增长率随之增长0.0644% ;在其他变量不变的情况下,人均 GDP每增长1元,则人口增长率随之降低0.0052%。居民消费价格指数增长率 CPI与人口增长率呈正增长与现实情况不符,说明模型反映出的统计学意义与实际情况不完全相符,可能是因为自变量之 间存在共线性。(2)发现国民收入与人均GDP相关系数高达0

6、.9996,两个变量间极高度相关, 因此得到回归方程存在多重共线性。变量间的多重共性对基于最小二乘法的回归 模型模拟结果有非常严重的影响,导致回归结果不准确。采用“逐步回归法”对模型进行优化消除变量间的多重共线性。分别对单个变量进行分析:国民总收入(X1):1353250.0000国民总收人亿兀.-0.00010.0000算法参数调整R方p值(F爾居民消费价格指数增长率(X2):p值住强)733920.00000.26590.0036分析图R方迥整R方P值(F關0.40100.36580.M36-可编辑修改-人均 GDP(X3):分析图模型及检脸(常数项)13,02060.0000人均GDP5

7、E.-0.00070.0000R方调整血WF检验)通过对比,X3的调整R方更高,且均通过检验,所以采用 X3为基础变量;人均GDP(X3)和国民总收入(X1):粵法夢数(常致顶15J4180.0000国民总收入亿元.0.00040.0307人均 GDP.元一-0005800162R方调整R方卩值肝检強)0.88640.87220.0000人均GDP(X3)和居民消费价格指数增长率(X2):MSfc 一P價t检啊IC第数JS)12B1210,0000人均GDP-云0.00060.0000后民消竇1ATS拒斂瑁0.07800AO29启民消费价ts指数增0.07800.1029KCPL.R方翔整R方

8、P值册检卿|显然X1和X3的组合的调整R方更大,且均通过了检验人均GDP(X3)、国民总收入(X1)和居民消费价格指数增长率(X2):分折圉算法姜数算法冷分忻图槿型及检验p 值(常数项)14,72360.0000圉民总收入+亿元0.00030,0427启民消藝价梧指数堆 忙率TPL.0.06440.1359KCPL人均GDP 元-OJO520.0243结SfegfWP值(F检验)0.90260.8831OWOO当加入X2后,虽然调整R方有了一定的增加,但是X2的假设检验并没有通过, 所以采用X1和X3两个变量的方程。方程为:Y = 15.7418 + 0.0004X1- 0.0058X32、对

9、近期上映的10部电影进行调查研究,抽取290人对这10部电影的评分 (分值0T0分),结果如下表所示。(1)根据表中数据对这10部电影的评分进行因子分析,并解析各个因子的含 义;(2)可否利用电影的评分数据对这 290名观影者进行聚类分析?给出你的理由。算法2因子分析.xlsx解:(1)首先计算所有变量的相关系数矩阵,从结果可以看出,大部分的相关系 数均大于0.3,所以,此数据适合做因子分析。按因子为4个进行分析,结果得到第四个因子比例仅占比3%左右,所以该数据 隐含因子设定为3个。国子贲轉F_1 2F J0.360028150.03720 34600,62750.88010.9173载荷矩阵

10、如下:F_1F_2F_3谍麗重重F0. 83327 26-0. 255或夫熊猫3一0. 5404-0.12210. 75531北京遇上E-0. 05170. 8977-0. 2828伦敦陷落0. 7916-0. 4286-0. 2032疯狂动物北-0. 0003-0. 32030. 3804血战钢锯底C. 8986-0. 2969-0- 0345大鱼海策7 2067-0.11960. 9318七月2安台7 444日0_ 8445-0. Q993湄公河行W0. 9433-0. 072-0. 1543六弄咖啡准-6 32060. 8739-0. 2233所以,容易看出,第一因子为动作片,第二因子为

11、爱情片,第三因子为动画片(2)同观众可能会偏好不同类型的电影,体现在对不同类型电影的评分不同。 因此可以利用电影评分数据对观众进行聚类分析。3、某超市为了优化商品摆放结构,对近期顾客购买的商品类型进行了统计,如 附表所示。(1) 写出所有有效强关联规则(min support=10% ,min co nfiden ce=50%);(2)结合实际情况分析顾客喜欢的商品搭配,并对该超市提出合理的建议。匕算法3关联分析.xlsx(1)支持度大于1的均为有效强关联规则。数据无缺失值,几个变量(商品)的值为 T/F,在DATEHOOP的关联分析中 可被识别,故直接将数据导入datehoop 对变量果蔬、

12、鲜肉、奶制品、蔬菜制 品、肉制品、冷冻食品、啤酒、红酒、软饮料、鱼类、糖果进行关联分析。设置 最小支持度为0.1、最小置信度为0.5,得到的强关联规则中提升度大于1的有 效强关联规则如下所示:冷冻食品-蔬菜制品,蔬菜制品-冷冻食品,啤 酒-冷冻食品,冷冻食品-啤酒,啤酒-蔬菜制品,蔬菜制品-啤 酒,鲜肉-红酒,红酒-鲜肉,冷冻食品,啤酒-蔬菜制品,蔬菜制品, 啤酒卜冷冻食品,蔬菜制品,冷冻食品-啤酒1支持度料陪项目1项目2支持度按升度1冷冻倉品蔬菜制品0. 1730. 57281. 89062t疏茱制品【冷冻食品CL 1730. 5711.89063啤酒冷冻負品0.170. 53021.921

13、24冷冻倉品nfcat:啤酒0.170. 56291.2125龍t;蔬茱制品0.1670. 571.8B116疏架制品nfcgt;啤酒0.1670.55121.8E1110鲜肉0ntgt ;红酒D.0.52171.817911红酒供肉0a. 1440.50171.81797冷凉&品啤酒】-魄匕蔬集制品0* 1460.85982.83445m制品啤酒】-養g匕冷冻食品0. 14G0.87432.994991蔬菜制品冷冻倉品 _> ;0, 14S0. 84392.8803(2)由(1)可见,蔬菜制品、冷冻食品、啤酒之前存在较高的关联性,故建 议将三类商品陈列区域互相临近;另,红酒与鲜肉之前存在

14、较高的关联性, 故建 议将两类商品陈列区域互相临近。4、某市为调查驾驶员视力情况(“ 1 ”表示视力正常,“0”表示有视力缺陷) 年龄、是否有驾驶教育经历(“1 ”表示有,“ 0”表示没有),这三个因素对是否曾引起交通事故(“ 1 ”表示发生过,“ 0”表示未发生过)的影响,随机 抽样调查了 45名驾驶员,得到数据如下:(1 )建立模型分析驾驶员视力情况、年龄、是否有驾驶教育经历对是否曾引起 交通事故的影响,写出详细的思路过程。(2)若要应用此模型预测某批驾驶员中可能会引起过交通事故的人都有哪些, 则还需要进行的研究步骤有哪些?请说明。算法 4逻辑回归.xlsx(1)数据类型是数值型的不需要数

15、值化,而且不存在缺失值。逻辑回归要考虑 异常值的影响,以及变量是否存在共线性,因此我们进行异常值分析和相关性分 析。异常值分析发现异常值较多,猜测可能是分类的影响,因此不做处理。由相 关矩阵可看出变量之间虽然也有相关,但不是很强,因此可以进行逻辑回归。以accident为因变量,视力状况、age、drive为自变量进行逻辑回归分析,分 析结果如下:Interceptdrive1-UJO015-0.7412DJQ32D-1.4972ArrurflryAIK卩 wrhlocRefillFl SfflffSuppcrl007826o.as7io.ata21PrcdsionRecallFl score

16、SupportI00.7*2 临0.85710.01322110LM360.791724得到逻辑回归方程 In(P(Yi”(1-P(Yi)=-0.0819+-0.7412 x1+0.032x2-1.4972x3可以看到Accuracy、AUC、准确率召回率等都较大,模型拟合效果较好,训练 误差不大。(2)若想用此模型优化成为可以用来预测哪些人可能会引起过交通事故,则一 方面需进一步丰富样本量(本题只有 45个样本),在大样本量的基本上继续使 用训练数据集、测试数据集训练模型的拟合度,直到泛化误差小到可接受的范围 内,再进一步应用到预测中来。THANKS !致力为企业和个人提供合同协议, 策划案计划书,学习课件等等打造全网一站式需求欢迎您的下载,资料仅供参考

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!