CPDA考试应用模拟

上传人:无*** 文档编号:82912822 上传时间:2022-04-30 格式:DOC 页数:26 大小:65.50KB
收藏 版权申诉 举报 下载
CPDA考试应用模拟_第1页
第1页 / 共26页
CPDA考试应用模拟_第2页
第2页 / 共26页
CPDA考试应用模拟_第3页
第3页 / 共26页
资源描述:

《CPDA考试应用模拟》由会员分享,可在线阅读,更多相关《CPDA考试应用模拟(26页珍藏版)》请在装配图网上搜索。

1、word一、 计算题题数:4,共 100.0 分1.影响中国人口自然增长率的因素有很多,据分析主要因素可能有:1从宏观经济上看,经济整体增长是人口自然增长的基根源泉;2居民消费水平,它的上下可能会间接影响人口增长率。(3)文化程度,由于教育年限的上下,相应会转变人的传统观念,可能会间接影响人口自然增长率4人口分布,非农业与农业人口的比率也会对人口增长率有相应的影响。为了全面反映中国“人口自然增长率的全貌,选择人口增长率作为被解释变量,以反映中国人口的增长;选择“国名收入与“人均GDP作为经济整体增长的代表;选择“居民消费价格指数增长率作为居民消费水平的代表。暂不考虑文化程度与人口分布的影响。

2、从中国统计年鉴收集到以下数据见表1: 设定的线性回归模型为:1求出模型中的各个参数,试从多个角度评价此线性回归模型,并检验模型的经济意义;2检验模型中是否存在多重共线性问题逐步回归,假如有,试消除多重共线性。答案解析:1直接进展线性回归即可得到各个参数用excel。多元线性回归模型评价可以从拟合优度、T检验、F检验等多个方面出发。2求变量的相关系数矩阵或采用逐步回归法也可以用datahoop平台做线性回归,会自动删除共线的变量。2.对近期上映的10部电影进展调查研究,抽取290人对这10部电影的评分分值010分,结果如下表所示。1根据表中数据对这10部电影的评分进展因子分析,并解析各个因子的含

3、义;2可否利用电影的评分数据对这290名观影者进展聚类分析?给出你的理由。答案解析:1因子分析选择隐含因子数为3,分别代表动作片、爱情片、动画片的影响评分因子。2可以,这290人对电影的偏好有区别,可以进展聚类,相关性分析后排除共线性的影响再进展聚类。3.某超市为了优化商品摆放结构,对近期顾客购置的商品类型进展了统计,如附表所示。1写出所有有效强关联规如此minsupport=10%,minconfidence=50%;2结合实际情况分析顾客喜欢的商品搭配,并对该超市提出合理的建议。答案解析:关联规如此分析中设置参数minsupport=10%,minconfidence=50%,结果中强关联

4、规如此通过调整显示条目全部写出重复的删除。结合实际情况分析要写详细。4.某市为调查驾驶员视力情况“1表示视力正常,“0表示有视力缺陷、年龄、是否有驾驶教育经历“1表示有,“0表示没有,这三个因素对是否曾引起交通事故“1表示发生过,“0表示未发生过的影响,随机抽样调查了45名驾驶员,得到数据如下:1建立模型分析驾驶员视力情况、年龄、是否有驾驶教育经历对是否曾引起交通事故的影响,写出详细的思路过程。2假如要应用此模型预测某批驾驶员中可能会引起过交通事故的人都有哪些,如此还需要进展的研究步骤有哪些?请说明。答案解析:逻辑回归,数据预处理包括分析共线性和异常值等,数据分为训练数据和测试数据,综合训练误

5、差和测试误差评价模型。第二问要收集数据、处理数据、应用模型直接预测。-一、 计算题题数:4,共 100.0 分1.1993-2007年相关经济数据如附表所示。设定国内生产总值为x1,地产投资总额为x2,全国居民消费水平为x3、全社会固定资产投资房屋竣工面积为x4,作为自变量;全国房屋销售均价设为Y,作为因变量。建立如下的多元线性回归模型:y=b0+b1*x1+b2*x2+b3*x3+b4*x4+b0,b1,b2,b3,b4是未知参数,是剩余残差,且E()=0,与四个自变量无关。1求出参数b0,b1,b2,b3,b4,并评判模型拟合优度和实际意义,写出详细的分析依据和思路过程;2根据1对模型进展

6、修正。答案解析:1直接做线性回归,可得各个参数。通过R2,F、T检验,p值等分别分析模型。系数在经济意义上存在不合理性,可能是共线性的影响。datahoop平台会删除共线的变量,所以这里用excel或spss等做回归。2相关性分析和解释,去掉一些变量,重新做线性回归在Datahoop平台上直接做也可以,平台会自动删除共线的变量。2.为了解电影票房的影响因素有哪些,某出品人搜集了2010年至2013年间中国电影发放放映协会统计的过千万票房的国产电影相关统计指标,共涉与275部影片。具体数据如附表所示。Datahoop上传测试集:电影票房数据2010-2013.xlsxDatahoop上传训练集:

7、电影票房数据2010-2013.xlsx对数据进展预处理包括缺失值、数据类型、离散化等,选择决策树模型进展拟合,并检验和分析模型。要求写出详细的思路和过程。答案解析:1.影片票房:影片票房是本次模型建模的因变量。通过对选取数据的统计分析,将票房数据进展分类,一共分为8个层次,分类情况如表所示:等级 1 2 3 4 5 6 7 8X围 1000万 2000万 3000万 6000万 1亿万 1亿9000万 3亿 20亿 2000万 3000万 6000万 1亿万 1亿9000万 3亿 乘客IDSurvived = 是否生还Pclass = 乘客等级(1/2/3等舱位)Name = 乘客某某Sex

8、 = 性别Age = 年龄SibSp = 堂兄弟/妹个数Parch = 父母与小孩个数Ticket = 船票信息Fare = 票价Cabin = 客舱Embarked = 登船港口对收集进展预处理,选择适当的算法进展分析,并评价和解释模型,要求写出具体的思路过程。答案解析:本次分析选取变量包括:Survived = 是否生还、Pclass = 乘客等级(1/2/3等舱位)、Sex = 性别、Age = 年龄、SibSp = 堂兄弟/妹个数、Parch = 父母与小孩个数、Fare = 票价。理把性别进展0和1处理,female女转换成0,male男转换成1。年龄Age存在缺失值,因此对于年龄的

9、缺失值需要进展处理,本次对年龄的缺失值用所有年龄数据的平均值进展填充。采用方法:逻辑回归,根据模型的预测结果可以看出模型的准确度还是比拟好的,模型的AUC值也是比拟高的。因此可以根据这些变量预测乘客生还与否。-一、 计算题1.电信公司为分析客户流失状况,为客户是否流失提供参考依据,随机选取了600名客户进展研究,得到了如附表所示一系列数据,收集到的数据包含如下字段:在网月数截止数据收集时间为止的在网月数年龄客户实际年龄婚姻状况客户婚姻状况,0代表未婚,1代表已婚现地址居住时间现在地址的居住月份教育程度1:专科以下;2:本科;3:硕士;4:研究生;5:博士工作状态0:待业;1:在职性别0:女;1

10、:男租设备0:不租;1:租IP0:无;1:有无线0:有;1:无本月话费话费具体金额语音信箱0:无;1:有网络0:无;1:有来电显示0:无;1:有呼叫等待0:无;1:有呼叫转移0:无;1:有流失状态0:未流失;1:流失 根据这些客户数据,进展数据预处理,之后分别用逻辑回归和SVM算法进展分析,比照两种算法的拟合优度,从而选择两者中更加适合的算法模型。写出分析思路和过程,并为电信公司提供客户运营的相关建议。答案解析:根据逻辑回归和SVM算法对数据的不同要求,预处理要分析数据的共线性和异常值,之后分别进展逻辑回归和SVM算法分析,发现SVM的召回率、准确率、准确度等指标均较好,因此选择SVM算法。相

11、关建议包括引入此模型分析客户,从而针对性运营等。2.选取7项经济指标作为决定经济类型的影响因素,对全国31个省、直辖市、自治区(某某、某某、某某除外)进展聚类分析各项数据均来自2010年国家统计年鉴。对数据进展预处理创建新的变量等,比拟说明聚成几类时聚类效果最好,写出分析思路和过程,并分析每一类的实际意义。答案解析:假如用k-means进展聚类,预处理要考虑共线性和异常值数据比拟少不能轻易删除异常值,且分别分析聚成2、3、4等类的效果由平均轮廓系数判定。-一、 计算题1.某金融机构为了研究其信用卡发放风险,收集整理了一些客户的数据,包括他们的根本信息,经济情况,以与是否拖欠还款等,具体如附表所

12、示已经将客户分为了训练集和测试集。进展数据预处理,并用不同的算法模型逻辑回归、神经网络等分析信用卡拖欠还款情况,结合测试数据比照模型的拟合优度,要求写出具体的思路过程。答案解析:分析数据有没有缺失值异常值等,数据预处理逻辑回归考虑共线性、神经网络不考虑,分别用逻辑回归和神经网络对训练集进展拟合,由召回率、准确率等分析训练误差,接着对测试集进展预测分析得到预测值与实际值比照,求召回率、准确率等分析泛化误差。比照决定用哪个模型。2.为了研究手机好评率与品牌、价格的关系,某公司收集如附表所示数据,数据收集的信息包含手机的评论得分和评论内容以与手机品牌和价格等信息。对数据进展预处理,选择适宜的模型分析

13、手机好评率与品牌、价格的关系,要求写出详细的思路和过程。答案解析:本案例想要通过对应分析分析不同手机品牌和不同价格区间的手机的好评情况。对应分析是研究由定性变量构成的交互汇总表来揭示变量间的联系。交互表的信息以图形的方式展示。主要适用于有多个类别的定类变量,可以揭示同一个变量的各个类别之间的差异,以与不同变量各个类别之间的对应关系。适用于两个或多个定类变量。因此本案例需要对要研究的定量变量进展定性处理。本案例中品牌属于类别数据,但是其中包含汉字,因子需要进展重新编码;价格属于连续型变量,因此需要进展离散化处理。好评数不能直接代表手机的好评情况,因此为了更好地表示手机的好评情况,这里采用好评率进

14、展分析。由于好评率计算出来仍然是一个0到1之间的连续变量,因此需要进展离散化处理。数据分析:本次分析采用datahoop1.2版本进展分析,首先对品牌和好评率进展对应分析。从分析结果可以看到数据的交叉表,以与提取的3个公因子的贡献率和因子得分。从因子贡献率可以看到提取两个因子的贡献率就达到了80%以上,因此提取两个因子即可。根据对应分析的图表可以看到处于hp1也就是低好评度的品牌主要有品牌7,9,11,12。接着较低好评度品牌有3,4。较高好评度品牌包括1,5。高好评度品牌有8,10。因此品牌好评率分布为:好评率等级品牌低级ZUK,飞利浦,金立,酷派较低HTC, LG较高360,oppo高级锤

15、子,华为这样就可以清晰地看出不同品牌的好评情况。然后对价格等级和好评率等级进展对应分析,可以看到用户评论中500-1500价格区间的手机好评率最低,500-6000价位的手机好评率也最低。1500-2000价位的手机好评率较低;2000-2500价位/3000-3500价位和6000-7000价位手机好评率较高,好评率最高的是价位2500-3000价位手机和3500-4000价位。-1. 下面是7个地区2000年的人均国内生产总值GDP和人均消费水平的统计数据: 要求:1绘制散点图,并计算相关系数,说明二者之间的关系;2人均GDP作自变量,人均消费水平作因变量,利用最小二乘法求出估计的回归方程

16、,并解释回归系数的实际意义;3计算判定系数,并解释其意义;4检验回归方程线性关系的显著性a=0.05;5如果某地区的人均GDP为5000元,预测其人均消费水平;6求人均GDP为5000元时,人均消费水平95%的置信区间和预测区间。所有结果均保存三位小数25.0分窗体顶端我的答案窗体底端答案解析:提示:(1)使用Datahoop或Excel作出散点图、相关系数,作出相关描述;(2)注意自变量与因变量确实定,利用Datahoop或Excel写出回归方程,作出回归系数实际意义的描述;(3)写出判定系数,并描述意义;(4)在a=0.05的前提下,检验方程的显著性,并做描述;(5)使用Datahoop预

17、测功能做出结果;(6)写出置信区间和预测区间。-2. 根据以下给出的数据进展分析,本次给出鸢尾花数据,其中包含萼片长、萼片宽、花瓣长、花瓣宽、以与花的类型数据,请根据以下问题进展回答。此题数据提供在excel里面,数据分析为三份,一份训练数据,一份测试数据,一份预测数据1根据训练数据,用类型_num作为因变量Y,其他变量作为自变量X,做逻辑回归,写出逻辑回归的方程。2根据测试数据得到的结果,写出逻辑回归的混淆矩阵,以与准确率和召回率,Accuracy和F1的值可根据测试数据结果计算表格得到测试数据集的相应的结果。3给出一组预测数据,根据训练模型结果预测,写出预测结果。25.0分窗体顶端我的答案

18、窗体底端答案解析:提示: -3. 下表为购物篮事物数据: 1设minsupport=40%,利用Apriori算法写出所有的频繁项目集,并指出其中支持度最大的二项频繁项目集。2在第一问根底上设minconfidence=60%,找出所有的有效强关联规如此。25.0分窗体顶端我的答案窗体底端答案解析:提示:使用Datahoo进展Apriori分析,注意参数调整- 4. 某厨卫公司要开发一款燃气灶产品,列举出5个可作为卖点的功能属性:防风、定时、防干烧、不沾油、快速而准确地打火。该公司的产品设计人员不知道该主要开发哪项功能,分析师小李向公司提出了使用KANO模型对上述五个功能进展调研分类的想法。并

19、得到了公司的支持。假设你是小李1.请你绘制KANO模型图来介绍对功能属性分类的思路2.请你对燃气灶的防干烧功能属性设计调查问题3.针对燃气灶的防干烧功能,受访者有多少种可能的回答组合,请写出每一种回答组合所对应的属性类别符号符号见最后一行题注4.假设基于对240名受访者的调研,得到下表,请算出这5种功能各自的worse系数和better系数,并基于这两个系数判断这5中功能的属性类别5.请对该燃气灶的这5项功能开发提出建议注:魅力属性用符号A表示;必备属性用符号M表示;期望属性用符号O表示;可有可无属性用符号I表示;用户讨厌的属性用R表示;有问题的回答用Q表示人数功能OIMA防风11830296

20、3防干烧47783085定时22140870快速而准确地打火452010768不沾油6951298925.0分窗体顶端我的答案窗体底端答案解析:提示:1绘制KANO模型图2描绘通用调查问题3作出属性类别表4计算worse和better系数,并画出象限图5给出开发建议- 1. 移动公司想结合用户通话行为,推荐相应套餐,或者结合用户现有套餐优化用户套餐,提供个性化套餐,从而对客户进展精准营销,增加客户粘性。为此,移动公司收集了如下数据,移动公司收集到的数据包含如下字段:变量名称变量标签Customer_ID用户编号Peak_mins工作日上班时间时长OffPeak_mins工作日下班时间时长Wee

21、kend_mins周末时长International_mins国际时长Total_mins总通话时长average_mins平均每次通话时长请你根据这些客户数据,进展数据的预处理数据预处理过程中可以根据现有变量构造新变量进展分析,预处理之后选择适宜变量进展分析,分析算法自行选择,写出分析思路和过程,通过数据分析对客户进展细分,将客户分为5类。并为移动公司提供客户精准营销的相关建议。请写出分析的流程并刻画最后细分之后的客户的特点和相应的营销建议50.0分窗体顶端我的答案窗体底端答案解析:提示:根据题目可以选取聚类方法对客户进展细分,这里选取k-means聚类方法进展分析。对数据进展预处理,主要查

22、看数据的相关性;对数据进展聚类分析,选取变量为peak_mins/total_mins,offpeak_mins,weekend_mins,international_mins,total_mins,average_mins。根据聚类结果分析每一类客户在现有变量上的特征,这里选取平均值作为参考依据。得到聚类分析描述结果- 2. 通过游戏用户相关行为数据预测用户是否会付费某游戏公司,根据收集的2016年上半年的用户行为数据对用户是否会付费进展预测,根据预测结果对可能付费用户进展精准营销。该公司一共收集了用户的编号,以与用户的注册时间和最后一次登录时间,以与用户退出时的等级还有用户是否付费等数据。

23、user_idinstall_datelast_login_datelevel_endosis_payeractive_daysavg_session_t用户编号游戏安装时间最后一次登录游戏时间用户退出时的游戏等级登录手机系统是否付费活跃天数每天登录频次数据与数据类型解释user_idinstall_datelast_login_datelevel_endosis_payeractive_daysavg_session_t字符型日期型如:2015/5/4日期型数值型字符型,取值为:Android和iOS是否付费1代表付费,0代表未付费数值型数值型请根据原始数据,对数据进展预处理包括对类别型变量进展数值化处理、重新构造新的变量,然后根据原始数据,自行选择变量和分析算法进展分析数据提供包含训练数据、测试数据、预测数据、其中测试数据的模型检验结果的计算提供了相应的excel表格,表名为:测试数据结果计算,只需把测试结果拷贝到第二类数下面,相应的指标即可计算出来,写出分析过程和思路,并且根据模型进展预测。50.0分窗体顶端我的答案窗体底端答案解析:提示:1数据预处理2数据分析方法自行选取3结果分析4预测26 / 26

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!