2014年工程硕士数据挖掘考试试题

上传人:lis****210 文档编号:101155092 上传时间:2022-06-04 格式:DOCX 页数:2 大小:15.69KB
收藏 版权申诉 举报 下载
2014年工程硕士数据挖掘考试试题_第1页
第1页 / 共2页
2014年工程硕士数据挖掘考试试题_第2页
第2页 / 共2页
资源描述:

《2014年工程硕士数据挖掘考试试题》由会员分享,可在线阅读,更多相关《2014年工程硕士数据挖掘考试试题(2页珍藏版)》请在装配图网上搜索。

1、数据挖掘试题一、选择题(本大题共20小题,每小题1分,共20分)1 列出的四个备选项中选择一项符合题目要求的,请将其代码填写在题后的括号内。错选、多选或未选均无分。(请将选择答案填入下面的表格中。)为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B)探索性数据分析B.建模描述C.预测建模D.寻找模式和规则建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C)根据内容检索B.建模描述C.预测建模D.寻找模式和规则用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?(A)根据内容检索B.建模描述C.预测建

2、模D.寻找模式和规则假设给定的数据集的值已经分组为区间。区间和对应的频率如下。(B)计算数据的近似中位数值A1520B2050C5080D801105.下面哪种不属于数据预处理的方法?(D)A变量代换B离散化C聚集D估计遗漏值15在第几个箱子内?6.假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215A计数属性B离散属性C非对称的二元属性D对称属性A第一个B第二个C第三个D第四个7.上题中,等宽划分时(宽度为50),15又在哪个箱子里?(A)A第一个B第二个C第三个D第四个8.下面哪个不属于数据的属性类型:(D)A标称B序数C区间D相异

3、使用如下每种方法将它们划分成四个箱。等频(等深)划分时,9.只有非零值才重要的二元属性被称作:(C)下面不属于创建新属性的相关方法的是:(B)A特征提取B特征修改C映射数据到新的空间D特征构造考虑值集1、2、3、4、5、90,其截断均值(p=20%是(C)A2B3C3.5D5熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是:(B)A1比特B2.6比特C3.2比特D3.8比特假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:(D)A0.821B1.224C1.458

4、D0.716假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:(A)A18.3B22.6C26.8D27.9A. 15考虑值集12243324556826,其四分位数极差是:(A)A31B24C55D316在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是:(D)A有放回的简单随机抽样B无放回的简单随机抽样C分层抽样D渐进抽样17数据仓库是随

5、着时间变化的,下面的描述不正确的是(C)数据仓库随时间的变化不断增加新的数据内容;捕捉到的新数据会覆盖原来的快照;数据仓库随事件变化不断删去旧的数据内容;数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合.A. 18关于基本数据的元数据是指:(D)A.基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;基本元数据包括与企业相关的管理方面的数据和信息;基本元数据包括日志文件和简历执行处理的时序调度信息;基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息.19下面关于数据粒度的描述不正确的是:(C)A.粒度是指数据仓库小数据单元的详细程度和级别;数

6、据越详细,粒度就越小,级别也就越高;数据综合度越高,粒度也就越大,级别也就越高;粒度的具体划分将直接影响数据仓库中的数据量以及查询质量.20在有关数据仓库测试,下列说法不正确的是:(D)A.在完成数据仓库的实施过程中,需要对数据仓库进行各种测试.测试工作中要包括单元测试和系统测试.A. 当数据仓库的每个单独组件完成后,就需要对他们进行单元测试.B. 系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试.C. 在测试之前没必要制定详细的测试计划.二、简答题(本大题共5小题,每小题10分,共50分)1分析说明为什么会产生数据挖掘这门新兴学科,它为什么是不可替代的学科?2什么是数据仓库

7、?数据仓库与数据库的主要区别是什么?3简述数据分类的两步过程以及对分类方法评价的主要内容。4常用数据中心趋势以及数据离散的度量有哪些?5.用面向属性的归纳方法进行数据概化处理的基本过程是什么?分析各步对数据概化结果的影响。三、论述题(本大题共2小题,每小题15分,共30分)1目前的学术不端文献检测系统中有如下这些特点,结合你所学的数据挖掘来分析这些特点:a覆盖面广,通过混合引擎覆盖约188亿个网页和490万篇论文,实现了对互联网和部分期刊网的广度覆盖。系统采用算法提取信息指纹。b模糊检测,柔性匹配,为防止抄袭者替换部分字符,删除部分标点符号,系统通过相似度来进行判定。系统采用自研的算法实现高速相似性检测和度量。c相似文档模块跟踪技术,可以通过简单操作直接定位相似文档中哪些内容被抄袭或者拷贝,观明了2结合我们现在的数据挖掘知识和专业,论述网购用户行为和提升购买力。主要是我们如何在市场营销、消费行为等领域的消费行为分析和购买力提升、及营销策划广泛的理论及实践问题中使用数据挖掘。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!