南开大学22春《大数据开发技术》离线作业二及答案参考43

上传人:住在山****ck 文档编号:88570666 上传时间:2022-05-11 格式:DOCX 页数:13 大小:13.53KB
收藏 版权申诉 举报 下载
南开大学22春《大数据开发技术》离线作业二及答案参考43_第1页
第1页 / 共13页
南开大学22春《大数据开发技术》离线作业二及答案参考43_第2页
第2页 / 共13页
南开大学22春《大数据开发技术》离线作业二及答案参考43_第3页
第3页 / 共13页
资源描述:

《南开大学22春《大数据开发技术》离线作业二及答案参考43》由会员分享,可在线阅读,更多相关《南开大学22春《大数据开发技术》离线作业二及答案参考43(13页珍藏版)》请在装配图网上搜索。

1、南开大学22春大数据开发技术离线作业二及答案参考1. RDD是一个可读写的数据结构。( )T.对F.错参考答案:F2. Hadoop启动所有进程的命令为( )。A.all-start.shB.all-start.exeC.start-all.shD.start-all.exe参考答案:C3. RDD的mapPartitions操作会导致Partitions数量的变化。( )A.正确B.错误参考答案:B4. 传统数据处理流程,用户需要主动发起查询或者定时查询;流处理流程中,可以实时查询。( )A.正确B.错误参考答案:A5. Scala 集合分为可变的和不可变的集合。( )A.正确B.错误参考答

2、案:A6. 在集成期间,当一个数据库的属性与另一个数据库的属性匹配时,必须特别注意数据的结构。这旨在确保源系统中的函数依赖和参照约束与目标系统中的匹配。( )A.对B.错参考答案:A7. Mllib中metrics.roc表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案:D8. 最大效益优先是下列哪项的一种搜索方式?( )A.分支界限法B.动态规划法C.贪心法D.回溯法参考答案:A9. 使用分治法求解不需要满足的条件是( )。A.子问题必须是一样的B.子问题不能够重复C.子问题的解可以合并D.原问题和子问题使用相同的方法解参考答案:A10. 图是一种数据元素间为( )关系的数据

3、结构A.多对多B.一对一C.一对多D.多对一参考答案:A11. Spark GraphX中类Graph的joinVertices方法可以( )A.收集邻居顶点的顶点Id和顶点属性B.收集邻居顶点的顶点IdC.向指定顶点发送信息并聚合信息D.将顶点信息更新到图中参考答案:D12. 亚马逊的云服务提供了多达几十种服务,涵盖了IaaS、PaaS、SaaS这三层。( )A.正确B.错误参考答案:A13. Scala函数组合器可以对集合中的元素进行分组操作,结果得到的是一个Map的方法是( )A.filterB.flattenC.groubyD.flatmap参考答案:C14. MongoDB将数据存储

4、为一个( )A.关系B.属性C.字段D.文档参考答案:D15. 数据集成(Data Integration)是将多个数据源中的数据合并存放到一个一致的数据存储中,数据源可以包含多个数据库、数据立方体或一般文件。( )A.对B.错参考答案:A16. Spark中DataFrame的( )方法是进行条件查询A.whereB.joinC.limitD.apply参考答案:A17. HDFS在设计上采取了多种机制保证在硬件出错的环境中实现数据的完整性。( )A.正确B.错误参考答案:A18. 分布式离线分析可以实现秒级别的实时分析响应。( )A.正确B.错误参考答案:B19. Spark DataFr

5、ame中( )方法可以返回一个ListA.collectB.takeC.takeAsListD.collectAsList参考答案:CD20. 关联分析又称为关联规则学习。( )A.对B.错参考答案:A21. RDD的行动操作是用于触发转换操作的操作,这个时候才会真正开始进行计算。( )A.正确B.错误参考答案:A22. Storm中如果要保证相同字段的Tuple分配到同一个Task中,应该采用哪种Stream Groupings( )。A.ShuffleGroupingB.AllGroupingC.GlobalGroupingD.FiedlsGrouping参考答案:D23. Spark是一

6、个( )计算框架A.快速B.分布式C.可扩展D.容错参考答案:ABCD24. PairRDD中mapValues是针对键值对(Key,Value)类型的数据中的key和Value进行Map操作。( )A.正确B.错误参考答案:B25. Scala列表方法中将函数应用到列表的所有元素的方法是( )A.filterB.foreachC.mapD.mkString参考答案:B26. 用户可以在Hadoop YARN上运行Spark。( )T.对F.错参考答案:T27. Scala列表中last返回一个列表,包含除了第一个元素之外的其他元素。( )T.对F.错参考答案:F28. 关于分布式并行编程,以

7、下说法错误的是( )。A.“摩尔定律”,CPU性能大约每隔12个月翻一番B.“摩尔定律”逐渐失效后,人们开始借助于分布式并行编程来提高程序性能C.分布式程序运行在大规模计算机集群上,可以并行执行大规模数据处理任务,从而获得海量的计算能力D.谷歌公司最先提出了分布式并行编程模型MapReduce参考答案:A29. BigTable采用( )作为底层数据存储A.HDFSB.GFSC.HbaseD.传统文件系统参考答案:B30. 在HBase中,更新操作会用最新的当前值去替换记录中原来的旧值,旧值被覆盖后就不会存在。( )A.正确B.错误参考答案:B31. Scala是一种纯面向对象的语言,每个值都

8、是对象。( )T.对F.错参考答案:T32. 分支限界法解最大团问题时,活结点表的组织形式是( )。A.最小堆B.最大堆C.栈D.数组参考答案:B33. Spark SQL读取的数据源支持( )A.Hive表B.Parquent文件C.JSON数据D.关系数据库参考答案:ABCD34. Storm中如果要让所有的Tuple都发送到同一个Task中,应该采用哪种Stream Groupings( )。A.ShuffleGroupingB.AllGroupingC.GlobalGroupingD.FiedlsGrouping参考答案:C35. Spark中DataFrame的( )方法是进行排序查

9、询A.order byB.group byC.select byD.sort by参考答案:A36. 以下哪个函数可以求两个RDD交集 ( )A.unionB.substractC.intersectionD.cartesian参考答案:C37. Scala函数组合器可以通过一个函数重新计算列表中所有元素,并且返回一个相同数目元素的新列表的方法是( )A.mapB.foreachC.flattenD.flatmap参考答案:A38. 每个变量的最大值和最小值之差称为极差。( )A.对B.错参考答案:A39. Spark中DataFrame的查询操作也是一个懒操作,仅仅生成一个查询计划,只有触发

10、Action操作才会进行计算并返回查询结果。( )A.正确B.错误参考答案:A40. Scala 集合分为可变的和不可变的集合。( )T.对F.错参考答案:T41. spark-submit配置项中( )表示启动的executor数量A.-num-executors NUMB.-executor-memory MEMC.-total-executor-cores NUMD.-executor-coures NUM参考答案:A42. GraphX中( )方法可以查询边信息A.numVerticesB.numEdgesC.verticesD.edges参考答案:D43. 流计算是针对流数据的实时计

11、算,可以应用在( )场景中A.广告投放B.气候模拟预测C.机器翻译D.推荐系统参考答案:ABCD44. Mllib实现了一些常见的机器学习算法和应用程序,包括( )A.分类B.聚类C.降维D.回归参考答案:ABCD45. 以下算法中属于分类算法的是( )A.KNN算法B.逻辑回归C.随机森林D.Kmeans参考答案:ABC46. Scala中高阶函数可以产生新的函数,并将新的函数作为返回值。( )T.对F.错参考答案:T47. 以下哪个函数可以对RDD进行去重( )A.sortByB.filterC.distinctD.intersection参考答案:C48. Hbase中Zookeeper

12、提供了( )A.分布式同步B.组服务C.域名服务D.配置维护参考答案:ABCD49. MLlib 中可以调用mllib.tree.DecisionTree 类中的静态方法( )训练回归树A.trainClassifierB.trainRegressorC.LogisticRegressionModelD.LabeledPoint参考答案:B50. Scala列表方法中使用分隔符将列表所有元素作为字符串显示的方法是( )A.filterB.foreachC.mapD.mkString参考答案:D51. 美国奥巴马政府宣布投资2亿美元启动“大数据研发计划”。( )A.对B.错参考答案:A52. S

13、cala函数组合器可以通过一个函数重新计算列表中所有元素,没有返回值。( )A.正确B.错误参考答案:B53. 流计算系统的需求有( )。A.实时性B.廉价C.高性能D.高带宽E.分布式参考答案:ACE54. 大数据计算处理方法主要分为两种方法,即批处理方法和流处理方法。( )A.正确B.错误参考答案:A55. 分支限界法与回溯法的求解目标相同。( )A.错误B.正确参考答案:A56. ( )和( ),它们把原数据变换或投影到较小的空间。A.小波变换B.中心化变换C.主成分分析D.对数变换参考答案:AC57. 问题的最优子结构性质是该问题不可用动态规划算法或贪心算法求解的关键特征。( )A.错误B.正确参考答案:A58. Scala函数组合器中filter过滤移除使得传入的函数的返回值为true的元素。( )A.正确B.错误参考答案:B59. Scala列表中last返回列表最后一个元素。( )A.正确B.错误参考答案:A60. 非结构化数据是指非纯文本类数据,没有标准格式,无法直接解析出相应的值。( )A.对B.错参考答案:A

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!