南开大学21秋《大数据开发技术》综合测试题库答案参考75

上传人:住在山****ck 文档编号:93120422 上传时间:2022-05-19 格式:DOCX 页数:13 大小:13.79KB
收藏 版权申诉 举报 下载
南开大学21秋《大数据开发技术》综合测试题库答案参考75_第1页
第1页 / 共13页
南开大学21秋《大数据开发技术》综合测试题库答案参考75_第2页
第2页 / 共13页
南开大学21秋《大数据开发技术》综合测试题库答案参考75_第3页
第3页 / 共13页
资源描述:

《南开大学21秋《大数据开发技术》综合测试题库答案参考75》由会员分享,可在线阅读,更多相关《南开大学21秋《大数据开发技术》综合测试题库答案参考75(13页珍藏版)》请在装配图网上搜索。

1、南开大学21秋大数据开发技术综合测试题库答案参考1. Spark Streming中DStream可以通过外部数据源(Kafka,Flume,Twitter等)来获取,也可以通过现有DStream的高级操作(Transformation操作)获得。( )A.正确B.错误参考答案:A2. 以下哪个函数可以对RDD进行去重( )A.sortByB.filterC.distinctD.intersection参考答案:C3. Scala 使用( )关键字来继承一个类A.extendsB.overrideC.extendD.overrides参考答案:A4. 图是一种数据元素间为( )关系的数据结构A

2、.多对多B.一对一C.一对多D.多对一参考答案:A5. Spark中运行交互式SQL查询的大规模并行查询引擎是( )A.Spark CoreB.Spark SQLC.BlinkDBD.Mllib参考答案:C6. Yahoo! S4和Twitter Storm开发实时应用时既要关注处理逻辑,还要解决实时数据获取、传输、存储。( )A.正确B.错误参考答案:B7. 以下哪个函数可以求两个RDD的笛卡尔积( )A.unionB.substractC.intersectionD.cartesian参考答案:D8. NoSQL数据库与关系数据库相比适用于哪些领域( )A.电信B.银行C.互联网企业大数据

3、处理D.传统企业的数据分析参考答案:CD9. GraphX中( )方法可以查询边信息A.numVerticesB.numEdgesC.verticesD.edges参考答案:D10. Scala中元组是是一种可迭代的键值对(key/value)结构。( )A.正确B.错误参考答案:B11. 图结构中如果任意两个顶点之间都存在边,那么称之为( )A.完全图B.有向完全图C.无向图D.简单图参考答案:A12. Spark中DataFrame的( )方法是进行排序查询A.order byB.group byC.select byD.sort by参考答案:A13. RDD的flatMap操作是将函数

4、应用于RDD之中的每一个元素,将返回的迭代器(数组、列表等)中的所有元素构成新的RDD。( )A.正确B.错误参考答案:A14. Spark Streming中( )函数可以对源DStream的每个元素通过函数func返回一个新的DStreamA.mapB.flatMapC.filterD.union参考答案:A15. Spark Streming中( )函数可以对源DStream中的每一个元素应用func方法进行计算,如果func函数返回结果为true,则保留该元素,否则丢弃该元素,返回一个新的DstreamA.mapB.flatMapC.filterD.union参考答案:C16. 亚马逊

5、的云服务提供了多达几十种服务,涵盖了IaaS、PaaS、SaaS这三层。( )A.正确B.错误参考答案:A17. Spark中DataFrame的查询操作也是一个懒操作,仅仅生成一个查询计划,只有触发Action操作才会进行计算并返回查询结果。( )A.正确B.错误参考答案:A18. 最长公共子序列算法利用的算法是( )。A.分支界限法B.动态规划法C.贪心法D.回溯法参考答案:B19. Scala函数组合器可以过滤移除使得传入的函数的返回值为false的元素的方法是( )A.filterB.flattenC.groubyD.flatmap参考答案:A20. Spark Streaming中时

6、间片也可称为批处理时间间隔(batch interval),时间片是人为地对数据进行定量的标准,作为拆分数据的依据,一个时间片的数据对应一个RDD实例。( )A.正确B.错误参考答案:A21. Scala中合并两个数组的方法是( )A.lineB.addC.appendD.concat参考答案:D22. GraphX中graph.edges可以得到( )A.顶点视图B.边视图C.顶点与边的三元组整体视图D.有向图参考答案:B23. 图的结构通常表示为:G(V,E),其中,E是图G中( )A.顶点B.顶点的集合C.边D.边的集合参考答案:D24. 优点是性能好(高并发),灵活性高,复杂性低,数据

7、结构灵活 提供嵌入式文档功能的数据库是( )A.列族数据库B.键值数据库C.图数据库D.文档数据库参考答案:D25. 文件块的大小和副本个数只能由系统指定。( )A.正确B.错误参考答案:B26. Spark中DataFrame的( )方法是进行条件查询A.whereB.joinC.limitD.apply参考答案:A27. Scala是Scalable Language的简写,是一门多范式的编程语言,设计初衷是不包括面向对象编程的特性。( )T.对F.错参考答案:F28. GraphX中( )方法可以释放边缓存A.cacheB.presistC.unpersistVerticesD.edge

8、s.unpersist参考答案:D29. Spark是一个( )计算框架A.快速B.分布式C.可扩展D.容错参考答案:ABCD30. 针对流数据,“量子恒道”可处理每天( )级的实时流数据A.TBB.PBC.GBD.MB参考答案:A31. 在集成期间,当一个数据库的属性与另一个数据库的属性匹配时,必须特别注意数据的结构。这旨在确保源系统中的函数依赖和参照约束与目标系统中的匹配。( )A.对B.错参考答案:A32. 分支限界法与回溯法的求解目标相同。( )A.错误B.正确参考答案:A33. 计算一个算法时间复杂度通常可以计算循环次数、基本操作的频率或计算步。( )A.错误B.正确参考答案:B34

9、. UMP系统的哪个功能实现了负载均衡( )A.读写分离B.资源隔离C.资源调度D.可扩展参考答案:A35. TF-IDF中TF指的是( )A.词频B.词在文档中出现的次数C.逆文档概率D.词在文档集中出现的概率E.词在文档集中出现的概率参考答案:AB36. Scala是Scalable Language的简写,是一门多范式的编程语言,设计初衷是不包括面向对象编程的特性。( )A.正确B.错误参考答案:B37. 使用分治法求解不需要满足的条件是( )。A.子问题必须是一样的B.子问题不能够重复C.子问题的解可以合并D.原问题和子问题使用相同的方法解参考答案:A38. Scala函数组合器可以通

10、过一个函数重新计算列表中所有元素,没有返回值。( )A.正确B.错误参考答案:B39. ( )是Spark的数据挖掘算法库A.Spark CoreB.BlinkDBC.GraphXD.Mllib参考答案:D40. 分治法与动态规划法的不同点是:适合于用动态规划法求解的问题,经分解得到的子问题往往不是互相独立的。而用分治法求解的问题,经分解得到的子问题往往是互相独立的。( )A.错误B.正确参考答案:B41. SQL Azure体系结构层中哪层将用户的请求转化为Azure内部的TDS格式流( )A.Client LayerB.Services LayerC.Platform. LayerD.In

11、frastructure Layer参考答案:A42. Scala中如果函数中的每个参数在函数中最多只出现一次,则可以使用占位符( )代替参数。A.井号B.下划线C.斜杠D.逗号参考答案:B43. MLlib 中可以调用mllib.tree.DecisionTree 类中的静态方法( )训练回归树A.trainClassifierB.trainRegressorC.LogisticRegressionModelD.LabeledPoint参考答案:B44. MLlib中用于线性回归算法的包主要有( )A.LinearRegressionWithSGDB.RidgeRegressionWithS

12、GDC.LassoWithSGDD.LeftRegression参考答案:ABC45. Pentaho是最流行的开源商业智能软件之一。( )A.对B.错参考答案:A46. Mllib中metrics.fMeasureByThreshold表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案:C47. MapReduce的main函数中设置输出类型的方法有( )。A.setOutputKeyClassB.setOutputClassC.setOutputValueClassD.setKeyValueClass参考答案:AC48. Scala函数组合器可以通过一个函数重新计算列表中所有

13、元素,并且返回一个相同数目元素的新列表的方法是( )A.mapB.foreachC.flattenD.flatmap参考答案:A49. 用户可以在Hadoop YARN上运行Spark。( )A.正确B.错误参考答案:A50. 下面哪种函数是回溯法中为避免无效搜索采取的策略?( )A.递归函数B.剪枝函数C.随机数函数D.搜索函数参考答案:B51. 以下哪个方法可以创建RDD( )A.parallelizeB.makeRDDC.textFileD.loadFile参考答案:ABC52. HDFS的命名空间包含( )A.节点B.目录C.文件D.块参考答案:BCD53. 贪心选择性质是贪心算法可行

14、的第一个基本要素,但不是贪心算法与动态规划算法的主要区别。( )A.错误B.正确参考答案:A54. 矩阵连乘问题的算法可由动态规划设计实现。( )A.错误B.正确参考答案:B55. ( )可解决HDFS中名称节点运行期间EditLog不断变大的问题A.NameNodeB.SecondaryNameNodeC.DataNodeD.Block参考答案:B56. 数据产生方式的运营式系统阶段的数据产生方式是主动的。( )A.正确B.错误参考答案:B57. SQL Azure体系结构层中哪层是存储节点集群,相当于普通Web系统的数据库层( )A.Client LayerB.Services Layer

15、C.Platform. LayerD.Infrastructure Layer参考答案:C58. 如果numPartitions是分区个数,那么Spark每个RDD的分区ID范围是( )A.0,numPartitionsB.0,numPartitions-1C.1,numPartitions-1D.1,numPartitions参考答案:B59. 以下是机器学习的常用算法的是( )A.回归算法B.聚类算法C.降维算法D.分类算法参考答案:ABCD60. Spark DataFrame中( )方法可以返回一个ListA.collectB.takeC.takeAsListD.collectAsList参考答案:CD

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!