南开大学21秋《大数据开发技术》在线作业三答案参考52

上传人:住在山****ck 文档编号:91471884 上传时间:2022-05-17 格式:DOCX 页数:13 大小:14.02KB
收藏 版权申诉 举报 下载
南开大学21秋《大数据开发技术》在线作业三答案参考52_第1页
第1页 / 共13页
南开大学21秋《大数据开发技术》在线作业三答案参考52_第2页
第2页 / 共13页
南开大学21秋《大数据开发技术》在线作业三答案参考52_第3页
第3页 / 共13页
资源描述:

《南开大学21秋《大数据开发技术》在线作业三答案参考52》由会员分享,可在线阅读,更多相关《南开大学21秋《大数据开发技术》在线作业三答案参考52(13页珍藏版)》请在装配图网上搜索。

1、南开大学21秋大数据开发技术在线作业三答案参考1. RDD的cartesian函数是笛卡尔积,也就是将两个集合的元素两两组合成一组。( )A.正确B.错误参考答案:A2. PairRDD中mapValues是针对键值对(Key,Value)类型的数据中的key和Value进行Map操作。( )A.正确B.错误参考答案:B3. Graph类中如果要根据边数据创建图,边数据需要加载为二元组,可以选择是否对边分区,应该用( )方法A.Graph(vertices,edges, defaultVertexAttr)B.Graph.fromEdges(RDDEdgeED, defaultValue)C.

2、Graph.fromEdgeTuples(rawEdges: RDD(VertexId, VertexId), defaultValue,)D.GraphLoader.edgeListFile(sc,filename)参考答案:C4. PairRDD中groupBy(func)func返回key,传入的RDD的各个元素根据这个key进行分组。( )A.正确B.错误参考答案:A5. 传统的数据处理流程的前提是( )。A.存储的数据是旧的B.存储的数据是实时的C.需要用户主动发出查询D.不需要用户主动发出查询参考答案:AC6. NAS是一种采用直接与网络介质相连的特殊设备实现数据存储的模式。( )

3、A.对B.错参考答案:A7. RDD是一个可读写的数据结构。( )A.正确B.错误参考答案:B8. 最大效益优先是下列哪项的一种搜索方式?( )A.分支界限法B.动态规划法C.贪心法D.回溯法参考答案:A9. UMP系通过( )来实现实现数据路由的基本功能A.Controller服务器B.Proxy服务器C.愚公系统D.Agent服务器参考答案:B10. spark-submit配置项中( )表示executor内存大小A.-num-executors NUMB.-executor-memory MEMC.-total-executor-cores NUMD.-executor-coures

4、NUM参考答案:B11. 我们既要通过政府主导,又要发挥社会的力量,来共同推进医疗大数据的应用。( )A.对B.错参考答案:A12. Spark中DataFrame的( )方法是进行分组查询A.order byB.group byC.select byD.sort by参考答案:B13. 流计算系统的需求有( )。A.实时性B.廉价C.高性能D.高带宽E.分布式参考答案:ACE14. Pentaho是最流行的开源商业智能软件之一。( )A.对B.错参考答案:A15. 传感器工作模式类别包括( )。A.基于位置B.基于活动C.基于设备参考答案:ABC16. 分支限界法是一种只带有系统性的搜索算法

5、。( )A.错误B.正确参考答案:A17. ( )是Microsoft Office的核心组件。A.SQLB.WORDC.PPTD.EXCEL参考答案:D18. 以下哪个函数可以求两个RDD差集 ( )A.unionB.substractC.intersectionD.cartesian参考答案:B19. Spark中DataFrame的( )方法是进行排序查询A.order byB.group byC.select byD.sort by参考答案:A20. 1秒定律体现了大数据的哪个特征( )。A.数据量大B.数据产生速度快C.数据存储快D.数据计算快参考答案:B21. HBase的客户端并

6、不依赖Master,而是通过( )来获得Region位置信息,大多数客户端甚至从来不和Master通信,这种设计方式使得Master负载很小A.MasterB.RegionC.ZookeeperD.Chubby参考答案:C22. 关于Strom中Bolt说法错误的是( )。A.Bolt可以执行过滤、函数操作、Join、操作数据库等任何操作B.Bolt是一个被动的角色,Spout是一个主动的角色C.Bolt不仅可以处理Tuple还可以创建新的TupleD.Bolt是Streams的状态转换过程的抽象含义参考答案:C23. MapReduce中Client会跟踪任务的执行进度、资源使用量等信息。(

7、 )A.正确B.错误参考答案:B24. RDD的sortBy函数包含参数numPartitions,该参数决定排序后的RDD的分区个数,默认排序后的分区个数和排序之前的个数相等,即为this.partitions.size。( )T.对F.错参考答案:T25. 分支限界法解最大团问题时,活结点表的组织形式是( )。A.最小堆B.最大堆C.栈D.数组参考答案:B26. Graph类中如果根据边数据创建图,数据需要转换成RDDEdgeED类型,应该用( )方法A.Graph(vertices,edges, defaultVertexAttr)B.Graph.fromEdges(RDDEdgeED,

8、 defaultValue)C.Graph.fromEdgeTuples(rawEdges: RDD(VertexId, VertexId), defaultValueD.GraphLoader.edgeListFile(sc,filename)参考答案:B27. 云数据库不可以满足大企业的海量数据存储需求。( )A.正确B.错误参考答案:B28. 数据归约(Data Reduction)主要有( )。A.维度规约B.样本规约C.数据聚集D.离散化概念分层参考答案:ABCD29. Hbase采用( )作为底层数据存储A.HDFSB.GFSC.HbaseD.传统文件系统参考答案:A30. Spa

9、rk Streming中( )函数可以合并两个DStream,生成一个包含两个DStream中所有元素的新DStream对象A.mapB.flatMapC.filterD.union参考答案:D31. Scala中如果函数中的每个参数在函数中最多只出现一次,则可以使用占位符( )代替参数。A.井号B.下划线C.斜杠D.逗号参考答案:B32. 快速排序算法的性能取决于划分的对称性。( )A.错误B.正确参考答案:B33. Spark SQL可以通过( )方法加载json文件为DataFrameA.formatB.jsonC.getD.read参考答案:AB34. 请问RDD的( )操作是根据键对

10、两个RDD进行内连接A.joinB.zipC.combineByKeyD.collect参考答案:A35. Scala中元组是是一种可迭代的键值对(key/value)结构。( )A.正确B.错误参考答案:B36. 已得到广泛应用的分布式文件系统主要包括( )。A.GFSB.MapReduceC.HbaseD.HDFS参考答案:AD37. 备忘录方法是哪种算法的变形?( )A.分治法B.动态规划法C.贪心法D.回溯法参考答案:B38. Scala类通过子类化和基于灵活的混合类来进行扩展,作为( )的一个可靠性解决方案A.多态B.虚函数C.派生D.多重继承参考答案:D39. Spark Data

11、Frame中( )方法可以返回一个Array对象A.collectB.takeC.takeAsListD.collectAsList参考答案:AB40. Spark SQL可被视为一个分布式的SQL查询引擎,并且提供了一个叫做DataFrame的可编程抽象数据模型。( )A.正确B.错误参考答案:A41. RDD中combineByKey不允许返回类型与输入数据类型不同的返回值。( )A.正确B.错误参考答案:B42. MapReduce将输入文件切分成M个分片,Master将其中( )个分片分给处于空闲状态的N个Worker来处理。A.MB.NC.M-1D.N-1参考答案:A43. MLli

12、b中用于线性回归算法的包主要有( )A.LinearRegressionWithSGDB.RidgeRegressionWithSGDC.LassoWithSGDD.LeftRegression参考答案:ABC44. Spark GraphX中类Graph的reverse方法可以( )A.反转图中所有边的方向B.按照设定条件取出子图C.取两个图的公共顶点和边作为新图,并保持前一个图顶点与边的属性D.合并边相同的属性参考答案:A45. 在HBase中,更新操作会用最新的当前值去替换记录中原来的旧值,旧值被覆盖后就不会存在。( )A.正确B.错误参考答案:B46. Scala 列表与数组非常相似,

13、列表的所有元素可具有不同的类型。( )T.对F.错参考答案:F47. Scala列表方法中输出符号指定条件的所有元素的方法是( )A.dropB.headC.filterD.init参考答案:C48. Yahoo! S4和Twitter Storm开发实时应用时既要关注处理逻辑,还要解决实时数据获取、传输、存储。( )A.正确B.错误参考答案:B49. MapReduce中最优的Reduce任务个数取决于集群中可用的( )的数目。A.SplitB.SlotC.MapD.Shuffle参考答案:B50. Scala函数组合器中flatmap结合了map和flatten的功能,接收一个可以处理嵌套

14、列表的函数,然后把返回结果连接起来。( )A.正确B.错误参考答案:A51. Dstream输出操作中( )方法在Driver中打印出DStream中数据的前12个元素。A.printB.saveAsTextFilesC.saveAsObjectFilesD.saveAsHadoopFiles参考答案:C52. 下面是贪心算法的基本要素的是( )。A.重叠子问题B.构造最优解C.贪心选择性质D.定义最优解参考答案:C53. RDD的union函数会将两个RDD元素合并成一个并且去处重复元素。( )A.正确B.错误参考答案:B54. 回溯法是一种既带有系统性又带有跳跃性的搜索算法。( )A.错误

15、B.正确参考答案:B55. 图(Graph)是一种复杂的非线性结构。( )T.对F.错参考答案:T56. Scala列表中last返回一个列表,包含除了第一个元素之外的其他元素。( )A.正确B.错误参考答案:B57. 下列算法中通常以深度优先方式系统搜索问题解的是( )。A.备忘录法B.动态规划法C.贪心法D.回溯法参考答案:D58. Scala源代码被编译成( )字节码,所以它可以运行于JVM之上A.SparkB.ScalaC.JavaD.JDK参考答案:C59. 下列算法中通常以自底向上的方式求解最优解的是( )。A.备忘录法B.动态规划法C.贪心法D.回溯法参考答案:B60. 按照数据量的大小,可将数据分析分为内存级数据分析、Bl级数据分析和海量级数据分析。( )A.对B.错参考答案:A

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!