南开大学21秋《大数据开发技术》在线作业二答案参考43

上传人:住在****他 文档编号:90685498 上传时间:2022-05-15 格式:DOCX 页数:13 大小:13.88KB
收藏 版权申诉 举报 下载
南开大学21秋《大数据开发技术》在线作业二答案参考43_第1页
第1页 / 共13页
南开大学21秋《大数据开发技术》在线作业二答案参考43_第2页
第2页 / 共13页
南开大学21秋《大数据开发技术》在线作业二答案参考43_第3页
第3页 / 共13页
资源描述:

《南开大学21秋《大数据开发技术》在线作业二答案参考43》由会员分享,可在线阅读,更多相关《南开大学21秋《大数据开发技术》在线作业二答案参考43(13页珍藏版)》请在装配图网上搜索。

1、南开大学21秋大数据开发技术在线作业二答案参考1. 大型图计算通常是由一个集群完成的,集群环境中执行远程数据读取会有较高的延迟。( )A.正确B.错误参考答案:A2. UMP系通过( )来实现实现在不停机的情况下动态扩容、缩容和迁移A.Controller服务器B.Proxy服务器C.愚公系统D.Agent服务器参考答案:C3. Spark Streming中( )函数可以对源DStream中的每一个元素应用func方法进行计算,如果func函数返回结果为true,则保留该元素,否则丢弃该元素,返回一个新的DstreamA.mapB.flatMapC.filterD.union参考答案:C4.

2、 Strassen矩阵乘法是利用什么实现的算法?( )A.分治策略B.动态规划法C.贪心法D.回溯法参考答案:A5. RDD的sortBy排序默认是升序。( )T.对F.错参考答案:T6. RDD的sortBy函数包含参数numPartitions,该参数决定排序后的RDD的分区个数,默认排序后的分区个数和排序之前的个数相等,即为this.partitions.size。( )T.对F.错参考答案:T7. RDD的subtract用于用于将前一个RDD中在后一个RDD出现的元素删除。( )A.正确B.错误参考答案:A8. 程序是算法用某种程序设计语言的具体实现。( )A.错误B.正确参考答案:

3、B9. Spark Streming中Dstream是一种抽象的离散流。( )T.对F.错参考答案:T10. 决策树是( )的常用算法A.分类B.聚类C.降维D.回归参考答案:AD11. Scala 集合分为可变的和不可变的集合。( )T.对F.错参考答案:T12. spark-submit配置项中( )表示启动的executor数量A.-num-executors NUMB.-executor-memory MEMC.-total-executor-cores NUMD.-executor-coures NUM参考答案:A13. 计算一个算法时间复杂度通常可以计算循环次数、基本操作的频率或计

4、算步。( )A.错误B.正确参考答案:B14. Mllib中metrics.roc表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案:D15. 拉斯维加斯算法找到的解不一定是正确解。( )A.错误B.正确参考答案:A16. ( )是Microsoft Office的核心组件。A.SQLB.WORDC.PPTD.EXCEL参考答案:D17. Mllib中线性会馆算法中的参数reParam表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和ridge的正规化参数参考答案:D18. 交通数据的来源包括车辆GPS数据,人类移动的GPS位置信

5、息或者单位站点记录,和监视设备的视频图像技术记录。( )A.对B.错参考答案:A19. Spark中DataFrame的( )方法是进行连接查询A.whereB.joinC.limitD.apply参考答案:B20. 图(Graph)是一种复杂的非线性结构。( )T.对F.错参考答案:T21. Storm框架是实时计算系统,所以不能使用数据库。( )A.正确B.错误参考答案:B22. 以下哪个函数可以求两个RDD交集 ( )A.unionB.substractC.intersectionD.cartesian参考答案:C23. 关于Strom中Bolt说法错误的是( )。A.Bolt可以执行过

6、滤、函数操作、Join、操作数据库等任何操作B.Bolt是一个被动的角色,Spout是一个主动的角色C.Bolt不仅可以处理Tuple还可以创建新的TupleD.Bolt是Streams的状态转换过程的抽象含义参考答案:C24. Storm中Bolt可以执行过滤、函数操作、Join、操作数据库等任何操作。( )A.正确B.错误参考答案:A25. 按照数据量的大小,可将数据分析分为内存级数据分析、Bl级数据分析和海量级数据分析。( )A.对B.错参考答案:A26. 用户可以在Hadoop YARN上运行Spark。( )A.正确B.错误参考答案:A27. 聚类分析(Cluster analysi

7、s)简称聚类(Clustering),是把数据对象划分成子集(类)的过程,每个子集称为一个簇(Cluster)。( )A.对B.错参考答案:A28. RDD的map操作不会改变RDD的分区数目。( )A.正确B.错误参考答案:A29. HBase的客户端并不依赖Master,而是通过( )来获得Region位置信息,大多数客户端甚至从来不和Master通信,这种设计方式使得Master负载很小A.MasterB.RegionC.ZookeeperD.Chubby参考答案:C30. 以下算法中属于分类算法的是( )A.KNN算法B.逻辑回归C.随机森林D.Kmeans参考答案:ABC31. 以下

8、是机器学习的常用算法的是( )A.回归算法B.聚类算法C.降维算法D.分类算法参考答案:ABCD32. 以下算法中属于监督学习算法的是( )A.KNN算法B.逻辑回归C.随机森林D.Kmeans参考答案:ABC33. 使用Amazon云环境部署Hadoop的说法中错误的是( )。A.Hadoop不仅可以运行在企业内部的集群中,也可以运行在云计算环境中B.Hadoop自带有一套脚本,用于在EC2上面运行HadoopC.在EC2上运行Hadoop尤其适用于一些工作流D.Amazon EC2为Hadoop提供了存储服务参考答案:D34. PairRDD中mapValues是针对键值对(Key,Val

9、ue)类型的数据中的key和Value进行Map操作。( )T.对F.错参考答案:F35. Scala中合并两个数组的方法是( )A.lineB.addC.appendD.concat参考答案:D36. UMP系统中面对分库分表用户如何进行资源调度( )A.可以共享同一个MySQL实例B.每个用户独占一个MySQL实例C.会占用多个独立的MySQL实例D.随机分配MySQL实例参考答案:C37. Scala 使用( )关键字来继承一个类A.extendsB.overrideC.extendD.overrides参考答案:A38. 以下哪种数据库适合于批量数据处理和即席查询( )A.MySQLB

10、.OracleC.HbaseD.NosSQL参考答案:C39. Scala列表方法中使用分隔符将列表所有元素作为字符串显示的方法是( )A.filterB.foreachC.mapD.mkString参考答案:D40. Storm中如果要保证相同字段的Tuple分配到同一个Task中,应该采用哪种Stream Groupings( )。A.ShuffleGroupingB.AllGroupingC.GlobalGroupingD.FiedlsGrouping参考答案:D41. 从分治法的一般设计模式可以看出,用它设计出的程序一般是递归算法。( )A.错误B.正确参考答案:B42. Hadoop

11、启动所有进程的命令为( )。A.all-start.shB.all-start.exeC.start-all.shD.start-all.exe参考答案:C43. Scala 集合分为可变的和不可变的集合。( )A.正确B.错误参考答案:A44. Spark持久化RDD后,在再一次需要计算该RDD时将需要重新计算。( )A.正确B.错误参考答案:B45. 默认情况下,Scala 使用的是可变集合。( )T.对F.错参考答案:F46. MapReduce中( )会周期性地通过“心跳”将本节点上资源的使用情况和任务的运行进度汇报给JobTracker,同时接收JobTracker 发送过来的命令并

12、执行相应的操作。A.ClientB.Job TrackerC.TaskD.Task Tracker参考答案:D47. 广度优先是什么的一种搜索方式?( )A.分支界限法B.动态规划法C.贪心法D.回溯法参考答案:A48. DataFrame是一个分布式的Row对象的数据集合。( )A.正确B.错误参考答案:A49. MapReduce设计的一个理念就是( ),因为移动数据需要大量的网络传输开销。A.数据向计算靠拢B.计算向数据靠拢C.计算向网络靠拢D.计算与数据并行参考答案:B50. GraphX中( )方法可以查询顶点个数A.numVerticesB.numEdgesC.verticesD.

13、edges参考答案:A51. 以下哪种方法可以让Spark不自定义分区也能对任何类型RDD 简单重分区( )A.resetpartitionB.repartitonC.PartitionD.coalesce参考答案:BD52. GraphX中( )是存放着Edg对象的RDDA.RDDEdgeB.EdgeRDDC.RDD(VertexId,VD)D.VertexRDD参考答案:A53. PairRDD可以通过( )获得仅包含键的RDDA.keyB.keysC.valueD.values参考答案:B54. RDD中join操作最后只返回两个RDD都存在的键的连接结果。( )A.正确B.错误参考答案

14、:A55. 实现棋盘覆盖算法利用的算法是( )。A.分治法B.动态规划法C.贪心法D.回溯法参考答案:A56. 大数据时代预测人类移动行为的数据来源有( )。A.志愿者定位数据B.装有导航设备的出租车轨迹数据C.手机终端定位于通讯记录D.社会网络签到数据参考答案:ABCD57. MapReduce中最优的Reduce任务个数取决于集群中可用的( )的数目。A.SplitB.SlotC.MapD.Shuffle参考答案:B58. Scala函数组合器可以接收一个可以处理嵌套列表的函数,然后把返回结果连接起来的方法是( )A.mapB.foreachC.flattenD.flatmap参考答案:D

15、59. Spark DataFrame中( )方法可以返回一个ListA.collectB.takeC.takeAsListD.collectAsList参考答案:CD60. Graph类中如果根据边数据创建图,数据需要转换成RDDEdgeED类型,应该用( )方法A.Graph(vertices,edges, defaultVertexAttr)B.Graph.fromEdges(RDDEdgeED, defaultValue)C.Graph.fromEdgeTuples(rawEdges: RDD(VertexId, VertexId), defaultValueD.GraphLoader.edgeListFile(sc,filename)参考答案:B

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!