南开大学22春《大数据开发技术》离线作业二及答案参考21

上传人:住在山****ck 文档编号:89351167 上传时间:2022-05-12 格式:DOCX 页数:13 大小:14.10KB
收藏 版权申诉 举报 下载
南开大学22春《大数据开发技术》离线作业二及答案参考21_第1页
第1页 / 共13页
南开大学22春《大数据开发技术》离线作业二及答案参考21_第2页
第2页 / 共13页
南开大学22春《大数据开发技术》离线作业二及答案参考21_第3页
第3页 / 共13页
资源描述:

《南开大学22春《大数据开发技术》离线作业二及答案参考21》由会员分享,可在线阅读,更多相关《南开大学22春《大数据开发技术》离线作业二及答案参考21(13页珍藏版)》请在装配图网上搜索。

1、南开大学22春大数据开发技术离线作业二及答案参考1. Mllib中线性会馆算法中的参数intercept表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和ridge的正规化参数参考答案:C2. Pentaho是最流行的开源商业智能软件之一。( )A.对B.错参考答案:A3. 拉斯维加斯算法找到的解不一定是正确解。( )A.错误B.正确参考答案:A4. Scala列表方法中将函数应用到列表的所有元素的方法是( )A.filterB.foreachC.mapD.mkString参考答案:B5. Scala 使用( )关键字来继承一个类A.exten

2、dsB.overrideC.extendD.overrides参考答案:A6. 以下哪个是Scala的数据类型( )A.AnyB.NULLC.NothingD.AnyRef参考答案:ABCD7. Spark中DataFrame的( )方法是进行条件查询A.whereB.joinC.limitD.apply参考答案:A8. SparkContext类中makeRDD方法不可将单机数据创建为分布式RDD。( )A.正确B.错误参考答案:B9. Spark中DataFrame的查询操作也是一个懒操作,仅仅生成一个查询计划,只有触发Action操作才会进行计算并返回查询结果。( )A.正确B.错误参考

3、答案:A10. MapReduce设计的一个理念就是( ),因为移动数据需要大量的网络传输开销。A.数据向计算靠拢B.计算向数据靠拢C.计算向网络靠拢D.计算与数据并行参考答案:B11. 下面哪种函数是回溯法中为避免无效搜索采取的策略?( )A.递归函数B.剪枝函数C.随机数函数D.搜索函数参考答案:B12. 下列随机算法中运行时有时候成功有时候失败的是( )。A.数值概率算法B.舍伍德算法C.拉斯维加斯算法D.蒙特卡罗算法参考答案:C13. 关系数据库的关键特性包括完善的事务机制和高效的查询机制。( )A.正确B.错误参考答案:A14. 文件块的大小和副本个数只能由系统指定。( )A.正确B

4、.错误参考答案:B15. 从分治法的一般设计模式可以看出,用它设计出的程序一般是递归算法。( )A.错误B.正确参考答案:B16. MLlib 中可以调用mllib.tree.DecisionTree 类中的静态方法( )训练回归树A.trainClassifierB.trainRegressorC.LogisticRegressionModelD.LabeledPoint参考答案:B17. Spark的RDD持久化操作有( )方式A.cacheB.presistC.storageD.long参考答案:AB18. Spark GraphX中类Graph的joinVertices方法可以( )A

5、.收集邻居顶点的顶点Id和顶点属性B.收集邻居顶点的顶点IdC.向指定顶点发送信息并聚合信息D.将顶点信息更新到图中参考答案:D19. DataFrame是一个分布式的Row对象的数据集合。( )A.正确B.错误参考答案:A20. HBase的客户端并不依赖Master,而是通过( )来获得Region位置信息,大多数客户端甚至从来不和Master通信,这种设计方式使得Master负载很小A.MasterB.RegionC.ZookeeperD.Chubby参考答案:C21. Scala中合并两个数组的方法是( )A.lineB.addC.appendD.concat参考答案:D22. 请问R

6、DD的( )操作是根据键对两个RDD进行内连接A.joinB.zipC.combineByKeyD.collect参考答案:A23. 以下算法中属于监督学习算法的是( )A.KNN算法B.逻辑回归C.随机森林D.Kmeans参考答案:ABC24. RDD的filter函数返回一个存储符合过滤条件的所有元素的新RDD。( )A.正确B.错误参考答案:A25. Scala中元组是是一种可迭代的键值对(key/value)结构。( )A.正确B.错误参考答案:B26. Dstream窗口操作中( )方法基于滑动窗口对(K,V)键值对类型的DStream中的值按K使用聚合函数func进行聚合操作,得到

7、一个新的DstreamA.windowB.countByWindowC.reduceByWindowD.reduceByKeyAndWindow参考答案:D27. Scala函数组合器中groupBy是对集合中的元素进行分组操作,结果得到的是一个Map。( )A.正确B.错误参考答案:A28. Spark只有键值对类型的RDD才能设置分区方式。( )A.正确B.错误参考答案:A29. 流计算系统的需求有( )。A.实时性B.廉价C.高性能D.高带宽E.分布式参考答案:ACE30. 阿里云RDS中一个实例可以创建多个数据库,在实例内数据库命名唯一,所有数据库都会共享该实例下的资源,如CPU、内存

8、、磁盘容量等。( )A.正确B.错误参考答案:A31. RDD的sortBy函数包含参数numPartitions,该参数决定排序后的RDD的分区个数,默认排序后的分区个数和排序之前的个数相等,即为this.partitions.size。( )T.对F.错参考答案:T32. Graph类中如果根据边数据创建图,数据需要转换成RDDEdgeED类型,应该用( )方法A.Graph(vertices,edges, defaultVertexAttr)B.Graph.fromEdges(RDDEdgeED, defaultValue)C.Graph.fromEdgeTuples(rawEdges:

9、 RDD(VertexId, VertexId), defaultValueD.GraphLoader.edgeListFile(sc,filename)参考答案:B33. 以下哪个函数可以求两个RDD差集 ( )A.unionB.substractC.intersectionD.cartesian参考答案:B34. RDD的行动操作是用于触发转换操作的操作,这个时候才会真正开始进行计算。( )A.正确B.错误参考答案:A35. Scala中( )方法返回一个列表,包含除了最后一个元素之外的其他元素A.headB.initC.tailD.last参考答案:B36. Spark Streamin

10、g中时间片也可称为批处理时间间隔(batch interval),时间片是人为地对数据进行定量的标准,作为拆分数据的依据,一个时间片的数据对应一个RDD实例。( )A.正确B.错误参考答案:A37. TF-IDF中TF指的是( )A.词频B.词在文档中出现的次数C.逆文档概率D.词在文档集中出现的概率E.词在文档集中出现的概率参考答案:AB38. Spark Streming中( )函数当被调用类型分别为(K,V)和(K,W)键值对的2个DStream时,返回类型为(K,(V,W)键值对的一个新 DStream。A.unionB.reduceC.joinD.cogroup参考答案:D39. 分

11、支限界法解旅行售货员问题时,活结点表的组织形式是( )。A.最小堆B.最大堆C.栈D.数组参考答案:A40. Hbase中Zookeeper文件记录了( )的位置A.META.表B.-ROOT-表C.RegionD.Master参考答案:B41. 以下哪个函数可以对两个RDD进行合并( )A.unionB.substractC.intersectionD.cartesian参考答案:A42. 应用于分布式数据存储与管理数据在地理上分布于多个数据中心的应用程序的数据库是哪种( )A.列族数据库B.键值数据库C.图数据库D.文档数据库参考答案:A43. 数据产生方式变革中数据产生方式是被动的主要是

12、来自哪个阶段?( )A.运营式系统阶段B.用户原创内容阶段C.感知式系统阶段参考答案:A44. RDD的union函数会将两个RDD元素合并成一个并且去处重复元素。( )A.正确B.错误参考答案:B45. PairRDD中groupBy(func)func返回key,传入的RDD的各个元素根据这个key进行分组。( )A.正确B.错误参考答案:A46. Scala列表方法中输出符号指定条件的所有元素的方法是( )A.dropB.headC.filterD.init参考答案:C47. Spark创建DataFrame对象方式有( )A.结构化数据文件B.外部数据库C.RDDD.Hive中的表参考

13、答案:ABCD48. Spark是一个( )计算框架A.快速B.分布式C.可扩展D.容错参考答案:ABCD49. UMP系统中面对多个小规模用户如何进行资源调度( )A.可以共享同一个MySQL实例B.每个用户独占一个MySQL实例C.会占用多个独立的MySQL实例D.随机分配MySQL实例参考答案:A50. UMP系通过( )来实现实现在不停机的情况下动态扩容、缩容和迁移A.Controller服务器B.Proxy服务器C.愚公系统D.Agent服务器参考答案:C51. 大数据时代预测人类移动行为的数据来源有( )。A.志愿者定位数据B.装有导航设备的出租车轨迹数据C.手机终端定位于通讯记录

14、D.社会网络签到数据参考答案:ABCD52. 关联分析又称为关联规则学习。( )A.对B.错参考答案:A53. 传统的数据处理流程的前提是( )。A.存储的数据是旧的B.存储的数据是实时的C.需要用户主动发出查询D.不需要用户主动发出查询参考答案:AC54. MLBase包括( )A.MllibB.MLIC.SparkRD.GraphX参考答案:AB55. 图(Graph)是一种复杂的非线性结构。( )T.对F.错参考答案:T56. 很多企业为了支持决策分析而构建的数据仓库系统,其中存放的大量历史数据就是( )数据。技术人员可以利用数据挖掘和OLAP分析工具从静态数据中找到对企业有价值的信息。A.动态B.存量C.实时D.静态参考答案:D57. RDD的行动操作通过某种函数将一个RDD转换为一个新的RDD,但是转换操作是懒操作,不会立刻执行计算。( )A.正确B.错误参考答案:B58. Scala中创建一个方法时经常用void表示该方法无返回值。( )T.对F.错参考答案:F59. 用户可以在Apache Mesos上运行Spark。( )T.对F.错参考答案:T60. SQL Azure体系结构层中哪层是硬件和操作系统( )A.Client LayerB.Services LayerC.Platform. LayerD.Infrastructure Layer参考答案:D

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!