南开大学21春《大数据开发技术》在线作业二满分答案64

上传人：住在山****ck 文档编号：96714098 上传时间：2022-05-26 格式：DOCX 页数：13 大小：14.10KB

收藏版权申诉举报下载

第1页 / 共13页

第2页 / 共13页

第3页 / 共13页

下载文档到电脑，查找使用更方便

10 积分

下载资源

资源描述：

《南开大学21春《大数据开发技术》在线作业二满分答案64》由会员分享，可在线阅读，更多相关《南开大学21春《大数据开发技术》在线作业二满分答案64（13页珍藏版）》请在装配图网上搜索。

1、南开大学21春大数据开发技术在线作业二满分答案1. 早期对于流计算的研究多数是基于对传统数据库处理的流式化，即实时数据库，很少研究流计算框架。( )A.正确B.错误参考答案：A2. 快速排序算法的性能取决于划分的对称性。( )A.错误B.正确参考答案：B3. Spark Streming中DStream可以通过外部数据源(Kafka，Flume，Twitter等)来获取，也可以通过现有DStream的高级操作(Transformation操作)获得。( )A.正确B.错误参考答案：A4. ( )可解决HDFS中名称节点运行期间EditLog不断变大的问题A.NameNodeB.Secondar

2、yNameNodeC.DataNodeD.Block参考答案：B5. 图是一种数据元素间为( )关系的数据结构A.多对多B.一对一C.一对多D.多对一参考答案：A6. 下列随机算法中运行时有时候成功有时候失败的是( )。A.数值概率算法B.舍伍德算法C.拉斯维加斯算法D.蒙特卡罗算法参考答案：C7. Scala源代码被编译成( )字节码，所以它可以运行于JVM之上A.SparkB.ScalaC.JavaD.JDK参考答案：C8. 贪心选择性质是贪心算法可行的第一个基本要素，但不是贪心算法与动态规划算法的主要区别。( )A.错误B.正确参考答案：A9. 按照数据量的大小，可将数据分析分为内存级数

3、据分析、Bl级数据分析和海量级数据分析。( )A.对B.错参考答案：A10. MLBase包括( )A.MllibB.MLIC.SparkRD.GraphX参考答案：AB11. PairRDD中( )函数可以合并具有相同键的值A.mapValuesB.groupByC.groupByKeyD.reduceByKey参考答案：A12. 内存级分析适用于总数据量在集群内存的最大级别以内的情况，使用内部数据库技术，适合实时业务分析需求。( )A.对B.错参考答案：A13. 大数据处理的关键技术主要包括：数据采集和预处理、数据存储、数据计算架构、数据分析和挖掘、数据可视化展示等。( )A.对B.错参考

4、答案：A14. 以下不可以使用分治法求解的是( )。A.棋盘覆盖问题B.选择问题C.归并排序D.0/1背包问题参考答案：D15. 图(Graph)是一种复杂的非线性结构。( )T.对F.错参考答案：T16. Scala 集合分为可变的和不可变的集合。( )A.正确B.错误参考答案：A17. UMP系统中面对多个小规模用户如何进行资源调度( )A.可以共享同一个MySQL实例B.每个用户独占一个MySQL实例C.会占用多个独立的MySQL实例D.随机分配MySQL实例参考答案：A18. PairRDD中mapValues是针对键值对(Key，Value)类型的数据中的key和Value进行Map

5、操作。( )T.对F.错参考答案：F19. 从分治法的一般设计模式可以看出，用它设计出的程序一般是递归算法。( )A.错误B.正确参考答案：B20. 大数据的特征是( )。A.数据体量大B.数据产生速度快C.数据种类多D.数据计算快E.数据价值高参考答案：ABCE21. 可视化工具包括( )。A.ExcelB.Google ChartC.GephiD.ppt参考答案：ABC22. Dstream窗口操作中( )方法基于滑动窗口对(K，V)键值对类型的DStream中的值按K使用聚合函数func进行聚合操作，得到一个新的DstreamA.windowB.countByWindowC.reduce

6、ByWindowD.reduceByKeyAndWindow参考答案：D23. Hadoop在配置伪分布式时需要修改哪几个配置文件( )。A.hbase-site.xmlB.hdfs-site.xmlC.core-site.xmlD.map-site.xmlE.mapr-site.xml参考答案：BC24. 最长公共子序列算法利用的算法是( )。A.分支界限法B.动态规划法C.贪心法D.回溯法参考答案：B25. SQL Azure体系结构层中哪层将用户的请求转化为Azure内部的TDS格式流( )A.Client LayerB.Services LayerC.Platform. LayerD.

7、Infrastructure Layer参考答案：A26. Dstream窗口操作中( )方法基于滑动窗口对源DStream中的元素进行聚合操作，得到一个新的DstreamA.windowB.countByWindowC.reduceByWindowD.reduceByKeyAndWindow参考答案：C27. Scala列表方法中将函数应用到列表的所有元素的方法是( )A.filterB.foreachC.mapD.mkString参考答案：B28. 请问RDD的( )操作用于将相同键的数据聚合A.joinB.zipC.combineByKeyD.collect参考答案：C29. 大数据智能

8、感知层：主要包括( )及软硬件资源接入系统。A.数据传感体系B.网络通信体系C.传感适配体系D.智能识别体系参考答案：ABCD30. Spark取代Hadoop仅仅是取代MapReduce这种计算框架，Spark可以取代HDFS吗。( )T.对F.错参考答案：F31. SparkContext类中makeRDD方法不可将单机数据创建为分布式RDD。( )A.正确B.错误参考答案：B32. 实现棋盘覆盖算法利用的算法是( )。A.分治法B.动态规划法C.贪心法D.回溯法参考答案：A33. ( )可以解决图计算问题A.Spark CoreB.BlinkDBC.GraphXD.Mllib参考答案：C

9、34. 大型图计算通常是由一个集群完成的，集群环境中执行远程数据读取会有较高的延迟。( )A.正确B.错误参考答案：A35. RDD的( )操作通常用来划分单词A.filterB.unionC.flatmapD.mapPartitions参考答案：C36. Scala中如果函数无返回值，则函数返回类型为( )A.NULLB.VoidC.NothingD.Unit参考答案：D37. PairRDD可以通过( )获得仅包含键的RDDA.keyB.keysC.valueD.values参考答案：B38. Mllib中线性会馆算法中的参数numIterations表示( )A.要运行的迭代次数B.梯度

10、下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和ridge的正规化参数参考答案：A39. TF-IDF中TF指的是( )A.词频B.词在文档中出现的次数C.逆文档概率D.词在文档集中出现的概率E.词在文档集中出现的概率参考答案：AB40. 以下哪个函数可以对两个RDD进行合并( )A.unionB.substractC.intersectionD.cartesian参考答案：A41. 静态数据采取( )计算模式A.批量B.实时C.大数据D.动态参考答案：A42. MLlib中Normalizer是一个转换器，它可以将多行向量输入转化为统一的形式。( )T.对F.错参考答案：T43

11、. MapReduce中( )会周期性地通过“心跳”将本节点上资源的使用情况和任务的运行进度汇报给JobTracker，同时接收JobTracker 发送过来的命令并执行相应的操作。A.ClientB.Job TrackerC.TaskD.Task Tracker参考答案：D44. Spark Streming中对DStream的任何操作都会转化成对底层RDDs的操作。( )A.正确B.错误参考答案：A45. HDFS读数据过程中( )具体实现了FileSystemA.DistributedFileSystemB.GFSSystemC.FileSystemD.HDFSSystem参考答案：A4

12、6. Mllib中线性会馆算法中的参数reParam表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和ridge的正规化参数参考答案：D47. GraphX中( )方法可以查询顶点个数A.numVerticesB.numEdgesC.verticesD.edges参考答案：A48. 用分支限界法设计算法的第二步是( )。A.针对所给问题，定义问题的解空间(对解进行编码)B.确定易于搜索的解空间结构(按树或图组织解)C.以广度优先或以最小耗费(最大收益)优先的方式搜索解空间D.在搜索过程中用剪枝函数避免无效搜索参考答案：B49. Spark中运行

13、交互式SQL查询的大规模并行查询引擎是( )A.Spark CoreB.Spark SQLC.BlinkDBD.Mllib参考答案：C50. MapReduce将输入文件切分成M个分片，Master将其中( )个分片分给处于空闲状态的N个Worker来处理。A.MB.NC.M-1D.N-1参考答案：A51. UMP系通过( )来实现实现在不停机的情况下动态扩容、缩容和迁移A.Controller服务器B.Proxy服务器C.愚公系统D.Agent服务器参考答案：C52. MLlib 中可以调用mllib.tree.DecisionTree 类中的静态方法( )训练回归树A.trainClass

14、ifierB.trainRegressorC.LogisticRegressionModelD.LabeledPoint参考答案：B53. MspReduce中的Map和Reduce函数使用( )进行输入输出。A.key/value对B.随机数值C.其他计算结果参考答案：A54. 聚类分析(Cluster analysis)简称聚类(Clustering)，是把数据对象划分成子集(类)的过程，每个子集称为一个簇(Cluster)。( )A.对B.错参考答案：A55. BigTable采用( )作为底层数据存储A.HDFSB.GFSC.HbaseD.传统文件系统参考答案：B56. Scala中元

15、组是是一种可迭代的键值对(key/value)结构。( )A.正确B.错误参考答案：B57. 计算一个算法时间复杂度通常可以计算循环次数、基本操作的频率或计算步。( )A.错误B.正确参考答案：B58. MLlib中进行数据标准化的方式有( )A.NormalizerB.StandardC.StandardScaleerD.MinMaxScaler参考答案：ACD59. Scala列表方法中丢弃前n个元素，并返回新列表的方法是( )A.dropB.headC.filterD.init参考答案：A60. 很多企业为了支持决策分析而构建的数据仓库系统，其中存放的大量历史数据就是( )数据。技术人员可以利用数据挖掘和OLAP分析工具从静态数据中找到对企业有价值的信息。A.动态B.存量C.实时D.静态参考答案：D

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

南开大学21春《大数据开发技术》在线作业二满分答案64

最新文档

相关资源

相关搜索