南开大学21春《大数据开发技术》在线作业二满分答案_96

上传人:住在山****ck 文档编号:96807708 上传时间:2022-05-26 格式:DOCX 页数:13 大小:14.08KB
收藏 版权申诉 举报 下载
南开大学21春《大数据开发技术》在线作业二满分答案_96_第1页
第1页 / 共13页
南开大学21春《大数据开发技术》在线作业二满分答案_96_第2页
第2页 / 共13页
南开大学21春《大数据开发技术》在线作业二满分答案_96_第3页
第3页 / 共13页
资源描述:

《南开大学21春《大数据开发技术》在线作业二满分答案_96》由会员分享,可在线阅读,更多相关《南开大学21春《大数据开发技术》在线作业二满分答案_96(13页珍藏版)》请在装配图网上搜索。

1、南开大学21春大数据开发技术在线作业二满分答案1. 以下亚马逊的产品中哪个属于存储部分( )A.EC2B.EBSC.S3D.ELB参考答案:BC2. 图结构中如果任意两个顶点之间都存在有向边,那么称之为( )A.完全图B.有向完全图C.无向图D.简单图参考答案:B3. Spark GraphX中类Graph的mask方法可以( )A.反转图中所有边的方向B.按照设定条件取出子图C.取两个图的公共顶点和边作为新图,并保持前一个图顶点与边的属性D.合并边相同的属性参考答案:C4. 大数据计算处理方法主要分为两种方法,即批处理方法和流处理方法。( )A.正确B.错误参考答案:A5. 以下哪个方法可以

2、创建RDD( )A.parallelizeB.makeRDDC.textFileD.loadFile参考答案:ABC6. UMP系统借助于( )来实现高效和可靠的协同工作A.MnesiaB.LVSC.RabbitMQD.Zookeeper参考答案:D7. Dstream输出操作中( )方法在Driver中打印出DStream中数据的前12个元素。A.printB.saveAsTextFilesC.saveAsObjectFilesD.saveAsHadoopFiles参考答案:C8. 关于Map端Shuffle过程中的合并与归并,说法正确的是( )。A.两个键值对和,如果合并,会得到B.合并不

3、会改变最终结果C.两个键值对和,如果归并,会得到D.两个键值对和,如果归并,会得到参考答案:ABD9. Spark Streming中对DStream的任何操作都会转化成对底层RDDs的操作。( )A.正确B.错误参考答案:A10. UMP系通过( )来实现实现集群成员管理、元数据存储、MySQL实例管理、故障恢复、备份、迁移、扩容等功能A.Controller服务器B.Proxy服务器C.愚公系统D.Agent服务器参考答案:A11. Scala函数组合器可以对集合中的元素进行分组操作,结果得到的是一个Map的方法是( )A.filterB.flattenC.groubyD.flatmap参

4、考答案:C12. 采用贪心算法的最优装载问题的主要计算量在于将集装箱依其重量从小到大排序,故算法的时间复杂度为( )。A.O(n2n)B.O(nlogn)C.O(2n)D.O(n)参考答案:B13. GraphX中( )方法可以查询度数A.degreesB.degreeC.verticesD.edges参考答案:A14. RDD中zip操作要求两个RDD的partition数量以及元素数量都相同。( )T.对F.错参考答案:T15. UMP系通过( )来实现实现数据路由的基本功能A.Controller服务器B.Proxy服务器C.愚公系统D.Agent服务器参考答案:B16. Scala函数

5、组合器可以接收一个可以处理嵌套列表的函数,然后把返回结果连接起来的方法是( )A.mapB.foreachC.flattenD.flatmap参考答案:D17. Pentaho是最流行的开源商业智能软件之一。( )A.对B.错参考答案:A18. MLlib中Normalizer是一个转换器,它可以将多行向量输入转化为统一的形式。( )T.对F.错参考答案:T19. 最长公共子序列算法利用的算法是( )。A.分支界限法B.动态规划法C.贪心法D.回溯法参考答案:B20. 贪心选择性质是贪心算法可行的第一个基本要素,也是贪心算法与动态规划算法的主要区别。( )A.错误B.正确参考答案:B21. 算

6、法是由若干条指令组成的有穷序列,且要满足输入、输出、确定性和有限性四条性质。( )A.错误B.正确参考答案:B22. 文件块的大小和副本个数只能由系统指定。( )A.正确B.错误参考答案:B23. 实现棋盘覆盖算法利用的算法是( )。A.分治法B.动态规划法C.贪心法D.回溯法参考答案:A24. Scala是一种纯面向对象的语言,每个值都是对象。( )T.对F.错参考答案:T25. 大数据处理的关键技术主要包括:数据采集和预处理、数据存储、数据计算架构、数据分析和挖掘、数据可视化展示等。( )A.对B.错参考答案:A26. 对于不同顶点之间的信息交换,Pregel采用了( )A.远程数据读取B

7、.共享内存C.纯消息传递模型D.共享消息参考答案:C27. Hadoop在配置伪分布式时需要修改哪几个配置文件( )。A.hbase-site.xmlB.hdfs-site.xmlC.core-site.xmlD.map-site.xmlE.mapr-site.xml参考答案:BC28. 流计算系统的需求有( )。A.实时性B.廉价C.高性能D.高带宽E.分布式参考答案:ACE29. Gartner研究机构给出的大数据定义是大数据一般会涉及两种或两种以上的数据形式,它需要收集超过100TB的数据,并且是高速实时数据流; 或者是从小数据开始,但数据每年增长速率至少为60%。( )A.对B.错参考

8、答案:B30. UMP系统中面对多个小规模用户如何进行资源调度( )A.可以共享同一个MySQL实例B.每个用户独占一个MySQL实例C.会占用多个独立的MySQL实例D.随机分配MySQL实例参考答案:A31. Scala类通过子类化和基于灵活的混合类来进行扩展,作为( )的一个可靠性解决方案A.多态B.虚函数C.派生D.多重继承参考答案:D32. 美国奥巴马政府宣布投资2亿美元启动“大数据研发计划”。( )A.对B.错参考答案:A33. MLlib中用于线性回归算法的包主要有( )A.LinearRegressionWithSGDB.RidgeRegressionWithSGDC.Lass

9、oWithSGDD.LeftRegression参考答案:ABC34. ( )可解决HDFS中名称节点运行期间EditLog不断变大的问题A.NameNodeB.SecondaryNameNodeC.DataNodeD.Block参考答案:B35. 云数据库不可以满足大企业的海量数据存储需求。( )A.正确B.错误参考答案:B36. UMP系通过( )来实现实现在不停机的情况下动态扩容、缩容和迁移A.Controller服务器B.Proxy服务器C.愚公系统D.Agent服务器参考答案:C37. 递归函数意味着函数可以调用它( )A.其他函数B.主函数C.子函数D.自身参考答案:D38. 下面

10、哪种函数是回溯法中为避免无效搜索采取的策略?( )A.递归函数B.剪枝函数C.随机数函数D.搜索函数参考答案:B39. Spark取代Hadoop仅仅是取代MapReduce这种计算框架,Spark可以取代HDFS吗。( )T.对F.错参考答案:F40. 以下哪个是Scala的数据类型( )A.AnyB.NULLC.NothingD.AnyRef参考答案:ABCD41. 哪些属于数据可视化的重要作用( )A.分析数据B.采集数据C.辅助理解数据D.观测跟踪数据参考答案:ACD42. HDFS中SecondaryNameNode可减少( )重启的时间A.NameNodeB.SecondaryNa

11、meNodeC.DataNodeD.Block参考答案:A43. 回溯法解旅行售货员问题时的解空间树是( )。A.子集树B.排列树C.深度优先生成树D.广度优先生成树参考答案:A44. 数据集成(Data Integration)是将多个数据源中的数据合并存放到一个一致的数据存储中,数据源可以包含多个数据库、数据立方体或一般文件。( )A.对B.错参考答案:A45. 键值对RDD由一组组的键值对组成,这些RDD被称为PairRDD。( )A.正确B.错误参考答案:A46. MongoDB将数据存储为一个( )A.关系B.属性C.字段D.文档参考答案:D47. Scala列表中last返回一个列

12、表,包含除了第一个元素之外的其他元素。( )A.正确B.错误参考答案:B48. Hbase中Zookeeper提供了( )A.分布式同步B.组服务C.域名服务D.配置维护参考答案:ABCD49. HDFS的命名空间包含( )A.节点B.目录C.文件D.块参考答案:BCD50. 使用分治法求解不需要满足的条件是( )。A.子问题必须是一样的B.子问题不能够重复C.子问题的解可以合并D.原问题和子问题使用相同的方法解参考答案:A51. MLBase包括( )A.MllibB.MLIC.SparkRD.GraphX参考答案:AB52. RDD的sortBy函数包含参数numPartitions,该参

13、数决定排序后的RDD的分区个数,默认排序后的分区个数和排序之前的个数相等,即为this.partitions.size。( )T.对F.错参考答案:T53. 聚类分析(Cluster analysis)简称聚类(Clustering),是把数据对象划分成子集(类)的过程,每个子集称为一个簇(Cluster)。( )A.对B.错参考答案:A54. ( )是Spark的核心,提供底层框架及核心支持A.Spark CoreB.Spark SQLC.Spark StreamingD.Mllib参考答案:A55. 决策树是( )的常用算法A.分类B.聚类C.降维D.回归参考答案:AD56. RDD的ca

14、rtesian函数是笛卡尔积,也就是将两个集合的元素两两组合成一组。( )A.正确B.错误参考答案:A57. Scala是Scalable Language的简写,是一门多范式的编程语言,设计初衷是不包括面向对象编程的特性。( )A.正确B.错误参考答案:B58. 流计算是针对流数据的实时计算,可以应用在( )场景中A.广告投放B.气候模拟预测C.机器翻译D.推荐系统参考答案:ABCD59. spark-submit配置项中( )表示Driver程序使用的内存大小A.-driver-memory MEMB.-executor-memory MEMC.-total-executor-cores NUMD.-executor-coures NUM参考答案:A60. RDD的行动操作是用于触发转换操作的操作,这个时候才会真正开始进行计算。( )A.正确B.错误参考答案:A

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!