南开大学21秋《大数据开发技术》平时作业2-001答案参考54

上传人:住在****她 文档编号:92547390 上传时间:2022-05-18 格式:DOCX 页数:11 大小:13.48KB
收藏 版权申诉 举报 下载
南开大学21秋《大数据开发技术》平时作业2-001答案参考54_第1页
第1页 / 共11页
南开大学21秋《大数据开发技术》平时作业2-001答案参考54_第2页
第2页 / 共11页
南开大学21秋《大数据开发技术》平时作业2-001答案参考54_第3页
第3页 / 共11页
资源描述:

《南开大学21秋《大数据开发技术》平时作业2-001答案参考54》由会员分享,可在线阅读,更多相关《南开大学21秋《大数据开发技术》平时作业2-001答案参考54(11页珍藏版)》请在装配图网上搜索。

1、南开大学21秋大数据开发技术平时作业2-001答案参考1. RDD中join操作最后只返回两个RDD都存在的键的连接结果。( )A.正确B.错误参考答案:A2. 数据采集,又称数据获取,是大数据生命周期的第一个环节,通过RFID.射频识别技术,传感器,交互型社交网络,移动互联网等方式获得的各种类型的结构化、半结构化及非结构化的海量数据。( )A.对B.错参考答案:A3. MapReduce的main函数中设置输出类型的方法有( )。A.setOutputKeyClassB.setOutputClassC.setOutputValueClassD.setKeyValueClass参考答案:AC4

2、. HDFS读数据过程中( )具体实现了FileSystemA.DistributedFileSystemB.GFSSystemC.FileSystemD.HDFSSystem参考答案:A5. 以下哪个函数可以求两个RDD的笛卡尔积( )A.unionB.substractC.intersectionD.cartesian参考答案:D6. RDD的subtract用于用于将前一个RDD中在后一个RDD出现的元素删除。( )A.正确B.错误参考答案:A7. RDD是一个可读写的数据结构。( )T.对F.错参考答案:F8. Spark中DataFrame的( )方法是进行连接查询A.whereB.

3、joinC.limitD.apply参考答案:B9. Scala 使用( )关键字来继承一个类A.extendsB.overrideC.extendD.overrides参考答案:A10. Scala函数组合器可以通过一个函数重新计算列表中所有元素,没有返回值。( )A.正确B.错误参考答案:B11. Hadoop启动所有进程的命令为( )。A.all-start.shB.all-start.exeC.start-all.shD.start-all.exe参考答案:C12. ( )是Spark的数据挖掘算法库A.Spark CoreB.BlinkDBC.GraphXD.Mllib参考答案:D1

4、3. 问题的最优子结构性质是该问题不可用动态规划算法或贪心算法求解的关键特征。( )A.错误B.正确参考答案:A14. 关于Strom中Bolt说法错误的是( )。A.Bolt可以执行过滤、函数操作、Join、操作数据库等任何操作B.Bolt是一个被动的角色,Spout是一个主动的角色C.Bolt不仅可以处理Tuple还可以创建新的TupleD.Bolt是Streams的状态转换过程的抽象含义参考答案:C15. 关于分布式并行编程,以下说法错误的是( )。A.“摩尔定律”,CPU性能大约每隔12个月翻一番B.“摩尔定律”逐渐失效后,人们开始借助于分布式并行编程来提高程序性能C.分布式程序运行在

5、大规模计算机集群上,可以并行执行大规模数据处理任务,从而获得海量的计算能力D.谷歌公司最先提出了分布式并行编程模型MapReduce参考答案:A16. Mllib中metrics.fMeasureByThreshold表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案:C17. 数据集成(Data Integration)是将多个数据源中的数据合并存放到一个一致的数据存储中,数据源可以包含多个数据库、数据立方体或一般文件。( )A.对B.错参考答案:A18. Mllib中线性会馆算法中的参数intercept表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征

6、或者偏差特征D.Lasso和ridge的正规化参数参考答案:C19. MLlib 中可以调用mllib.tree.DecisionTree 类中的静态方法( )训练回归树A.trainClassifierB.trainRegressorC.LogisticRegressionModelD.LabeledPoint参考答案:B20. Spark Streming中( )函数当被调用类型分别为(K,V)和(K,W)键值对的2个DStream时,返回类型为(K,(V,W)键值对的一个新 DStream。A.unionB.reduceC.joinD.cogroup参考答案:D21. Scala中集合连

7、接时如果元素有重复的就会移除重复的元素。( )A.正确B.错误参考答案:A22. Scala列表方法中丢弃前n个元素,并返回新列表的方法是( )A.dropB.headC.filterD.init参考答案:A23. Hbase中Zookeeper文件记录了( )的位置A.META.表B.-ROOT-表C.RegionD.Master参考答案:B24. 哈弗曼编码的贪心算法所需的计算时间为( )。A.O(n2n)B.O(nlogn)C.O(2n)D.O(n)参考答案:B25. 从分治法的一般设计模式可以看出,用它设计出的程序一般是递归算法。( )A.错误B.正确参考答案:B26. RDD的行动操

8、作通过某种函数将一个RDD转换为一个新的RDD,但是转换操作是懒操作,不会立刻执行计算。( )A.正确B.错误参考答案:B27. Scala中元组是是一种可迭代的键值对(key/value)结构。( )A.正确B.错误参考答案:B28. 用分支限界法设计算法的第二步是( )。A.针对所给问题,定义问题的解空间(对解进行编码)B.确定易于搜索的解空间结构(按树或图组织解)C.以广度优先或以最小耗费(最大收益)优先的方式搜索解空间D.在搜索过程中用剪枝函数避免无效搜索参考答案:B29. spark-submit配置项中( )表示启动的executor数量A.-num-executors NUMB.

9、-executor-memory MEMC.-total-executor-cores NUMD.-executor-coures NUM参考答案:A30. 对于不同顶点之间的信息交换,Pregel采用了( )A.远程数据读取B.共享内存C.纯消息传递模型D.共享消息参考答案:C31. HDFS中当一些数据节点不可用时,会导致一些数据块的副本数量( )冗余因子A.大于B.小于C.等于D.大于等于参考答案:B32. 感知式系统的广泛使用 人类社会数据量第三次大的飞跃最终导致了大数据的产生。( )A.正确B.错误参考答案:A33. Scala函数组合器中groupBy是对集合中的元素进行分组操作,

10、结果得到的是一个Map。( )A.正确B.错误参考答案:A34. 内存级分析适用于总数据量在集群内存的最大级别以内的情况,使用内部数据库技术,适合实时业务分析需求。( )A.对B.错参考答案:A35. ( )可解决HDFS中名称节点运行期间EditLog不断变大的问题A.NameNodeB.SecondaryNameNodeC.DataNodeD.Block参考答案:B36. 最长公共子序列算法利用的算法是( )。A.分支界限法B.动态规划法C.贪心法D.回溯法参考答案:B37. UMP系统的哪个功能实现了负载均衡( )A.读写分离B.资源隔离C.资源调度D.可扩展参考答案:A38. 应用于分

11、布式数据存储与管理数据在地理上分布于多个数据中心的应用程序的数据库是哪种( )A.列族数据库B.键值数据库C.图数据库D.文档数据库参考答案:A39. MapReduce将输入文件切分成M个分片,Master将其中( )个分片分给处于空闲状态的N个Worker来处理。A.MB.NC.M-1D.N-1参考答案:A40. Hbase中缓存刷新,每次刷写都生成一个新的StoreFile文件,因此,每个Store包含多个StoreFile文件。( )A.正确B.错误参考答案:A41. 决策树是( )的常用算法A.分类B.聚类C.降维D.回归参考答案:AD42. Dstream输出操作中( )方法将DS

12、tream中的内容按对象序列化并且以SequenceFile的格式保存A.printB.saveAsTextFilesC.saveAsObjectFilesD.saveAsHadoopFiles参考答案:D43. 阿里云RDS中一个实例可以创建多个数据库,在实例内数据库命名唯一,所有数据库都会共享该实例下的资源,如CPU、内存、磁盘容量等。( )A.正确B.错误参考答案:A44. 很多企业为了支持决策分析而构建的数据仓库系统,其中存放的大量历史数据就是( )数据。技术人员可以利用数据挖掘和OLAP分析工具从静态数据中找到对企业有价值的信息。A.动态B.存量C.实时D.静态参考答案:D45. 流

13、计算的采集阶段需要保证( )。A.实时性B.大量C.低延迟D.稳定可靠参考答案:ACD46. 传统的数据处理流程的前提是( )。A.存储的数据是旧的B.存储的数据是实时的C.需要用户主动发出查询D.不需要用户主动发出查询参考答案:AC47. RDD的mapPartitions操作会导致Partitions数量的变化。( )A.正确B.错误参考答案:B48. ( )和( ),它们把原数据变换或投影到较小的空间。A.小波变换B.中心化变换C.主成分分析D.对数变换参考答案:AC49. 关系数据库的关键特性包括完善的事务机制和高效的查询机制。( )A.正确B.错误参考答案:A50. Mllib中metrics.roc表示( )指标A.准确度B.召回率C.F值D.ROC曲线参考答案:D

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!