南开大学22春《大数据开发技术》综合作业一答案参考98

上传人：住在****他文档编号：88492219 上传时间：2022-05-11 格式：DOCX 页数：13 大小：13.91KB

收藏版权申诉举报下载

第1页 / 共13页

第2页 / 共13页

第3页 / 共13页

下载文档到电脑，查找使用更方便

10 积分

下载资源

资源描述：

《南开大学22春《大数据开发技术》综合作业一答案参考98》由会员分享，可在线阅读，更多相关《南开大学22春《大数据开发技术》综合作业一答案参考98（13页珍藏版）》请在装配图网上搜索。

1、南开大学22春大数据开发技术综合作业一答案参考1. 图的结构通常表示为：G(V，E)，其中，E是图G中( )A.顶点B.顶点的集合C.边D.边的集合参考答案：D2. ( )可解决HDFS中名称节点运行期间EditLog不断变大的问题A.NameNodeB.SecondaryNameNodeC.DataNodeD.Block参考答案：B3. HDFS中当一些数据节点不可用时，会导致一些数据块的副本数量( )冗余因子A.大于B.小于C.等于D.大于等于参考答案：B4. 分布式离线分析可以实现秒级别的实时分析响应。( )A.正确B.错误参考答案：B5. 利用概率的性质计算近似值的随机算法是数值概率算

2、法，运行时以一定的概率得到正确解的随机算法是蒙特卡罗算法。( )A.错误B.正确参考答案：B6. 下列算法中通常以深度优先方式系统搜索问题解的是( )。A.备忘录法B.动态规划法C.贪心法D.回溯法参考答案：D7. Spark中DataFrame的( )方法是进行排序查询A.order byB.group byC.select byD.sort by参考答案：A8. Pentaho是最流行的开源商业智能软件之一。( )A.对B.错参考答案：A9. Scala 列表与数组非常相似，列表的所有元素可具有不同的类型。( )T.对F.错参考答案：F10. 贪心算法的基本要素是贪心选择质和最优子结构性质

3、。( )A.错误B.正确参考答案：B11. 在Storm的工作流程中，对于Supervisor说法错误的是( )。A.Supervisor会去Zookeeper集群上认领自己的TaskB.Supervisor节点首先将提交的Topology进行分片，分成一个个Task，分配给相应的NimbusC.Supervisor会将Task和相关的信息提交到Zookeeper集群上D.Supervisor会通知自己的Worker进程进行Task的处理参考答案：B12. 以下哪个函数可以对RDD进行去重( )A.sortByB.filterC.distinctD.intersection参考答案：C13.

4、( )是Spark的数据挖掘算法库A.Spark CoreB.BlinkDBC.GraphXD.Mllib参考答案：D14. 我们既要通过政府主导，又要发挥社会的力量，来共同推进医疗大数据的应用。( )A.对B.错参考答案：A15. Scala列表中last返回列表最后一个元素。( )A.正确B.错误参考答案：A16. 以下哪种数据库适合于批量数据处理和即席查询( )A.MySQLB.OracleC.HbaseD.NosSQL参考答案：C17. Hbase中Zookeeper提供了( )A.分布式同步B.组服务C.域名服务D.配置维护参考答案：ABCD18. spark-submit配置项中(

5、 )表示Driver程序使用的内存大小A.-driver-memory MEMB.-executor-memory MEMC.-total-executor-cores NUMD.-executor-coures NUM参考答案：A19. 最长公共子序列算法利用的算法是( )。A.分支界限法B.动态规划法C.贪心法D.回溯法参考答案：B20. 哈弗曼编码的贪心算法所需的计算时间为( )。A.O(n2n)B.O(nlogn)C.O(2n)D.O(n)参考答案：B21. Hadoop在配置伪分布式时需要修改哪几个配置文件( )。A.hbase-site.xmlB.hdfs-site.xmlC.co

6、re-site.xmlD.map-site.xmlE.mapr-site.xml参考答案：BC22. Spark中DataFrame的查询操作也是一个懒操作，仅仅生成一个查询计划，只有触发Action操作才会进行计算并返回查询结果。( )A.正确B.错误参考答案：A23. RDD是一个可读写的数据结构。( )T.对F.错参考答案：F24. 使用Amazon云环境部署Hadoop的说法中错误的是( )。A.Hadoop不仅可以运行在企业内部的集群中，也可以运行在云计算环境中B.Hadoop自带有一套脚本，用于在EC2上面运行HadoopC.在EC2上运行Hadoop尤其适用于一些工作流D.Ama

7、zon EC2为Hadoop提供了存储服务参考答案：D25. Gartner研究机构给出的大数据定义是大数据一般会涉及两种或两种以上的数据形式，它需要收集超过100TB的数据，并且是高速实时数据流; 或者是从小数据开始，但数据每年增长速率至少为60%。( )A.对B.错参考答案：B26. Spark创建DataFrame对象方式有( )A.结构化数据文件B.外部数据库C.RDDD.Hive中的表参考答案：ABCD27. Scala 集合分为可变的和不可变的集合。( )A.正确B.错误参考答案：A28. 图结构中如果任意两个顶点之间都存在有向边，那么称之为( )A.完全图B.有向完全图C.无向图

8、D.简单图参考答案：B29. 亚马逊的云服务提供了多达几十种服务，涵盖了IaaS、PaaS、SaaS这三层。( )A.正确B.错误参考答案：A30. DataFrame是一个分布式的Row对象的数据集合。( )A.正确B.错误参考答案：A31. 以下哪个函数可以求两个RDD的笛卡尔积( )A.unionB.substractC.intersectionD.cartesian参考答案：D32. 实现合并排序利用的算法是( )。A.分治策略B.动态规划法C.贪心法D.回溯法参考答案：A33. Mllib中metrics.fMeasureByThreshold表示( )指标A.准确度B.召回率C.F

9、值D.ROC曲线参考答案：C34. Scala中如果函数无返回值，则函数返回类型为( )A.NULLB.VoidC.NothingD.Unit参考答案：D35. SparkContext类中makeRDD方法不可将单机数据创建为分布式RDD。( )A.正确B.错误参考答案：B36. 实现大整数的乘法是利用( )的算法。A.贪心法B.动态规划法C.分治策略D.回溯法参考答案：C37. 递归函数意味着函数可以调用它( )A.其他函数B.主函数C.子函数D.自身参考答案：D38. RDD的filter函数返回一个存储符合过滤条件的所有元素的新RDD。( )A.正确B.错误参考答案：A39. MLli

10、b中用于线性回归算法的包主要有( )A.LinearRegressionWithSGDB.RidgeRegressionWithSGDC.LassoWithSGDD.LeftRegression参考答案：ABC40. Graph类中如果要根据边数据创建图，边数据需要加载为二元组，可以选择是否对边分区，应该用( )方法A.Graph(vertices,edges, defaultVertexAttr)B.Graph.fromEdges(RDDEdgeED, defaultValue)C.Graph.fromEdgeTuples(rawEdges: RDD(VertexId, VertexId),

11、 defaultValue,)D.GraphLoader.edgeListFile(sc,filename)参考答案：C41. 下列算法中通常以自底向上的方式求解最优解的是( )。A.备忘录法B.动态规划法C.贪心法D.回溯法参考答案：B42. 键值对RDD由一组组的键值对组成，这些RDD被称为PairRDD。( )A.正确B.错误参考答案：A43. 阿里云RDS中一个实例可以创建多个数据库，在实例内数据库命名唯一，所有数据库都会共享该实例下的资源，如CPU、内存、磁盘容量等。( )A.正确B.错误参考答案：A44. 数据集成(Data Integration)是将多个数据源中的数据合并存放到

12、一个一致的数据存储中，数据源可以包含多个数据库、数据立方体或一般文件。( )A.对B.错参考答案：A45. RDD的map操作不会改变RDD的分区数目。( )A.正确B.错误参考答案：A46. RDD是一个( )的数据结构A.可读写B.只读的C.容错的D.可进行并行操作的参考答案：BCD47. 以下哪个不是Scala的数据类型( )A.IntB.Short IntC.LongD.Any参考答案：B48. MLlib 中可以调用mllib.tree.DecisionTree 类中的静态方法( )训练回归树A.trainClassifierB.trainRegressorC.LogisticReg

13、ressionModelD.LabeledPoint参考答案：B49. ( )可以解决图计算问题A.Spark CoreB.BlinkDBC.GraphXD.Mllib参考答案：C50. Hbase中缓存刷新，每次刷写都生成一个新的StoreFile文件，因此，每个Store包含多个StoreFile文件。( )A.正确B.错误参考答案：A51. Storm中如果要让每一个Task都会收到所有的Tuple，应该采用哪种Stream Groupings( )。A.ShuffleGroupingB.AllGroupingC.GlobalGroupingD.FiedlsGrouping参考答案：B5

14、2. Scala函数组合器可以通过一个函数重新计算列表中所有元素，并且返回一个相同数目元素的新列表的方法是( )A.mapB.foreachC.flattenD.flatmap参考答案：A53. HDFS中的NameNode的EditLog用于维护文件系统树以及文件树中所有的文件和文件夹的元数据。( )A.正确B.错误参考答案：B54. HDFS在设计上采取了多种机制保证在硬件出错的环境中实现数据的完整性。( )A.正确B.错误参考答案：A55. RDD的sortBy函数包含参数numPartitions，该参数决定排序后的RDD的分区个数，默认排序后的分区个数和排序之前的个数相等，即为this.partitions.size。( )T.对F.错参考答案：T56. Scala函数组合器中foreach和map类似，有返回值。( )A.正确B.错误参考答案：B57. 下列属于传统统计学展示方法的是( )。A.柱状图B.饼状图C.曲线图D.网络图参考答案：ABC58. Scala是一种纯面向对象的语言，每个值都是对象。( )T.对F.错参考答案：T59. Scala在子类中重写超类的抽象方法时，需要使用override关键字。( )T.对F.错参考答案：F60. RDD中zip操作要求两个RDD的partition数量以及元素数量都相同。( )T.对F.错参考答案：T

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

南开大学22春《大数据开发技术》综合作业一答案参考98

最新文档

相关资源

相关搜索