hadoop习题册

上传人：仙*** 文档编号：33453313 上传时间：2021-10-17 格式：DOC 页数：10 大小：69.01KB

收藏版权申诉举报下载

第1页 / 共10页

第2页 / 共10页

第3页 / 共10页

下载文档到电脑，查找使用更方便

10 积分

下载资源

资源描述：

《hadoop习题册》由会员分享，可在线阅读，更多相关《hadoop习题册（10页珍藏版）》请在装配图网上搜索。

1、第一章大数据概述1.互联网的发展分为_个阶段。A一B.三C.二D.四2.下列不属于大数据特点的是（）。A.种类和来源多样化B.数据量巨大 C.分析处理速度快D.价值密度高3.互联网发展的第_个时代为智能互联网。A.3.0B.4.0C.1.0D.2.04.关于大数据叙述不正确的一项是（）。A.大数据=“海量数据”+“复杂类型的数据”B.大数据是指在一定时间对内容抓取、管理和处理的数据集合C.大数据可以及时有效的分析海量的数据D.数据包括结构化数据、半结构化数据、结构化数据。5.下列数据换算正确的一项为（）。A.1YB=1024EBB.1TB=1024MBC.1PB=1024EBD.102

2、4ZB=1EB6.结构化数据的表现形式为_。A.文本B.视图C.二维表 D.查询7.结构化的数据，先有_,再有_.A.数据结构B.结构数据C.内容结构D.结构内容8.结构化的数据，先有_,再有_.A.数据结构B.结构数据C.内容结构D.结构内容9.软件是大数据的_。A.核心B.部件C.引擎D.集合10.大数据技术不包括( )。A.数据计算B.数据存储C.数据冗余D.数据采集11.大数据的特点不包括（）。A.数量大B.类型少C.速度快D.价值高第二章 Hadoop简介1.下列对云栈架构层数不正确的一项为_。A.三层云栈架构B.四层云栈架构C.五层云栈架构D.六层云栈架构2.下列_不是云计算

3、三层架构的概括。A.IaaSB.PaaSC.SaaPD.SaaS3.IaaS基础设施及服务可以称为_。A.弹性计算B.效用计算C.有效计算D.随需应用4.四层云栈模式，是将三层模式中的_进行分解，分为两层，一层为硬件层，一层为虚拟资源层。A.硬件部分B.虚拟化部分C.基础设施D.平台5.五层云栈模式，第五层为_。A.固件/硬件层B.云基本资源层C.云应用程序层D.云软件环境层6.大数据是_的应用。A.人工智能B.云计算C.物联网D.互联网7.hadoop_中第一阶段的输出可以作为下一阶段的输入。A.应用场景B.分布式计算C.分阶段计算D.高效处理8. .hadoop_中将海量数据分割于多个节点

4、，由每个节点并行计算，将得到的结果归并到输出。A.应用场景B.分布式计算C.分阶段计算D.高效处理9.下列选项中不是hadoop特点的是_。A.可靠性B.扩容能力C.高效率D.成本高10.hadoop能可靠地存储和处理_字节数据。A.TBB.PBC.YBD.ZB11.hadoop集群可以用_种模式进行。A.四B.三C.五D.二12.hadoop集群不可以在_进行。A.联机模式B.单机模式C.虚拟分布模式D.完全分布模式13._模式：hadoop安装时的默认模式，不对配置文件进行修改。A.联机B.单机C.虚拟分布D.完全分布14._模式：在一台机器上用软件模拟多节点集群。A.联机B.单机C.虚拟

5、分布D.完全分布15._模式：Hadoop安装运行在多台主机上，构成一个真实的hadoop集群，在所有的节点上都安装JDK和hadoop，相互通过高速局域网连接。A.联机B.单机C.虚拟分布D.完全分布16.完全分布式，各节点之间设置_，将各个从节点生成的公钥添加到主节点的信任列表。A.SSHB.JDKC.hadoopD.HDFS17.完全分布式，不需要修改的配置文件为_。A.core-site.xmlB.hdfs-site.xmlC.hadoop-env.shD.mapred-site.xml18.HDFS架构中有两个_。A.DataNodesB. JobTrackeC.NameNodeD.

6、SecondayNameNode19.下列不是hadoop核心组件的是_。A.JobTrackerB.TaskTrackerC.HDFSD.Hbase20._存储Hadoop集群中所有存储节点上的文件，为海量提供存储。A.JobTrackerB.TaskTrackerC.HDFSD.HBase第四章 HDFS文件系统1._是指跨多台计算或服务器的文件或文件夹，数据存储在多台机器而不是单台机器上。A.分布式存储B.分页式存储C.链式存储D.顺序存储2.下列关于hadoop系统架构叙述不正确的一项为_。A.由一台Intel x86处理器的服务器或PC机组成。B.部署在低成本Intel/linux硬

7、件平台上。C.通过高速局域网构成一个计算集群。D.各个节点上运行Linux操作系统。3.主节点程序_。A.NameNodeB.DataNodeC.SecondaryNameNodeD.Jobtracker4. 从节点程序_。A.NameNodeB.DataNodeC.SecondaryNameNodeD.Jobtracker5.HDFS结构不包括_。A.Master体系结构B.主从服务器C.元数据服务器D.存储服务器6.HDFS分布式文件系统的特点为_。A.半透明性B.低可用性C.可扩展性D.支持一个应用程序并发访问7.HDFS中的block默认保存_份。A.3B.2C.1D.不确定8.下列_

8、通常与NameNode在一个节点启动。A.SecondaryNameNodeB.DataNodeC.TaskTrackerD.Jobtracker9.HDFS每个文件被划分成_大小的多个block，属于同一个文件的blocks分散存储在不同DataNode上。A.32MBB.64MBC.128MBD.无法确定10.下面哪个程序负责HDFS 数据存储？（）A.NameNodeB.JobTrackerC.DataNodeD.SecondaryNameNodeE.tasktracker11.NameNode是HDFS系统中的管理局节点，它管理文件系统的命名空间，记录每个文件数据块在DataNode

9、上的位置和副本信息、协调客户端对文件的访问、记录命名空间内的改动和空间本身属性的改动。A.错误B.正确12.HDFS是基于流数据模式访问和处理超大文件的需求而开发的，具有高容错、高可靠行、高扩展性、高吞吐率等特征，适合的读写任务是_。A.一次写入，少次读取B.多次写入，少次读取C.多次写入，多次读取D.一次写入，多次读取13.关于HDFS的文件写入，正确的是_。A.支持多用户对同一文件的写操作B.用户可以在文件任意位置进行修改C.默认将文件复制成三份存放D.复制的文件块默认存在同一机架上14. Client在HDFS上进行文件写入时，namenode根据文件大小和配置情况，返回部分datano

10、de信息，谁负责将文件划分为多个Block，根据DataNode的地址信息，按顺序写入到每一个DataNode块A.ClientB.NamenodeC.DatanodeD.Secondary namenode15. HDFS无法高效存储大量小文件，想让它能处理好小文件，比较可行的改进策略不包括A利用SequenceFile、MapFile、Har等方式归档小文件B 多Master设计C Block大小适当调小D调大namenode内存或将文件系统元数据存到硬盘里16. 在HDFS的数据读取过程中，客服端首先调用_的实例的open()方法打开一个文件。A.DistributedFileSyste

11、mB.FileSystem C.FSDataOutputSystemD.OutputSystem17.在HDFS的数据读取过程中，DistributedFileSystem获取这些信息后，生成一个_对象实例返回给客户端。A.DistributedFileSystemB.FSDataInputSystem C.FSDataOutputSystemD.InputSystem18.在HDFS的数据读取过程中，客户端读取完所有数据块后，调用_的close()接口关闭这个文件。A.DistributedFileSystemB.FSDataInputSystem C.FSDataOutputSystemD

12、.InputSystem19.在HDFS的数据写入过程中，客服端首先调用_的实例的create()方法打开一个文件。A.DistributedFileSystemB.FileSystem C.FSDataOutputSystemD.OutputSystem20. 在HDFS的数据写入过程中，客户端写完所有数据块后，调用_的close()方法结束这次文件写入操作。A.DistributedFileSystemB.FSDataInputSystem C.FSDataOutputSystemD.InputSystem21.HDFS的错误检测不包括_。A.NameNode检测B.DataNode检测C

13、.数据错误检测D.冗余检测第五章 MapReduce原理与编程1.MapReduce应用于_的数据处理。A.小规模B.中小规模C.大规模D.超大规模2.MapReduce能处理的海量数据大于_。A.1TBB.10GBC.10TBD.1PB3.下列关于MapReduce说法不正确的是_。A.MapReduce是一种计算框架B.MapReduce的核心思想是“分而治之”C.MapReduce是一个串行的编程模型D.MapReduce来源于Google的学术论文4.下列关于MapReduce的特性叙述正确的一项是_。A.自动实现分布式串行计算B.自动实现分页式并行计算C.容错，提供状态监控工具D.不

14、容错，提供状态监控工具5.在分布式并行计算体系中，_采用一个指令流处理单个数据流。A.SISDB.SIMDC.MISDD.MIMD6. 在分布式并行计算体系中，_采用多个指令流同时处理多个数据流。A.SISDB.SIMDC.MISDD.MIMD7.关于集群的特点下列叙述正确的一项是_。A.系统吞吐量小B.可靠性高C.扩展性弱D.性价比低8.下列关于MapReduce的基本思想叙述不正确的一项是_。A.对相互间具有计算机以来关系的大数据进行分而治之。B.用Map和Reduce两个函数提供了高层并行编程抽象模型。C.提供了同一框架D.为程序员隐藏系统细节9.下列关于MPI叙述不正确的一项是_。A

15、.MPI是一个信息传递应用程序的接口B.MPI程序经常在共享内存的机器上使用C.MPI并行计算增加高层并行编程模型D.MPI缺少统一的计算框架支持10.下列关于MapReduce计算原理叙述不正确的一项是_。A.将大数据集划分为小数据集，小数据集划分为更小数据集B.将最终划分的小数据分发布到集群节点上C.以串行的方式完成计算处理D.将计算结果递归融汇，得到最后的结果11.下列关于Map/Reduce并行计算模型叙述正确的一项为_。A.Map/Reduce把待处理的数据集分割成许多大的数据块B.大数据块经Map()函数并行处理后输出新的中间结果C.reduce()函数把多任务处理后的中间结果进行

16、汇总D.reduce阶段的作用接受来自输出列表的迭代器12.在MapReduce计算架构中，_组件属于hadoop的软件模块。A.ClientB.JobTrackerC.TaskTrackerD.Task13. 在MapReduce计算架构中，_组件运行在NameNode节点上，提供集群资源的分配和工作调度管理。A.ClientB.JobTrackerC.TaskTrackerD.Task14. 在MapReduce计算架构中，_组件运行在DataNode上，具体管理本节点计算任务的执行。A.ClientB.JobTrackerC.TaskTrackerD.Task15.下列关于JobTrac

17、ker叙述不正确的一项为_。A.MapReduce框架的使用者B.协调MapReduce作业C.分配任务D.监控任务16.下列关于Map/Reduce计算流程叙述不正确的一项为_。A.Mapper读取分派给它的输出Split，并生成相应的本地缓存。B.Mapper执行计算处理任务，将中间结果输出保存在本地缓存。C.Application Master调度Reducer读取Mapper的中间输出文件，执行Reduce任务。D. Reducer将最后结果写入输出文件保存到HDFS。17.MapReduce流程有_各阶段。A.三B.二C.四D.五18.在MapReduce中，_阶段，Mapper执行

18、map task，将输出结果写入中间文件。A.ShuffleB.MapC.ReduceD.Sort19. 在MapReduce中，_阶段，把Mapper的输出数据归并整理后分发给Reducer处理。A.ShuffleB.MapC.ReduceD.Sort20. 在MapReduce中，_阶段，Reducer执行reduce task，将最后结果写入HDFS。A.ShuffleB.MapC.ReduceD.Sort第六章 HBASE数据库1. HBase依靠_存储底层数据。A.HDFSB.HadoopC.MemoryD.MapReduce2. HBase依赖_提供强大的计算能力。A.Zookee

19、perB.ChubbyC.RPCD.MapReduce3. HBase依赖_提供消息通信机制A.ZookeeperB.ChubbyC.RPCD.Socket3.下列选项中，关于HBase特性描述不正确的一项是_。A.高可靠性B.高性能C.面向行D.可伸缩4.HBase架构的四大组件中，_包含访问HBase的接口。A.ZookeeperB.MasterC.Region ServerD.Client5. HBase架构的四大组件中，_HBase具体对外提供服务的进程。A.ZookeeperB.MasterC.Region ServerD.Client6. HBase架构的四大组件中，_分布式协调服

20、务器。A.ZookeeperB.MasterC.Region ServerD.Client7. HBase架构的四大组件中，_HBase集群的主控服务器。A.ZookeeperB.MasterC.Region ServerD.Client9.下列关于HBase系统分层架构叙述不正确的一项为_。A.HDFS提供了HBase的顶层物理存储结构B. Hadoop平台提供了存储基础结构：Hadoop集群及系统软件C.客户端：提供了数据库访问接口D. Region Server：管理多个regions并提供数据访问服务10. HFile数据格式中的KeyValue数据格式中Value部分是（）。A.拥有

21、复杂结构的字符串B.字符串C.二进制数据D.压缩数据11.下列关于split叙述正确的一项是_。A.当单个StoreFile大小小于一定的阙值后触发B.把当前的Region分裂成2个子RegionC.子Region会被Master分配到不同的Region Server上D.是HBase提供的超载机制12.HBase数据模型以_的形式存储数据。A.表B.视图C.数组D.记录13.下列不属于HBase基本元素的一项是_。A.表B.记录C.行键D.单元格14.下列关于HBase数据模型叙述不正确的一项是_。A.表有单元格组成B.一个表可以包含若干个列族C.一个列族内可用列限定符来标志不同的列D.存于

22、表中单元的数据尚需打上时间戳15.在HBase数据模型中，不可以作为行键的是_。A.字符串B.整数C.二进制串D.并行化的结构16.下列关于数据模型中行的叙述不正确的一项为_。A.表按照行键“逐字节排序”顺序对行进行有序化的处理B.表内数据非常“紧密”C.不用行的列的数目完全可以大不相同D.可以只对一行上“锁”17.在HBase数据模型中，列必须用_来定义。A.键B.族C.单元格D.时间戳18.在HBase物理存储结构中，table表中的所有行都按照_的字典序排序。A.ASCIIB.keyC.row keyD.key row19.在HBase物理存储结构中，region按大小分割的，每个表一开

23、始有_region。A.一个B.两个C.三个D.不确定20._是HBase中分布式存储和负载均衡的最小单位。A.HRegionB.StoreC.MemStoreD.StoreFile21.客户端从Zookeeper获取Region的存储位置信息后，直接在_上读写数据。A.ZookeeperB.HMasterC.Region ServerD.HLog22.将数据更新写入_，只有其写入完成后，commit()才返回给客户端。A.ZookeeperB.HMasterC.Region ServerD.HLog第七章 Hive数据仓库1.Hive可以将结构化的数据文件映射成_，并提供完整的SQL查询功能

24、。A.数据库表B.表单C.视图D.二维表2.关于Hive与Pig的比较正确的一项为_。A.Pig更适合于数据呈现的工作B.Pig能对中小规模的数据进行迭代处理C.Hive更适合做数据准备阶段的工作D.Hive会按照用户所需要的形式呈现3.Hive包括_中连接模式。A.二B.四C.三D.五4._模式，只适合于Hive简单试用及单元测试。A.单用户模式B.多用户模式C.多用户远程模式D.单用户远程模式5._模式，多个Hive用户通过网络连接到数据库。A.单用户模式B.多用户模式C.多用户远程模式D.单用户远程模式6. _模式，用于非Java客户端访问元数据库，在服务器端启动一个MetaStoreS

25、erver，客户端利用Thrift协议通过MetaStoreServer访问元数据库。A.单用户模式B.多用户模式C.多用户远程模式D.单用户远程模式第八章流计算系统1.1988年通信领域的美国学者Monika R. Henziger 将流数据定义为“只能以事先规定好的顺序被读取一次的数据的一个序列”。( )A.正确B.错误2.MapReduce批处理模型是先将数据存储于文件系统或数据库，然后对存储系统中的静态数据进行处理运算，这一步骤并不是实时在线的，因此又被称为离线批处理模式。( )A.正确B.错误3.流计算是在数据到达之后即进行计算处理。A.正确B.错误4.在流计算系统模型中，分布式系

26、统常用_来表征计算流程或计算模型。A.无项循环图B.有向循环图C.无向非循环图D.有向非循环图5.在流计算的处理模式中Native Stream Processing System基于数据读入顺序逐条进行处理，每一条数据达到即可得到及时处理。A.正确B.错误6.对Client/Server系统而言，_的吞吐率是指服务器在单位时间内对所有的客户端完成的任务数。A.服务器端B.客户端C.系统端D.管理员端7. 对Client/Server系统而言，_的吞吐率是指对单个客户而言服务器在单位时间内完成的该客户提交的任务数目。A.服务器端B.客户端C.系统端D.管理员端8.关于Storm流计算叙述不正确

27、的一项为_。A.Storm是一种Native Stream Processing System，即对流数据的处理是基于每条数据进行B.Storm其并行计算是基于有Spout和Bolt组成的有向拓扑图ToPology来实现C. Topology：定义了串行计算的逻辑模型（或者称抽象模型），也即从功能和架构的角度设计了计算的步骤和流程。D.Topology里的Spout和Bolt的功能是靠worker节点上的Task来实现9.下列不是Storm流计算的特点的是_。A.分布式B.实时性C.复杂性D.容错性10Storm的计算机体系采用了主从(Master/Slave)架构。A.正确B.错误11.在S

28、torm的软件架构中，_运行在主节点上，是整个流计算集群的控制核心，总体负责topology的提交、运行状态监控、负载均衡及任务重新分配等。A. 主控程序NimbusB. 集群调度器ZookeeperC. 工作节点控制程序 SupervisorD. 工作进程 Worker12. 在Storm的软件架构中，_由Hadoop平台提供，是整个集群状态同步协调的核心组件。A. 主控程序NimbusB. 集群调度器ZookeeperC. 工作节点控制程序 SupervisorD. 工作进程 Worker13. 在Storm的软件架构中，_运行在工作节点（称为node）上的控制程序，监听本地机器的状态，接

29、受Nimbus指令管理本地的Worker进程。A. 主控程序NimbusB. 集群调度器ZookeeperC. 工作节点控制程序 SupervisorD. 工作进程 Worker14. 在Storm的软件架构中，_运行在node上的进程。A. 计算任务 TaskB. 集群调度器ZookeeperC. 执行进程 Executor工作节点控制程序 SupervisorD. 工作进程 Worker15.下列选项中不是Storm容错机制层面的是_。A.任务B.组件C.对象D.节点第九章大数据计算体系与数据整合1.大数据计算体系结构有_个基本层次。A.二B.四C.三D.五2.下列选项中不是大数据计算体

30、系的基本层次的一项为_。A.数据应用系统B.数据开发系统C.数据处理系统D.数据存储系统3.下列关于数据存储系统叙述不正确的一项为_。A.数据采集层B.数据清洗、抽取与建模C.数据仓库与数据服务D.无统一数据接口4._包括针对不同类型的计算机模型，提供各种开发工具包和运行环境的计算平台。A.数据应用系统B.数据开发系统C.数据处理系统D.数据存储系统5. _提供了各行业各领域的大数据应用技术解决方案。A.数据应用系统B.数据开发系统C.数据处理系统D.数据存储系统6.数据建模中，_模型，主要基于用户的数据功能需求产生。A.概念B.数据C.逻辑D.物理7.数据建模中，_模型，给出更多的数据试题

31、细节，包括主键、外键等形式来描述。A.概念B.数据C.逻辑D.物理8.数据建模中，_模型，考虑数据的存储实现方式，包括数据拆分、数据表单位、数据集成。A.概念B.数据C.逻辑D.物理9.在存储结构中，数据库提供了数据的逻辑存储结构。A.正确B.错误10.分布式文件系统提供了数据的物理存储结构。A.正确B.错误11.下列选项中关于统一数据访问接口功能叙述不正确的一项为_。A.不同的数据展示、存储和管理B.访问接口与实现代码分离的原则C.屏蔽了数据源的差异和数据库操作细节D.提供一个统一的访问界面和一种统一的查询语言12.计算模型：抽象结构+计算范式+算法。A.正确B.错误13.计算架构：抽象架构+软件设计+实现方法。A.错误B.正确

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

hadoop习题册

最新文档

相关资源

相关搜索