大数据环境搭建

上传人:cjc2****371 文档编号:57367148 上传时间:2022-02-23 格式:DOCX 页数:22 大小:201.35KB
收藏 版权申诉 举报 下载
大数据环境搭建_第1页
第1页 / 共22页
大数据环境搭建_第2页
第2页 / 共22页
大数据环境搭建_第3页
第3页 / 共22页
资源描述:

《大数据环境搭建》由会员分享,可在线阅读,更多相关《大数据环境搭建(22页珍藏版)》请在装配图网上搜索。

1、本文记录zookeeper+hadoop+hbase+kafka+storm集群的搭建过程。准备工作1. 硬件环境 3台物理主机 192.168.0.191 dc01 192.168.0.192 dc02 192.168.0.193 dc03 系统全部为Ubuntu16.042. 软件环境 1) jdk1.8.0_121 2) zookeeper-3.4.10 3) hadoop-2.6.5 4) hbase-1.2.6 5) kafka_2.11-0.10.2.0 6) apache-storm-1.1.0jdk的安装在此不做赘述,有疑问可自行百度。3. 设置主机名 三台机器都需设置,后面所

2、有操作都通过主机名连接。sudo gedit /etc/sysconfig/networkip为192.168.0.191的机器修改为如下内容:NETWORKING=yesHOSTNAME=dc01其他两台机器分别设置为dc02和dc03。4. 修改host文件sudo gedit /etc/hosts在末尾追加如下内容:192.168.0.191 dc01192.168.0.192 dc02192.168.0.193 dc03三台机器做相同操作。5. 设置ssh免密码登录 以dc01为例,执行以下命令1. sssh-keygen -t rsa2. # 连续三次回车,即在本地生成了公钥和私钥,

3、不设置密码3. ssh-copy-id dc014. # 按提示输入dc01的密码5. ssh-copy-id dc026. # 按提示输入dc02的密码7. ssh-copy-id dc038. # 按提示输入dc03的密码dc02和dc03重复dc01的操作,设置完成后任意两台机器之间不需要密码可直接登录,例如从dc01登录到dc03,只需在dc01输入”ssh dc03”即可。开始安装所有软件安装目录为/usr/local/安装zookeeper下载zookeeper安装文件zookeeper-3.4.10.tar.gz到/usr/local/下 执行以下命令:#解压文件tar -zxv

4、f zookeeper-3.4.10.tar.gz#修改文件夹名称mv zookeeper-3.4.10 zookeepercd zookeeper/#zookeeper配置文件名为zoo.cfgcp conf/zoo_sample.cfg conf/zoo.cfg 7编辑zoo.cfgvim conf/zoo.cfg修改后文件内容如下:# The number of milliseconds of each ticktickTime=2000# The number of ticks that the initial # synchronization phase can takeinitL

5、imit=10# The number of ticks that can pass between # sending a request and getting an acknowledgementsyncLimit=5# the directory where the snapshot is stored.# do not use /tmp for storage, /tmp here is just # example sakes.dataDir=/usr/local/zookeeper/datadataLogDir=/usr/local/zookeeper/log# the port

6、 at which the clients will connectclientPort=2181# the maximum number of client connections.# increase this if you need to handle more clients#maxClientCnxns=60# Be sure to read the maintenance section of the # administrator guide before turning on autopurge.# http:/zookeeper.apache.org/doc/current/

7、zookeeperAdmin.html#sc_maintenance# The number of snapshots to retain in dataDir#autopurge.snapRetainCount=3# Purge task interval in hours# Set to 0 to disable auto purge feature#autopurge.purgeInterval=1server.1=dc01:2888:3888server.2=dc02:2888:3888server.3=dc03:2888:3888在zookeeper下新建data目录mkdir da

8、ta新增myid文件,该文件内容与zoo.cfg最后三行内容有关,server.x=host:port1:port2,myid中写入的就是x对应的值,不同主机文件内容不同。echo 1 data/myid使用scp命令将dc01上已配置好的zookeeper文件复制到其他两台机器scp -r /usr/local/zookeeper rootdc02:/usr/local/zookeeperscp -r /usr/local/zookeeper rootdc03:/usr/local/zookeeper操作完成后将dc02上的myid文件内容改为2,dc03中的myid内容改为3。启动zook

9、eeper$zookeeper_home/bin/zkServer.sh start三个节点做同样操作,启动完成后可使用”zkServer.sh status”查看运行状态。安装hadoophbase基于hdfs存储,所以安装hbase前必须先安装hadoop,不同版本hbase对应的hadoop版本不同,安装前请确认兼容性。 下面开始安装: 在/usr/local/下新建hadoop目录,hadoop下再创建hdfs目录。cd /usr/local/mkdir -p hadoop/hdfs下载hadoop安装文件hadoop-2.6.5.tar.gz,放入hadoop目录下tar -zxvf

10、 hadoop-2.6.5.tar.gz修改配置文件cd hadoop-2.6.5/etc/hadoop/需要修改的配置文件有四个,hadoop-env.sh、core-site.xml、hdfs-site.xml、slaves,因为暂时不使用map-reduce所以不用配置yarn相关文件。1、修改hadoop-env.shsudo gedit hadoop-env.sh修改JAVA_HOME为jdk安装路径(如果没有则添加一行)export JAVA_HOME=/usr/local/java/jdk1.8.0_1212、修改 core-site.xmlsudo gedit core-sit

11、e.xml修改后内容如下: fs.default.name hdfs:/dc01:9000 HDFS的URI,文件系统:/namenode标识:端口号 hadoop.tmp.dir /usr/local/hadoop/tmp namenode上本地的hadoop临时文件夹,目录无需预先创建,会自动创建3、修改hdfs-site.xmlsudo gedit hdfs-site.xml修改后内容如下: dfs.name.dir /usr/local/hadoop/hdfs/name namenode上存储hdfs名字空间元数据,目录无需预先创建,会自动创建 dfs.data.dir /usr/lo

12、cal/hadoop/hdfs/data datanode上数据块的物理存储位置,目录无需预先创建,会自动创建 dfs.replication 2 副本个数,配置默认是3,应小于datanode机器数量4、修改slavessudo gedit slaves将原来的localhost改成如下内容:dc02dc03修改完成后将安装目录copy到其他两台机器上:scp -r /usr/local/hadoop rootdc02:/usr/local/hadoopscp -r /usr/local/hadoop rootdc03:/usr/local/hadoop启动集群(只需在dc01操作) 第一次

13、启动时需要先格式化,以后无需进行此操作。cd /usr/local/hadoop/hadoop-2.6.5#格式化./bin/hdfs namenode -format#启动集群./sbin/start-dfs.sh启动成功后可使用jps命令查看,dc01有NameNode和SecondaryNameNode进程,dc02和dc03有DataNode进程则集群启动成功。安装hbase集群机器划分:dc01作为NameNode节点,dc02和dc03作为DataNode节点。 下载hbase安装文件并放入/usr/local/目录下 1、解压并修改文件夹名称:tar -zxvf hbase-1.

14、2.6-bin.tar.gzmv hbase-1.2.6 hbase2、修改配置文件,配置hbase集群需要修改三个配置文件,分别为hbase-env.sh、hbase-site.xml、regionservers。cd hbase/conf/1)修改hbase-env.shsudo gedit hbase-env.sh需要修改两行内容 修改JAVA_HOME的值为jdk的安装目录,修改后如下:export JAVA_HOME=/usr/local/java/jdk1.8.0_121修改HBASE_MANAGES_ZK,该行默认被注释掉了,默认使用hbase自带的zookeeper协调集群,我

15、们需要把注释去掉并修改值为false,表示使用自己安装的zookeeper。修改如下:export HBASE_MANAGES_ZK=false2)修改hbase-site.xmlvim hbase-site.xml在 中添加如下内容: hbase.rootdir hdfs:/dc01:9000/hbase hbase.cluster.distributed true hbase.zookeeper.quorum dc01,dc02,dc03 hbase.zookeeper.property.dataDir /usr/local/hbase/data/zookeeper3)修改regionse

16、rverssudo gedit regionservers该文件配置数据存储在哪个节点,即DataNode节点的位置。默认为localhost,表示数据存储在本机,需要修改为两个DataNode节点的主机名,修改后内容如下:dc02dc03上述操作完成后使用scp命令将hbase所有文件复制到dc02和dc03。scp -r /usr/local/hbase rootdc02:/usr/local/hbasescp -r /usr/local/hbase rootdc03:/usr/local/hbase3、启动hbase#启动./bin/start-hbase.sh启动完成后可通过jps命令

17、查看,dc01有HMaster进程,dc02和dc03有HRegionServer进程则表示集群启动成功。如果任一节点没有对应的进程则表示集群启动失败,可查看日志查找失败原因。此处需要注意一点,三台机器的系统时间相差不能太大,否则会出现启动失败的情况,同步系统时间后重试即可。 4、连接hbase hbase提供了shell操作接口,使用一些命令连接hbase./bin/hbase shell连接后可通过相应的shell命令操作hbase,hbase的操作此处不做讨论,请自行google。 hbase还可以通过第三方插件apache-phoenix进行连接,该插件支持以sql的方式操作hbase

18、。下载和hbase版本对应的phoenix安装包,解压后将phoenix-phoenix版本-HBase-hbase版本-server.jar(本例中使用的为phoenix-4.10.0-HBase-1.2-server.jar)复制到hbase的lib目录下重启hbase即可(每个节点都需要进行此操作),phoenix操作方法请自行搜索资料学习。安装kafka下载kafka安装文件并放入/usr/local/目录下,解压tar -zxvf kafka_2.11-0.10.2.0.tgzmv kafka_2.11-0.10.2.0 kafkakafka的配置比较简单,只需修改config/下的

19、server.properties文件即可,需要修改三处位置。vim ./config/server.properties1)修改broker.id 该值在各个节点中不能重复,推荐使用机器ip地址最后一位,如dc01上该值为1,dc02上为2,dc03上为3。 2)修改log.dirs 该值表示日志文件存储位置,默认为/tmp/kafka-logs,使用该配置时机器重启后文件会被清空,需要修改为其他位置,建议修改为:log.dirs=/usr/local/kafka/kafka-logs3)修改zookeeper.connect 这一项比较重要,表示kafka数据在zookeeper中的存储位

20、置,以后连接kafka时会使用该值。本例中修改为:zookeeper.connect=dc01:2181,dc02:2181,dc03:2181/kafka修改完成后将整个kafka目录复制到dc02和dc03中即完成集群配置(不要忘记修改broker.id,不同机器不能重复)。启动kafkanohup ./bin/kafka-server-start.sh ./config/server.properties &停止kafka./bin/kafka-server-stop.sh &注:kafka的启动和停止需要分别在每个节点操作。安装storm下载storm安装文件放入/usr/local/

21、目录,解压tar -zxvf apache-storm-1.1.0.tar.gzmv apache-storm-1.1.0 stormstorm配置比较简单,只需修改storm.yamlcd storm/conf/vim storm.yaml添加以下内容:storm.zookeeper.servers: - dc01 - dc02 - dc03nimbus.seeds: dc01drpc.servers: - dc01storm.local.dir: /usr/local/storm/local-dir上述配置storm.zookeeper.servers表示zookeeper节点,nimbu

22、s.seeds表示nimbus服务在dc01节点,drpc.servers表示drpc服务在dc01节点,storm.local.dir表示日志文件位置。 配置完成后将storm安装目录复制到dc02和dc03上。scp -r /usr/local/storm/ rootdc02:/usr/local/storm/scp -r /usr/local/storm/ rootdc03:/usr/local/storm/启动storm集群 在dc01上执行以下命令cd /usr/local/storm./bin/storm nimbus /dev/null 2&1 &./bin/storm ui /dev/null 2&1 &./bin/storm drpc /dev/null 2&1 &在dc02和dc03上执行以下命令:./bin/storm supervisor /dev/null 2&1 &等待启动完成后可通过浏览器访问http:/dc01:8080查看集群运行状态。 启动成功界面:总结由于hbase需要基于zookeeper和hadoop运行,kafka和storm需要基于zookeeper运行。所以启动顺序应该为zookeeper-hadoop-hbase-kafka-storm,停止顺序相反。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!