博客【Hadoop】高可用集群搭建

【Hadoop】高可用集群搭建

数栈君发表于 2023-08-01 10:46 602 0

一、Zookeeper安装✨

1.将Zookeeper压缩包上传到 Hadoop102的/opt/software 目录下

这里我们还是使用Xshell+Xftp进行文件上传，将Zookeeper上传。

2.解压到 /opt/module/HA 目录下

tar -xzvf /opt/software/apache-zookeeper-3.5.7-bin.tar.gz -C /opt/module/HA/

3.将Zookeeper重命名

mv /opt/module/HA/apache-zookeeper-3.5.7-bin/ zookeeper

4.重命名Zookeeper的zoo_sample.cfg为zoo.cfg文件

mv zoo_sample.cfg zoo.cfg

5.修改zoo.cfg文件

vim /opt/module/HA/zookeeper/conf/zoo.cfg

按下G，按下o，直接插入到最后一行，插入以下内容，其中hadoop102,hadoop103,hadoop104分别是三个节点的主机名。

server.1=hadoop102:2888:3888

server.2=hadoop103:2888:3888

server.3=hadoop104:2888:3888

6.新建myid文件

进入到zookeeper目录下:

cd /opt/module/HA/zookeeper/

新建zkData目录:

mkdir zkData

进入到zkData目录,并新建myid文件:

cd zkData

vim myid

只需分别在Hadoop102,Hadoop103,Hadoop104的myid文件添加数字 1,2,3 即可,保存退出:

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/220dbcdca58d43c0ee33cbd9c082f4aa..png

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/aaff80acced62dd12b20c09ba709c1b5..png

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/6d0d559c4a048495d6529fe0ddccb361..png

7.配置环境变量

vim /etc/profile.d/my_env.sh

插入以下内容：

# ZOOKEEPER_HOME

export ZOOKEEPER_HOME=/opt/module/HA/zookeeper

export PATH=$PATH:$ZOOKEEPER_HOME/bin

8.刷新环境变量

source /etc/profile.d/my_env.sh

9.分发

这里需要分发的有Zookeeper，my_env.sh文件，以及都要刷新环境变量。前面两个命令在hadoop102执行即可，第三个命令在hadoop103，hadoop104上都要执行一次。

xsync /opt/module/HA/zookeeper/

xsync /etc/profile.d/my_env.sh

source /etc/profile.d/my_env.sh

二、Hadoop配置✨

1.保留原来的Hadoop集群

为什么要保留原来的集群？在搭建Hadoop高可用之前，我们的集群是有Hdfs，Yarn，JobHistory，这些我们日后还需要继续学习使用，因此我选择保留下来，换句话说，**即使我们高可用（HA）搭建失败了，我们还能回到开始的状态。**保留方式就是我们搭建的时候不要直接使用Hadoop目录，而是复制一份。

2.复制Hadoop目录

cp -r /opt/module/hadoop-3.1.3/ /opt/module/HA/

3.删除data和logs目录

cd /opt/module/HA/hadoop-3.1.3/

rm -rf data

rm -rf logs

4.新建Zookeeper相关目录

cd /opt/module/HA/

mkdir logs

mkdir tmp

5.修改两个配置文件

这里的两个配置文件是 core-site.xml 文件和 hdfs-site.xml 文件,这是Hadoop目录中仅需要修改的两个文件.这里以注释形式给出需要修改的地方,不用修改这两个文件,直接覆盖即可.

hdfs-site.xml:

<?xml version="1.0" encoding="UTF-8"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!--

Licensed under the Apache License, Version 2.0 (the "License");

you may not use this file except in compliance with the License.

You may obtain a copy of the License at

http://www.apache.org/licenses/LICENSE-2.0

Unless required by applicable law or agreed to in writing, software

distributed under the License is distributed on an "AS IS" BASIS,

WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

See the License for the specific language governing permissions and

limitations under the License. See accompanying LICENSE file.

-->

<configuration>

<property>

<name>dfs.nameservices</name>

<value>mycluster</value>

</property>

<property>

<name>dfs.ha.namenodes.mycluster</name>

<value>nn1,nn2</value>

</property>

<property>

<name>dfs.namenode.rpc-address.mycluster.nn1</name>

<value>hadoop102:8020</value>

</property>

<property>

<name>dfs.namenode.rpc-address.mycluster.nn2</name>

<value>hadoop103:8020</value>

</property>

<property>

<name>dfs.namenode.http-address.mycluster.nn1</name>

<value>hadoop102:9870</value>

</property>

<property>

<name>dfs.namenode.http-address.mycluster.nn2</name>

<value>hadoop103:9870</value>

</property>

<property>

<name>dfs.namenode.shared.edits.dir</name>

<value>qjournal://hadoop102:8485;hadoop103:8485;hadoop104:8485/mycluster</value>

</property>

<property>

<name>dfs.client.failover.proxy.provider.mycluster</name>

<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>

</property>

<property>

<name>dfs.ha.fencing.methods</name>

<value>sshfence</value>

</property>

<property>

<name>dfs.ha.fencing.ssh.private-key-files</name>

<value>/home/sky/.ssh/id_rsa</value>

</property>

<property>

<name>dfs.journalnode.edits.dir</name>

<value>/opt/module/HA/logs/</value>

</property>

<property>

<name>dfs.ha.automatic-failover.enabled</name>

<value>true</value>

</property>

<property>

<name>dfs.webhdfs.enabled</name>

<value>true</value>

</property>

<property>

<name>dfs.datanode.max.transfer.threads</name>

<value>8192</value>

<description>

Specifies the maximum number of threads to use for transferring data

in and out of the DN.

</description>

</property>

</configuration>

core-site.xml:

<?xml version="1.0" encoding="UTF-8"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!--

Licensed under the Apache License, Version 2.0 (the "License");

you may not use this file except in compliance with the License.

You may obtain a copy of the License at

http://www.apache.org/licenses/LICENSE-2.0

Unless required by applicable law or agreed to in writing, software

distributed under the License is distributed on an "AS IS" BASIS,

WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

See the License for the specific language governing permissions and

limitations under the License. See accompanying LICENSE file.

-->

<configuration>

<property>

<name>fs.defaultFS</name>

<value>hdfs://mycluster</value>

</property>

<property>

<name>hadoop.tmp.dir</name>

<value>/opt/module/HA/tmp/</value>

</property>

<property>

<name>hadoop.http.staticuser.user</name>

<value>sky</value>

</property>

<property>

<name>ha.zookeeper.quorum</name>

<value>hadoop102:2181,hadoop103:2181,hadoop104:2181</value>

</property>

<property>

<name>hadoop.proxyuser.sky.hosts</name>

<value>*</value>

</property>

<property>

<name>hadoop.proxyuser.sky.groups</name>

<value>*</value>

</property>

<property>

<name>ipc.client.connect.max.retries</name>

<value>100</value>

<description>Indicates the number of retries a client will make to establish a server connection.</description>

</property>

<property>

<name>ipc.client.connect.retry.interval</name>

<value>10000</value>

<description>Indicates the number of milliseconds a client will wait for before retrying to establish a server connection.</description>

</property>

</configuration>

6.修改环境变量

vim /etc/profile.d/my_env.sh

将HADOOP_HOME改为新的Hadoop目录所在路径:

# HADOOP_HOME

export HADOOP_HOME=/opt/module/HA/hadoop-3.1.3

7.分发Hadoop目录和my_env.sh文件

xsync /opt/module/HA/hadoop-3.1.3/

xsync /etc/profile.d/my_env.sh

8.刷新环境变量

分别在三个节点上刷新环境变量:

source /etc/profile.d/my_env.sh

三、Hadoop HA自动模式✨

1.修改hadoop/etc/hadoop/hadoop-env.sh文件

vim /opt/module/HA/hadoop-3.1.3/etc/hadoop/hadoop-env.sh

在末尾插入以下内容,sky是用户名,因为我至始至终都没使用root账号.

export HDFS_ZKFC_USER=sky

export HDFS_JOURNALNODE_USER=sky

2.分发

xsync /opt/module/HA/hadoop-3.1.3/

2.启动与初始化集群

启动Zookeeper:

zkServer.sh start

刷新环境变量:

source /etc/profile.d/my_env.sh

启动Hdfs:

myhadoop start

myhadoop是我另外一个Hadoop集群启停脚本,具体的脚本内容和使用请参考:Hadoop集群启停脚本

3.查看namenode的活跃状态

zkServer.sh status

四、HA脚本分享✨

脚本名字是myHA.sh,功能是实现一键启动和停止Zookeeper和Hdfs,查看zookeeper状态.

#! /bin/bash

if [ $# -lt 1 ]

then

echo "No Args Input..."

exit;

fi

case $1 in

"start"){

echo "----------启动zookeeper----------"

for i in hadoop102 hadoop103 hadoop104

do

echo ---------- zookeeper $i 启动 ------------

ssh $i "/opt/module/HA/zookeeper/bin/zkServer.sh start"

done

echo "---------- 启动hdfs------------"

ssh hadoop102 "/opt/module/HA/hadoop-3.1.3/sbin/start-dfs.sh"

echo "---------- hadoop HA启动成功------------"

};;

"stop"){

echo "----------关闭hdfs----------"

ssh hadoop102 "/opt/module/HA/hadoop-3.1.3/sbin/stop-dfs.sh"

echo "----------关闭zookeeper----------"

for i in hadoop102 hadoop103 hadoop104

do

echo ---------- zookeeper $i 停止 ------------

ssh $i "/opt/module/HA/zookeeper/bin/zkServer.sh stop"

done

echo "---------- hadoop HA停止成功------------"

};;

"status"){

for i in hadoop102 hadoop103 hadoop104

do

echo ---------- zookeeper $i 状态 ------------

ssh $i "/opt/module/HA/zookeeper/bin/zkServer.sh status"

done

};;

*)

echo "Input Args Error"

;;

esac

免责申明：

本文系转载，版权归原作者所有，如若侵权请联系我们进行删除！

《数据治理行业实践白皮书》下载地址：https://fs80.cn/4w2atu

《数栈V6.0产品白皮书》下载地址：https://fs80.cn/cw0iw1

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友，浏览袋鼠云官网：https://www.dtstack.com/?src=bbs

同时，欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」，交流最新开源技术信息，群号码：30537511，项目地址：https://github.com/DTStack

集群搭建大数据 Hadoop集群 Hadoop

0条评论

上一篇：【项目实战】Java 开发 Kafka 消费者

下一篇：Hbase基本原理剖析

我要提问

分享经验

社区公告

大数据领域最专业的产品&技术交流社区，专注于探讨与分享大数据领域有趣又火热的信息，专业又专注的数据人园地

最新活动更多

【Hadoop】高可用集群搭建

一、Zookeeper安装✨

1.将Zookeeper压缩包上传到 Hadoop102的/opt/software 目录下

2.解压到 /opt/module/HA 目录下

3.将Zookeeper重命名

4.重命名Zookeeper的zoo_sample.cfg为zoo.cfg文件

5.修改zoo.cfg文件

6.新建myid文件

7.配置环境变量

8.刷新环境变量

9.分发

二、Hadoop配置✨

1.保留原来的Hadoop集群

2.复制Hadoop目录

3.删除data和logs目录

4.新建Zookeeper相关目录

5.修改两个配置文件

6.修改环境变量

7.分发Hadoop目录和my_env.sh文件

8.刷新环境变量

三、Hadoop HA自动模式✨

1.修改hadoop/etc/hadoop/hadoop-env.sh文件

2.分发

2.启动与初始化集群

3.查看namenode的活跃状态

四、HA脚本分享✨

我要提问

分享经验

微信扫码获取数字化转型资料

钉钉扫码加入技术交流群