博客 Hadoop运行模式

Hadoop运行模式

数栈君发表于 2024-01-11 10:26 877 0

1）Hadoop官方网站：http://hadoop.apache.org/
2）Hadoop运行模式包括：本地模式、伪分布式模式以及完全分布式模式。


本地模式：单机运行，只是用来演示一下官方案例。生产环境不用。
伪分布式模式：也是单机运行，但是具备Hadoop集群的所有功能，一台服务器模拟一个分布式的环境。个别缺钱的公司用来测试，生产环境不用。
完全分布式模式：多台服务器组成分布式环境。生产环境使用。
1 本地运行模式（官方WordCount）
任务：统计一个文本的每个单词的个数

1）创建在hadoop-3.1.3文件下面创建一个wcinput文件夹
[atguigu@hadoop102 hadoop-3.1.3]$ mkdir wcinput
2）在wcinput文件下创建一个word.txt文件
[atguigu@hadoop102 hadoop-3.1.3]$ cd wcinput
3）编辑word.txt文件
[atguigu@hadoop102 wcinput]$ vim word.txt
在文件中输入如下内容
hadoop yarn
hadoop mapreduce
atguigu
atguigu
保存退出：:wq
4）回到Hadoop目录/opt/module/hadoop-3.1.3
5）执行程序
[atguigu@hadoop102 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount wcinput wcoutput
6）查看结果
[atguigu@hadoop102 hadoop-3.1.3]$ cat wcoutput/part-r-00000
看到如下结果：
atguigu 2
hadoop 2
mapreduce 1
yarn 1
注：结果在输出路径下的part-r-00000文件

其中5)的执行程序

hadoop：执行Hadoop程序，也可以用/bin/hadoop
jar：用java包
jar包的路径：在share下，选择mapreduce的examples程序
选择一个功能案例：选择单词计数案例wordcount
输入路径：单词计数的文本路径
输出路径：在运行程序前，不能存在，否则会报错，它只能通过该程序自己生成。
2 完全分布式运行模式（开发重点）
分析：

1）准备3台客户机（关闭防火墙、静态IP、主机名称）
2）安装JDK
3）配置环境变量
4）安装Hadoop
5）配置环境变量
6）配置集群
7）单点启动
8）配置ssh
9）群起并测试集群

前5项已配置，重点在后面4项

2.1 虚拟机准备
详见2.1、2.2两节。

2.2 编写集群分发脚本xsync
先了解下两个命令scp和rsync

1）scp(secure copy)完全拷贝

（1）scp定义
scp可以实现服务器与服务器之间的数据拷贝。（from server1 to server2）

（2）基本语法
scp -r $pdir/$fname $user@$host:$pdir/$fname
命令递归要拷贝的文件路径/名称目的地用户@主机:目的地路径/名称
（3）案例实操
前提：在hadoop102、hadoop103、hadoop104都已经创建好的/opt/module、 /opt/software两个目录，并且已经把这两个目录修改为atguigu:atguigu

[atguigu@hadoop102 ~]$ sudo chown atguigu:atguigu -R /opt/module
1
（a）在hadoop102上，将hadoop102中/opt/module/jdk1.8.0_212目录拷贝到hadoop103上。

[atguigu@hadoop102 ~]$ scp -r /opt/module/jdk1.8.0_212 atguigu@hadoop103:/opt/module
1
（b）在hadoop103上，将hadoop102中/opt/module/hadoop-3.1.3目录拷贝到hadoop103上。

[atguigu@hadoop103 ~]$ scp -r atguigu@hadoop102:/opt/module/hadoop-3.1.3 /opt/module/
1
（c）在hadoop103上操作，将hadoop102中/opt/module目录下所有目录拷贝到hadoop104上。

[atguigu@hadoop103 opt]$ scp -r atguigu@hadoop102:/opt/module/* atguigu@hadoop104:/opt/module
1
2）rsync远程同步工具
rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。
rsync和scp区别：用rsync做文件的复制要比scp的速度快，rsync只对差异文件做更新。scp是把所有文件都复制过去。

（1）基本语法
rsync -av $pdir/$fname $user@$host:$pdir/$fname
命令选项参数要拷贝的文件路径/名称目的地用户@主机:目的地路径/名称
.
选项参数说明

（2）案例实操
（a）删除hadoop103中/opt/module/hadoop-3.1.3/wcinput

[atguigu@hadoop103 hadoop-3.1.3]$ rm -rf wcinput/
1
（b）同步hadoop102中的/opt/module/hadoop-3.1.3到hadoop103

[atguigu@hadoop102 module]$ rsync -av hadoop-3.1.3/
atguigu@hadoop103:/opt/module/hadoop-3.1.3/
1
2
3）xsynv集群分发脚本
（1）需求：循环复制文件到所有节点的相同目录下（就是生成一个命令xsynv，仿照rsynv命令的功能，基于rsync，实现集群的分发）
如hadoop102的家目录/home/atguigu，新增了一个文件a.txt，我们希望103和104的相同目录下/home/atguigu也生成a.txt。

（2）需求分析
（a）rsync命令原始拷贝，将同步目录A分发到指定目录B

rsync -av /opt/module atguigu@hadoop103:/opt/
1
（b）上述实现太复杂，希望写个脚本，生成一个命令xsynv，希望用sxync+同步目录A就能实现同步分发的功能
（c）并且希望脚本在任何路径都能使用（即脚本放在声明了全局环境变量的路径）

[atguigu@hadoop102 ~]$ echo $PATH
1
/usr/local/bin:/usr/bin:/usr/local/sbin:/usr/sbin:/home/atguigu/.local/bin:/home/atguigu/bin:/opt/module/jdk1.8.0_212/bin

（3）脚本实现
（a）在/home/atguigu/bin目录下创建xsync文件

[atguigu@hadoop102 opt]$ cd /home/atguigu
[atguigu@hadoop102 ~]$ mkdir bin
[atguigu@hadoop102 ~]$ cd bin
[atguigu@hadoop102 bin]$ vim xsync
1
2
3
4
在该文件中编写如下代码

#!/bin/bash

#1. 判断参数个数
if [ $# -lt 1 ]
then
echo Not Enough Arguement!
exit;
fi

#2. 遍历集群所有机器
for host in hadoop102 hadoop103 hadoop104
do
echo ==================== $host ====================
#3. 遍历所有目录，挨个发送

for file in $@
do
#4. 判断文件是否存在
if [ -e $file ]
then
#5. 获取父目录
pdir=$(cd -P $(dirname $file); pwd)

#6. 获取当前文件的名称
fname=$(basename $file)
ssh $host "mkdir -p $pdir"
rsync -av $pdir/$fname $host:$pdir
else
echo $file does not exists!
fi
done
done

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
【注】

$(dirname $file)：全路径的文件名
cp -P ：查文件的父目录
$(basename $file)：文件名
ssh $host：连接某台主机
mkdir -p $pdir：-p表示，创建文件，无论文件存在与否，都不会报错
rsync -av $pdir/$fname $host:$pdir中的$pdir/$fname是要同步的目录A，$host:$pdir是目的目录B，同步A目录到B目录，对B中的差异做更新
（b）修改脚本 xsync 具有执行权限

[atguigu@hadoop102 bin]$ chmod +x xsync
1
（c）测试脚本

[atguigu@hadoop102 ~]$ xsync /home/atguigu/bin
1
（d）将脚本复制到/bin中，以便全局调用
若就在/bin下创建的，

[atguigu@hadoop102 bin]$ sudo cp xsync /bin/
1
（e）同步环境变量配置（root所有者）

[atguigu@hadoop102 ~]$ sudo ./bin/xsync /etc/profile.d/my_env.sh
1
注意：如果用了sudo，那么xsync一定要给它的路径补全。
即xsync不能直接用，./bin/xsync要写全

（f）让环境变量生效

[atguigu@hadoop103 bin]$ source /etc/profile
[atguigu@hadoop104 opt]$ source /etc/profile
1
2
2.3 SSH无密登录配置
1）配置ssh

（1）基本语法 ssh另一台电脑的IP地址
（2）ssh连接时出现Host key verification failed的解决方法

[atguigu@hadoop102 ~]$ ssh hadoop103
1
如果出现如下内容
Are you sure you want to continue connecting (yes/no)?
输入yes，并回车
（3）退回到hadoop102

[atguigu@hadoop103 ~]$ exit
1
2）无密钥配置
（1）免密登录原理



在A服务器上，生成ssh-key-gen秘钥对（公钥-秘钥）
把公钥(A)拷贝到B服务器上，B服务器会放到一个已授权的目录Authorized_keys下，即只要遇到A访问B，都免密登录
当A通过ssh访问B，B要做什么？B要接收数据，取Authorized_keys查找有无A的公钥，如果有：B会采用公钥A加密的数据返回A，A会用私钥A解密数据，数据只有A能看
.
【注】：当你把公钥发给谁，就默认对方接收了你的请求，允许你免密访问对方。

（2）生成公钥和私钥
【记住生成命令】 ssh-keygen -t rsa

生成在家目录的.ssh隐藏目录下

[atguigu@hadoop102 .ssh]$ pwd
/home/atguigu/.ssh

[atguigu@hadoop102 .ssh]$ ssh-keygen -t rsa
1
2
3
4
然后敲（三个回车），就会生成两个文件id_rsa（私钥）、id_rsa.pub（公钥）

（3）将公钥拷贝到要免密登录的目标机器上
【记住命令】ssh-copy-id + 目标机器

以hadoop102为例，配置无密登录到hadoop102、hadoop103、hadoop104；是的，hadoop102本机也配置下无密登录，配置后，在authorized_keys文件上可以看到哪些主机（即文件每行最后@一串主机名）可访问本机

[atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop102
[atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop103
[atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop104
1
2
3
同理：
还需要在hadoop103上采用atguigu账号配置一下无密登录到hadoop102、hadoop103、hadoop104服务器上。
还需要在hadoop104上采用atguigu账号配置一下无密登录到hadoop102、hadoop103、hadoop104服务器上。
（以上，102、103和104的atguigu账号可以相互免密访问）

还需要在hadoop102上采用root账号，配置一下无密登录到hadoop102、hadoop103、hadoop104；hadoop103和104也用root账号无密登录配置了一遍。（这样，102、103和104的root账号可以相互免密访问）

最终可在每台机器的authorized_keys文件中看到，hadoop102、hadoop103、hadoop104两两之间皆可免密访问对方



2.4 集群配置***
1) 集群部署规划


当然，服务器资源足够，NameNode(NN)、SecondaryNameNode(2NN)和ResourceManager(RM)可以安装在同一台服务器上。

2）配置文件说明**
Hadoop配置文件分两类：默认配置文件和自定义配置文件，只有用户想修改某一默认配置值时，才需要修改自定义配置文件，更改相应属性值。
要获取的默认文件文件存放在Hadoop的jar包中的位置

（1）默认配置文件：

（2）自定义配置文件：
core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml四个配置文件存放在$HADOOP_HOME/etc/hadoop这个路径上，用户可以根据项目需求重新进行修改配置。


3）配置集群
根据 3.2.4的1)集群部署规划配置4个文件
（1）核心文件配置<core-site.xml>

1.指定NameNode，搜索<name>为"fs.defaultFS"，在value上写上内部通讯值hdfs://hadoop102:8020，此处默认值为“file://”本地路径
2.指定hadoop数据存储目录，搜索<name>为"hadoop.tmp.dir"，默认value值是/tmp/hadoop-${user.name}临时目录，我们的${user.name}是atguigu，(/tmp是临时目录，大概是1个月时间会删除该目录下的文件)，所以首先得更改一个目录/opt/module/hadoop-3.1.3，然后，使用value值改为/opt/module/hadoop-3.1.3/data，若该目录不存在，则会自动创建

3.HDFS网页登录使用的用户名（可先不配置）

core-site.xml文件内容如下：

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>

<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop102:8020</value>
</property>


<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-3.1.3/data</value>
</property>


<property>
<name>hadoop.http.staticuser.user</name>
<value>atguigu</value>
</property>
</configuration>

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
（2）HDFS配置文件<hdfs-site.xml>

1.NameNode Web端访问地址：hadoop102:9870
2.2NN Web端访问地址：hadoop104:9868

hdfs-site.xml文件内容如下：

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>

<property>
<name>dfs.namenode.http-address</name>
<value>hadoop102:9870</value>
</property>

<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoop104:9868</value>
</property>
</configuration>
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
（3）YARN配置文件<yarn-site.xml>

1.MR走什么协议？shuffle方式的资源调度
2.指定ResourceManager的地址：我们要指定103
3.环境变量的继承：环境变量+HADOOP_MAPRED_HOME，hadoop 3.2版本以上的，不需配置这一步。

yarn-site.xml文件内容如下

<configuration>

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>


<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop103</value>
</property>


<property>
<name>yarn.nodemanager.env-whitelist</name>
<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
</property>
</configuration>

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
（4）MapReduce配置文件<mapred-site.xml>

1.指定MapReduce程序运行在Yarn上，默认可以运行在local，可选值是local, classic or yarn
【注】后续配置时，都可先查看默认值和可选值是什么

mapred-site.xml文件内容如下：

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>

<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
1
2
3
4
5
6
7
8
9
10
4）在集群上分发配置好的Hadoop配置文件
用xsync命令，同步分发到103和104服务器上，只更新该目录下有不同的地方



5）查看文件分发情况
去103和104上查看文件分发情况



2.5 群起集群


配置文件在102、103、104上已完成，我们需要启动集群

1）配置workers
有几个节点，就配置几个works

[atguigu@hadoop102 hadoop]$ vim /opt/module/hadoop-3.1.3/etc/hadoop/workers
1
在该文件中增加如下内容：

hadoop102
hadoop103
hadoop104
1
2
3
注意：该文件中添加的内容结尾不允许有空格，文件中不允许有空行。
同步所有节点配置文件

[atguigu@hadoop102 hadoop]$ xsync /opt/module/hadoop-3.1.3/etc
1



2）启动集群
（1）格式化NameNode
如果集群是第一次启动，需要在hadoop102节点格式化NameNode（注意：格式化NameNode，会产生新的集群id，导致NameNode和DataNode的集群id不一致，集群找不到已往数据。如果集群在运行过程中报错，需要重新格式化NameNode的话，一定要先停止namenode和datanode进程，并且要删除所有机器的data和logs目录，然后再进行格式化。）



（2）启动HDFS
没报错说明配置没问题，新增了data和log目录，新增的data/dfs/name/current/VERSION文件中，可以看到namespaceID号 = 479101681



（3）Web端查看HDFS的NameNode
（a）浏览器中输入：http://hadoop102:9870
（b）查看HDFS上存储的数据信息


（4）启动YARN
在配置了ResourceManager的节点（hadoop103）启动YARN

[atguigu@hadoop103 hadoop-3.1.3]$ sbin/start-yarn.sh
1



（5）Web端查看YARN的ResourceManager
（a）浏览器中输入：http://hadoop103:8088
（b）查看YARN上运行的Job信息
3）集群基本测试
（1）上传文件到集群

上传小文件 [atguigu@hadoop102 ~]$ hadoop fs -mkdir /input #创建目录
[atguigu@hadoop102 ~]$ hadoop fs -put $HADOOP_HOME/wcinput/word.txt /input
上传大文件 [atguigu@hadoop102 ~]$ hadoop fs -put /opt/software/jdk-8u212-linux-x64.tar.gz /
（2）上传文件后查看文件存放在什么位置

查看HDFS文件存储路径
[atguigu@hadoop102 subdir0]$ pwd
/opt/module/hadoop-3.1.3/data/dfs/data/current/BP-1436128598-192.168.10.102-1610603650062/current/finalized/subdir0/subdir0
查看HDFS在磁盘存储文件内容
[atguigu@hadoop102 subdir0]$ cat blk_1073741825
hadoop yarn hadoop mapreduce atguigu atguigu
（3）拼接
-rw-rw-r–. 1 atguigu atguigu 134217728 5月 23 16:01 blk_1073741836
-rw-rw-r–. 1 atguigu atguigu 1048583 5月 23 16:01 blk_1073741836_1012.meta
-rw-rw-r–. 1 atguigu atguigu 63439959 5月 23 16:01 blk_1073741837
-rw-rw-r–. 1 atguigu atguigu 495635 5月 23 16:01 blk_1073741837_1013.meta [atguigu@hadoop102 subdir0]$ cat
blk_1073741836>>tmp.tar.gz [atguigu@hadoop102 subdir0]$ cat
blk_1073741837>>tmp.tar.gz [atguigu@hadoop102 subdir0]$ tar -zxvf
tmp.tar.gz
（4）下载
[atguigu@hadoop104 software]$ hadoop fs -get /jdk-8u212-linux-x64.tar.gz ./
（5）执行wordcount程序
[atguigu@hadoop102 hadoop-3.1.3]$ hadoop jar
share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount
/input /output
再执行wordcount程序，查看yarn如何调度。
执行MapReduce任务时，才执行Yarn，运行命令后，我们查看Web端yarn如何操作

数据存储位置是
/opt/module/hadoop-3.1.3/data/dfs/data/current/BP-1275363475-192.168.10.102-1683122676712/current/finalized/subdir0/subdir0，BP后面一串数字和 192.168.10.102后的一串数字根据自己电脑上的来

查看103和104的相同路径，确实存放着与102相同的数据。


4）集群崩溃处理办法
（1）YARN启动错误的服务器怎么办
这里我的3台虚拟机都重启了，服务也都停掉了，我们需要重启HDFS和YARN，由于不是首次启动集群，我们就不需要格式化NameNode

直接启动HDFS


启动YARN，操作失误，启动在102上。
需要先停掉102的YARN服务，sbin/stop-yarn.sh
再到103上开启YARN服务即可。


（2）误删重要文件/杀死关键进程怎么办？
破坏操作1，102上删除 DataNode
破坏操作2，102上删除 data目录
破坏操作3，103上删除 data目录
破坏操作4，104上删除 data目录


由于HDFS服务的老板NameNode（102上的data目录）被删了，所以
103上停YARN – 102上停HDFS – 102上启动HDFS，也无法正常启动HDFS服务


所以，HDFS服务的老板NameNode（102上的data目录）被删了，我们需要进行以下操作：

103上先停YARN ，102上再停HDFS（即先杀死相关进程）
format格式化NN
这样还是不行，jps中还是没有NN


【正确操作】如下：

103上先停YARN ，102上再停HDFS（即先杀死相关进程）
删除所有机子的data和log目录
format格式化NN
102启动HDFS，103启动YARN

2.6 配置历史服务器
要先关闭YARN服务，若在开启状态，就关闭再重启下


–daemon 启动守护进程，后台运行


快速准备下数据，别偷懒！敲下命令，熟悉下



为了查看程序的历史运行情况，需要配置一下历史服务器。具体配置步骤如下：

1）配置mapred-site.xml [atguigu@hadoop102 hadoop]$ vim mapred-site.xml 在该文件里面增加如下配置。


<property>
<name>mapreduce.jobhistory.address</name>
\<value>hadoop102:10020</value>
</property>

<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>hadoop102:19888</value>
</property>
1
2
3
4
5
6
7
8
9
10
2)分发配置

> [atguigu@hadoop102 hadoop]$ xsync $HADOOP_HOME/etc/hadoop/mapred-site.xml
1
3）在hadoop102启动历史服务器 [atguigu@hadoop102 hadoop]$ mapred --daemon start historyserver
4）查看历史服务器是否启动 [atguigu@hadoop102 hadoop]$ jps
5）查看JobHistory http://hadoop102:19888/jobhistory

2.7 配置日志的聚集
日志聚集概念：应用运行完成以后，将程序运行日志信息上传到HDFS系统上。


日志聚集功能好处：可以方便的查看到程序运行详情，方便开发调试。

注意：开启日志聚集功能，需要重新启动NodeManager 、ResourceManager和HistoryServer。

配置日志聚集前：

开启日志聚集功能具体步骤如下：
1）配置yarn-site.xml
[atguigu@hadoop102 hadoop]$ vim yarn-site.xml
在该文件里面增加如下配置。


<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>

<property>
<name>yarn.log.server.url</name>
<value>http://hadoop102:19888/jobhistory/logs</value>
</property>

<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
</property>
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
2）分发配置
[atguigu@hadoop102 hadoop]$ xsync H A D O O P H O M E / e t c / h a d o o p / y a r n − s i t e . x m l 3 ）关闭 N o d e M a n a g e r 、 R e s o u r c e M a n a g e r 和 H i s t o r y S e r v e r [ a t g u i g u @ h a d o o p 103 h a d o o p − 3.1.3 ] HADOOP_HOME/etc/hadoop/yarn-site.xml 3）关闭NodeManager 、ResourceManager和HistoryServer [atguigu@hadoop103 hadoop-3.1.3]HADOOP
H

OME/etc/hadoop/yarn−site.xml3）关闭NodeManager、ResourceManager和HistoryServer[atguigu@hadoop103hadoop−3.1.3] sbin/stop-yarn.sh
[atguigu@hadoop103 hadoop-3.1.3]$ mapred --daemon stop historyserver
4）启动NodeManager 、ResourceManage和HistoryServer
[atguigu@hadoop103 ~]$ start-yarn.sh
[atguigu@hadoop102 ~]$ mapred --daemon start historyserver
5）删除HDFS上已经存在的输出文件
[atguigu@hadoop102 ~]$ hadoop fs -rm -r /output
6）执行WordCount程序
[atguigu@hadoop102 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output
7）查看日志
————————————————
版权声明：本文为CSDN博主「华尔街的幻觉」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/sinat_29950703/article/details/130442395