博客 Hadoop运行模式

Hadoop运行模式

   数栈君   发表于 2024-01-11 10:26  95  0

1)Hadoop官方网站:http://hadoop.apache.org/
2)Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/43e4c03b6d8082c645e1801580426998..png
  
本地模式:单机运行,只是用来演示一下官方案例。生产环境不用。
伪分布式模式:也是单机运行,但是具备Hadoop集群的所有功能,一台服务器模拟一个分布式的环境。个别缺钱的公司用来测试,生产环境不用。
完全分布式模式:多台服务器组成分布式环境。生产环境使用。
1 本地运行模式(官方WordCount)
任务:统计一个文本的每个单词的个数

1)创建在hadoop-3.1.3文件下面创建一个wcinput文件夹
[atguigu@hadoop102 hadoop-3.1.3]$ mkdir wcinput
2)在wcinput文件下创建一个word.txt文件
[atguigu@hadoop102 hadoop-3.1.3]$ cd wcinput
3)编辑word.txt文件
[atguigu@hadoop102 wcinput]$ vim word.txt
在文件中输入如下内容
hadoop yarn
hadoop mapreduce
atguigu
atguigu
保存退出::wq
4)回到Hadoop目录/opt/module/hadoop-3.1.3
5)执行程序
[atguigu@hadoop102 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount wcinput wcoutput
6)查看结果
[atguigu@hadoop102 hadoop-3.1.3]$ cat wcoutput/part-r-00000
看到如下结果:
atguigu 2
hadoop 2
mapreduce 1
yarn 1
注:结果在输出路径下的part-r-00000文件

其中5)的执行程序

hadoop:执行Hadoop程序,也可以用/bin/hadoop
jar:用java包
jar包的路径:在share下,选择mapreduce的examples程序
选择一个功能案例:选择单词计数案例wordcount
输入路径:单词计数的文本路径
输出路径:在运行程序前,不能存在,否则会报错,它只能通过该程序自己生成。
2 完全分布式运行模式(开发重点)
分析:

1)准备3台客户机(关闭防火墙、静态IP、主机名称)
2)安装JDK
3)配置环境变量
4)安装Hadoop
5)配置环境变量
6)配置集群
7)单点启动
8)配置ssh
9)群起并测试集群

前5项已配置,重点在后面4项

2.1 虚拟机准备
详见2.1、2.2两节。

2.2 编写集群分发脚本xsync
先了解下两个命令scp和rsync

1)scp(secure copy)完全拷贝

(1)scp定义
scp可以实现服务器与服务器之间的数据拷贝。(from server1 to server2)

(2)基本语法
scp -r $pdir/$fname $user@$host:$pdir/$fname
命令 递归 要拷贝的文件路径/名称 目的地用户@主机:目的地路径/名称
(3)案例实操
前提:在hadoop102、hadoop103、hadoop104都已经创建好的/opt/module、 /opt/software两个目录,并且已经把这两个目录修改为atguigu:atguigu

[atguigu@hadoop102 ~]$ sudo chown atguigu:atguigu -R /opt/module
1
(a)在hadoop102上,将hadoop102中/opt/module/jdk1.8.0_212目录拷贝到hadoop103上。

[atguigu@hadoop102 ~]$ scp -r /opt/module/jdk1.8.0_212 atguigu@hadoop103:/opt/module
1
(b)在hadoop103上,将hadoop102中/opt/module/hadoop-3.1.3目录拷贝到hadoop103上。

[atguigu@hadoop103 ~]$ scp -r atguigu@hadoop102:/opt/module/hadoop-3.1.3 /opt/module/
1
(c)在hadoop103上操作,将hadoop102中/opt/module目录下所有目录拷贝到hadoop104上。

[atguigu@hadoop103 opt]$ scp -r atguigu@hadoop102:/opt/module/* atguigu@hadoop104:/opt/module
1
2)rsync远程同步工具
rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。
rsync和scp区别:用rsync做文件的复制要比scp的速度快,rsync只对差异文件做更新。scp是把所有文件都复制过去。

(1)基本语法
rsync -av $pdir/$fname $user@$host:$pdir/$fname
命令 选项参数 要拷贝的文件路径/名称 目的地用户@主机:目的地路径/名称
.
选项参数说明

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/cd725bea3b5609a50c469fbd3c63cc4f..png

(2)案例实操
(a)删除hadoop103中/opt/module/hadoop-3.1.3/wcinput

[atguigu@hadoop103 hadoop-3.1.3]$ rm -rf wcinput/
1
(b)同步hadoop102中的/opt/module/hadoop-3.1.3到hadoop103

[atguigu@hadoop102 module]$ rsync -av hadoop-3.1.3/
atguigu@hadoop103:/opt/module/hadoop-3.1.3/
1
2
3)xsynv集群分发脚本
(1)需求:循环复制文件到所有节点的相同目录下(就是生成一个命令xsynv,仿照rsynv命令的功能,基于rsync,实现集群的分发)
如hadoop102的家目录/home/atguigu,新增了一个文件a.txt,我们希望103和104的相同目录下/home/atguigu也生成a.txt。

(2)需求分析
(a)rsync命令原始拷贝,将同步目录A分发到指定目录B

rsync -av /opt/module atguigu@hadoop103:/opt/
1
(b)上述实现太复杂,希望写个脚本,生成一个命令xsynv,希望用sxync+同步目录A就能实现同步分发的功能
(c)并且希望脚本在任何路径都能使用(即脚本放在声明了全局环境变量的路径)

[atguigu@hadoop102 ~]$ echo $PATH
1
/usr/local/bin:/usr/bin:/usr/local/sbin:/usr/sbin:/home/atguigu/.local/bin:/home/atguigu/bin:/opt/module/jdk1.8.0_212/bin

(3)脚本实现
(a)在/home/atguigu/bin目录下创建xsync文件

[atguigu@hadoop102 opt]$ cd /home/atguigu
[atguigu@hadoop102 ~]$ mkdir bin
[atguigu@hadoop102 ~]$ cd bin
[atguigu@hadoop102 bin]$ vim xsync
1
2
3
4
在该文件中编写如下代码

#!/bin/bash

#1. 判断参数个数
if [ $# -lt 1 ]
then
echo Not Enough Arguement!
exit;
fi

#2. 遍历集群所有机器
for host in hadoop102 hadoop103 hadoop104
do
echo ==================== $host ====================
#3. 遍历所有目录,挨个发送

for file in $@
do
#4. 判断文件是否存在
if [ -e $file ]
then
#5. 获取父目录
pdir=$(cd -P $(dirname $file); pwd)

#6. 获取当前文件的名称
fname=$(basename $file)
ssh $host "mkdir -p $pdir"
rsync -av $pdir/$fname $host:$pdir
else
echo $file does not exists!
fi
done
done

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
【注】

$(dirname $file):全路径的文件名
cp -P :查文件的父目录
$(basename $file): 文件名
ssh $host:连接某台主机
mkdir -p $pdir:-p表示,创建文件,无论文件存在与否,都不会报错
rsync -av $pdir/$fname $host:$pdir中的$pdir/$fname是要同步的目录A,$host:$pdir是目的目录B,同步A目录到B目录,对B中的差异做更新
(b)修改脚本 xsync 具有执行权限

[atguigu@hadoop102 bin]$ chmod +x xsync
1
(c)测试脚本

[atguigu@hadoop102 ~]$ xsync /home/atguigu/bin
1
(d)将脚本复制到/bin中,以便全局调用
若就在/bin下创建的,

[atguigu@hadoop102 bin]$ sudo cp xsync /bin/
1
(e)同步环境变量配置(root所有者)

[atguigu@hadoop102 ~]$ sudo ./bin/xsync /etc/profile.d/my_env.sh
1
注意:如果用了sudo,那么xsync一定要给它的路径补全。
即xsync不能直接用,./bin/xsync要写全

(f)让环境变量生效

[atguigu@hadoop103 bin]$ source /etc/profile
[atguigu@hadoop104 opt]$ source /etc/profile
1
2
2.3 SSH无密登录配置
1)配置ssh

(1)基本语法 ssh另一台电脑的IP地址
(2)ssh连接时出现Host key verification failed的解决方法

[atguigu@hadoop102 ~]$ ssh hadoop103
1
如果出现如下内容
Are you sure you want to continue connecting (yes/no)?
输入yes,并回车
(3)退回到hadoop102

[atguigu@hadoop103 ~]$ exit
1
2)无密钥配置
(1)免密登录原理
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/b5bd0b3b8dfd17d2d6844d36a6347998..png
  

在A服务器上,生成ssh-key-gen秘钥对(公钥-秘钥)
把公钥(A)拷贝到B服务器上,B服务器会放到一个已授权的目录Authorized_keys下,即只要遇到A访问B,都免密登录
当A通过ssh访问B,B要做什么?B要接收数据,取Authorized_keys查找有无A的公钥,如果有:B会采用公钥A加密的数据返回A,A会用私钥A解密数据,数据只有A能看
.
【注】:当你把公钥发给谁,就默认对方接收了你的请求,允许你免密访问对方。

(2)生成公钥和私钥
【记住生成命令】 ssh-keygen -t rsa

生成在家目录的.ssh隐藏目录下

[atguigu@hadoop102 .ssh]$ pwd
/home/atguigu/.ssh

[atguigu@hadoop102 .ssh]$ ssh-keygen -t rsa
1
2
3
4
然后敲(三个回车),就会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥)

(3)将公钥拷贝到要免密登录的目标机器上
【记住命令】ssh-copy-id + 目标机器

以hadoop102为例,配置无密登录到hadoop102、hadoop103、hadoop104;是的,hadoop102本机也配置下无密登录,配置后,在authorized_keys文件上可以看到哪些主机(即文件每行最后@一串主机名)可访问本机

[atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop102
[atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop103
[atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop104
1
2
3
同理:
还需要在hadoop103上采用atguigu账号配置一下无密登录到hadoop102、hadoop103、hadoop104服务器上。
还需要在hadoop104上采用atguigu账号配置一下无密登录到hadoop102、hadoop103、hadoop104服务器上。
(以上,102、103和104的atguigu账号可以相互免密访问)

还需要在hadoop102上采用root账号,配置一下无密登录到hadoop102、hadoop103、hadoop104;hadoop103和104也用root账号无密登录配置了一遍。(这样,102、103和104的root账号可以相互免密访问)

最终可在每台机器的authorized_keys文件中看到,hadoop102、hadoop103、hadoop104两两之间皆可免密访问对方
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/6e0b4939d8a1fb543e2b09131d7fab72..png
  

2.4 集群配置***
1) 集群部署规划
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/34105f952a5b525459eaebf457bd9ac0..png
  
当然,服务器资源足够,NameNode(NN)、SecondaryNameNode(2NN)和ResourceManager(RM)可以安装在同一台服务器上。

2)配置文件说明**
Hadoop配置文件分两类:默认配置文件和自定义配置文件,只有用户想修改某一默认配置值时,才需要修改自定义配置文件,更改相应属性值。
要获取的默认文件 文件存放在Hadoop的jar包中的位置

(1)默认配置文件:

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/413c92e2525eb90ff35871d0a0df2f31..png
  
(2)自定义配置文件:
core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml四个配置文件存放在$HADOOP_HOME/etc/hadoop这个路径上,用户可以根据项目需求重新进行修改配置。
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/96cd1108ced4d79ceb1b63cf7a426f3d..png
  
3)配置集群
根据 3.2.4的1)集群部署规划配置4个文件
(1)核心文件配置<core-site.xml>

1.指定NameNode,搜索<name>为"fs.defaultFS",在value上写上内部通讯值hdfs://hadoop102:8020,此处默认值为“file://”本地路径
2.指定hadoop数据存储目录,搜索<name>为"hadoop.tmp.dir",默认value值是/tmp/hadoop-${user.name}临时目录,我们的${user.name}是atguigu,(/tmp是临时目录,大概是1个月时间会删除该目录下的文件),所以首先得更改一个目录/opt/module/hadoop-3.1.3,然后,使用value值改为/opt/module/hadoop-3.1.3/data,若该目录不存在,则会自动创建

3.HDFS网页登录使用的用户名(可先不配置)

core-site.xml文件内容如下:

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
<!-- 指定NameNode的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop102:8020</value>
</property>

<!-- 指定hadoop数据的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-3.1.3/data</value>
</property>

<!-- 配置HDFS网页登录使用的静态用户为atguigu -->
<property>
<name>hadoop.http.staticuser.user</name>
<value>atguigu</value>
</property>
</configuration>

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
(2)HDFS配置文件<hdfs-site.xml>

1.NameNode Web端访问地址:hadoop102:9870
2.2NN Web端访问地址:hadoop104:9868

hdfs-site.xml文件内容如下:

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
<!-- nn web端访问地址-->
<property>
<name>dfs.namenode.http-address</name>
<value>hadoop102:9870</value>
</property>
<!-- 2nn web端访问地址-->
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoop104:9868</value>
</property>
</configuration>
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
(3)YARN配置文件<yarn-site.xml>

1.MR走什么协议?shuffle方式的资源调度
2.指定ResourceManager的地址:我们要指定103
3.环境变量的继承:环境变量+HADOOP_MAPRED_HOME,hadoop 3.2版本以上的,不需配置这一步。

yarn-site.xml文件内容如下

<configuration>
<!-- 指定MR走shuffle -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

<!-- 指定ResourceManager的地址-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop103</value>
</property>

<!-- 环境变量的继承 -->
<property>
<name>yarn.nodemanager.env-whitelist</name>
<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
</property>
</configuration>

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
(4)MapReduce配置文件<mapred-site.xml>

1.指定MapReduce程序运行在Yarn上,默认可以运行在local,可选值是local, classic or yarn
【注】后续配置时,都可先查看默认值和可选值是什么

mapred-site.xml文件内容如下:

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
<!-- 指定MapReduce程序运行在Yarn上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
1
2
3
4
5
6
7
8
9
10
4)在集群上分发配置好的Hadoop配置文件
用xsync命令,同步分发到103和104服务器上,只更新该目录下有不同的地方
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/fcccc8e189b41a75dd8d4bd6f8d2db8b..png
  

5)查看文件分发情况
去103和104上查看文件分发情况
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/7a6857363f2ae0b81c3462395cee2645..jpeg
  

2.5 群起集群
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/d4030024c12fcdf7cdf76b7b42b9c6fe..png
  
配置文件在102、103、104上已完成,我们需要启动集群

1)配置workers
有几个节点,就配置几个works

[atguigu@hadoop102 hadoop]$ vim /opt/module/hadoop-3.1.3/etc/hadoop/workers
1
在该文件中增加如下内容:

hadoop102
hadoop103
hadoop104
1
2
3
注意:该文件中添加的内容结尾不允许有空格,文件中不允许有空行。
同步所有节点配置文件

[atguigu@hadoop102 hadoop]$ xsync /opt/module/hadoop-3.1.3/etc
1
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/16a9293c1b15e0661ae80fd09e532c45..png
  

2)启动集群
(1)格式化NameNode
如果集群是第一次启动,需要在hadoop102节点格式化NameNode(注意:格式化NameNode,会产生新的集群id,导致NameNode和DataNode的集群id不一致,集群找不到已往数据。如果集群在运行过程中报错,需要重新格式化NameNode的话,一定要先停止namenode和datanode进程,并且要删除所有机器的data和logs目录,然后再进行格式化。)
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/14dfac3802a538141f60a83322cc0c5e..png
  

(2)启动HDFS
没报错说明配置没问题,新增了data和log目录,新增的data/dfs/name/current/VERSION文件中,可以看到namespaceID号 = 479101681
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/8b1ed7cec21875e4891569c6cdf692e9..png
  

(3)Web端查看HDFS的NameNode
(a)浏览器中输入:http://hadoop102:9870
(b)查看HDFS上存储的数据信息
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/2eb279571629159ded329c95f06359af..png
  
(4)启动YARN
在配置了ResourceManager的节点(hadoop103)启动YARN

[atguigu@hadoop103 hadoop-3.1.3]$ sbin/start-yarn.sh
1
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/297e1017f1fd108efb20707fc02113ac..png
  

(5)Web端查看YARN的ResourceManager
(a)浏览器中输入:http://hadoop103:8088
(b)查看YARN上运行的Job信息
3)集群基本测试
(1)上传文件到集群

上传小文件 [atguigu@hadoop102 ~]$ hadoop fs -mkdir /input #创建目录
[atguigu@hadoop102 ~]$ hadoop fs -put $HADOOP_HOME/wcinput/word.txt /input
上传大文件 [atguigu@hadoop102 ~]$ hadoop fs -put /opt/software/jdk-8u212-linux-x64.tar.gz /
(2)上传文件后查看文件存放在什么位置

查看HDFS文件存储路径
[atguigu@hadoop102 subdir0]$ pwd
/opt/module/hadoop-3.1.3/data/dfs/data/current/BP-1436128598-192.168.10.102-1610603650062/current/finalized/subdir0/subdir0
查看HDFS在磁盘存储文件内容
[atguigu@hadoop102 subdir0]$ cat blk_1073741825
hadoop yarn hadoop mapreduce atguigu atguigu
(3)拼接
-rw-rw-r–. 1 atguigu atguigu 134217728 5月 23 16:01 blk_1073741836
-rw-rw-r–. 1 atguigu atguigu 1048583 5月 23 16:01 blk_1073741836_1012.meta
-rw-rw-r–. 1 atguigu atguigu 63439959 5月 23 16:01 blk_1073741837
-rw-rw-r–. 1 atguigu atguigu 495635 5月 23 16:01 blk_1073741837_1013.meta [atguigu@hadoop102 subdir0]$ cat
blk_1073741836>>tmp.tar.gz [atguigu@hadoop102 subdir0]$ cat
blk_1073741837>>tmp.tar.gz [atguigu@hadoop102 subdir0]$ tar -zxvf
tmp.tar.gz
(4)下载
[atguigu@hadoop104 software]$ hadoop fs -get /jdk-8u212-linux-x64.tar.gz ./
(5)执行wordcount程序
[atguigu@hadoop102 hadoop-3.1.3]$ hadoop jar
share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount
/input /output
再执行wordcount程序,查看yarn如何调度。
执行MapReduce任务时,才执行Yarn,运行命令后,我们查看Web端yarn如何操作

数据存储位置是
/opt/module/hadoop-3.1.3/data/dfs/data/current/BP-1275363475-192.168.10.102-1683122676712/current/finalized/subdir0/subdir0,BP后面一串数字 和 192.168.10.102后的一串数字根据自己电脑上的来

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/fa36782b1582b8b8c76f990c7636594b..png
 

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/9248414a07053a610194a91a2e2e26d9..png
 
查看103和104的相同路径,确实存放着与102相同的数据。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/cae171f0756c0ec0a36c6db7555714a2..png
  
4)集群崩溃处理办法
(1)YARN启动错误的服务器怎么办
这里我的3台虚拟机都重启了,服务也都停掉了,我们需要重启HDFS和YARN,由于不是首次启动集群,我们就不需要格式化NameNode

直接启动HDFS
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/3e16ee990b3decfdb8a2af496f568c06..png
  
启动YARN,操作失误,启动在102上。
需要先停掉102的YARN服务,sbin/stop-yarn.sh
再到103上开启YARN服务即可。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/e53f57376fbc87542afd66fdcf8b50e5..png
  
(2)误删重要文件/杀死关键进程怎么办?
破坏操作1,102上删除 DataNode
破坏操作2,102上删除 data目录
破坏操作3,103上删除 data目录
破坏操作4,104上删除 data目录
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/4af8a62abbda654c266bacdabca2a872..png
  
由于HDFS服务的老板NameNode(102上的data目录)被删了,所以
103上停YARN – 102上停HDFS – 102上启动HDFS,也无法正常启动HDFS服务
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/c7f663437f3843d84280013c090e4ea7..png
  
所以,HDFS服务的老板NameNode(102上的data目录)被删了,我们需要进行以下操作:

103上先停YARN ,102上再停HDFS(即先杀死相关进程)
format格式化NN
这样还是不行,jps中还是没有NN
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/41ebcac96b6611d41fd14eb3f666b3dd..png
  
【正确操作】如下:

103上先停YARN ,102上再停HDFS(即先杀死相关进程)
删除所有机子的data和log目录
format格式化NN
102启动HDFS,103启动YARN
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/09e6d4799066599b31740e9f0e355b41..png
  

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/c63750750cfa7095b4edd66176f6c531..png
  

2.6 配置历史服务器
要先关闭YARN服务,若在开启状态,就关闭再重启下
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/b5f4fcc8324912fac5aceb9af26ddbbc..png
  
–daemon 启动守护进程,后台运行
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/7f18e7f3b41d6b02f9f7de224123aaf7..png
  
快速准备下数据,别偷懒!敲下命令,熟悉下
http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/0ba8a3a6f70373b0f3bf12f5000cc515..png
  

为了查看程序的历史运行情况,需要配置一下历史服务器。具体配置步骤如下:

1)配置mapred-site.xml [atguigu@hadoop102 hadoop]$ vim mapred-site.xml 在该文件里面增加如下配置。

<!-- 历史服务器端地址 -->
<property>
<name>mapreduce.jobhistory.address</name>
\<value>hadoop102:10020</value>
</property>
<!-- 历史服务器web端地址 -->
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>hadoop102:19888</value>
</property>
1
2
3
4
5
6
7
8
9
10
2)分发配置

> [atguigu@hadoop102 hadoop]$ xsync $HADOOP_HOME/etc/hadoop/mapred-site.xml
1
3)在hadoop102启动历史服务器 [atguigu@hadoop102 hadoop]$ mapred --daemon start historyserver
4)查看历史服务器是否启动 [atguigu@hadoop102 hadoop]$ jps
5)查看JobHistory http://hadoop102:19888/jobhistory

2.7 配置日志的聚集
日志聚集概念:应用运行完成以后,将程序运行日志信息上传到HDFS系统上。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/4dbd9e4e7d007de7234499ce359c938c..png
  
日志聚集功能好处:可以方便的查看到程序运行详情,方便开发调试。

注意:开启日志聚集功能,需要重新启动NodeManager 、ResourceManager和HistoryServer。

配置日志聚集前:

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/810d19c754dfb45255ba91a87c74bd28..png
 

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/3cdab0cfafb0e3ef65372e9b0f46a409..png
 

开启日志聚集功能具体步骤如下:
1)配置yarn-site.xml
[atguigu@hadoop102 hadoop]$ vim yarn-site.xml
在该文件里面增加如下配置。

<!-- 开启日志聚集功能 -->
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<!-- 设置日志聚集服务器地址 -->
<property>
<name>yarn.log.server.url</name>
<value>http://hadoop102:19888/jobhistory/logs</value>
</property>
<!-- 设置日志保留时间为7天 -->
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
</property>
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
2)分发配置
[atguigu@hadoop102 hadoop]$ xsync H A D O O P H O M E / e t c / h a d o o p / y a r n − s i t e . x m l 3 )关闭 N o d e M a n a g e r 、 R e s o u r c e M a n a g e r 和 H i s t o r y S e r v e r [ a t g u i g u @ h a d o o p 103 h a d o o p − 3.1.3 ] HADOOP_HOME/etc/hadoop/yarn-site.xml 3)关闭NodeManager 、ResourceManager和HistoryServer [atguigu@hadoop103 hadoop-3.1.3]HADOOP
H

OME/etc/hadoop/yarn−site.xml3)关闭NodeManager、ResourceManager和HistoryServer[atguigu@hadoop103hadoop−3.1.3] sbin/stop-yarn.sh
[atguigu@hadoop103 hadoop-3.1.3]$ mapred --daemon stop historyserver
4)启动NodeManager 、ResourceManage和HistoryServer
[atguigu@hadoop103 ~]$ start-yarn.sh
[atguigu@hadoop102 ~]$ mapred --daemon start historyserver
5)删除HDFS上已经存在的输出文件
[atguigu@hadoop102 ~]$ hadoop fs -rm -r /output
6)执行WordCount程序
[atguigu@hadoop102 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output
7)查看日志
————————————————
版权声明:本文为CSDN博主「华尔街的幻觉」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/sinat_29950703/article/details/130442395

免责申明:

本文系转载,版权归原作者所有,如若侵权请联系我们进行删除!


《数据治理行业实践白皮书》下载地址:https://fs80.cn/4w2atu

《数栈V6.0产品白皮书》下载地址:https://fs80.cn/cw0iw1

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack  
0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群