博客一文搞懂Hadoop使用方法，大数据入门必备

一文搞懂Hadoop使用方法，大数据入门必备

数栈君发表于 2025-01-21 10:58 399 0

一、Hadoop 是何方神圣？

在当今数字化时代，数据呈爆炸式增长态势，如何高效地进行海量数据的存储与处理，已然成为企业及科研机构所面临的关键挑战。而 Hadoop，作为一款开源的分布式系统基础架构，在大数据领域那可是当之无愧的 “顶流”！

Hadoop 的诞生，要追溯到互联网蓬勃发展的时期。那时，传统的数据处理方式在海量数据面前显得力不从心，于是 Hadoop 应运而生，其设计初衷就是为了能在廉价的硬件集群上，可靠地存储并高效处理大规模数据。

它有三大核心组件，分别是 Hadoop 分布式文件系统（HDFS）、MapReduce 和 YARN（Yet Another Resource Negotiator）。HDFS 就像是一个超级大仓库，负责把数据分割成多个块，分布式地存储在集群的不同节点上，哪怕某个节点 “闹脾气” 出故障了，数据也安然无恙，因为它有数据冗余机制，每个数据块默认会在不同节点存三个副本呢，这可靠性、可用性和容错性，杠杠的！MapReduce 则是 Hadoop 的 “计算大师”，它把复杂计算任务拆成 Map 和 Reduce 两个阶段，先将数据分片并行处理生成键值对，再合并相同键的值，轻松实现大规模数据的并行处理。还有 YARN，这个 Hadoop 2.0 引入的资源管理系统，宛如一位精明的管家，负责集群资源的管理与调度，把 CPU、内存等资源合理分配给各个应用程序，让一切都井井有条。

二、上手前的准备工作

所谓 “工欲善其事，必先利其器”，要想玩转 Hadoop，准备工作可得做足咯！

在硬件方面，要是你想搭建个小型的 Hadoop 集群用于学习或测试，那至少得准备三台配置还不错的机器，处理器呢，四核或八核的多核处理器为佳，内存起码 16GB 起，硬盘空间也得留个 500GB 往上，要是有 SSD 固态硬盘那自然更好，数据读写速度 “蹭蹭” 的。要是用于企业生产环境，那根据数据规模和处理需求，得规划大规模的集群，配置要求就更高啦。

操作系统的话，Hadoop 对 Linux 最为偏爱，像 Ubuntu、CentOS 这些主流 Linux 发行版都是不错的选择，它们对分布式计算的支持那叫一个到位，能让 Hadoop 的性能充分发挥。当然，Windows 和 macOS 也能运行 Hadoop，但在实际部署中，Linux 的稳定性和兼容性优势明显，是大多数开发者的首选。

还有个关键的 “小伙伴” 不能忘，那就是 Java。因为 Hadoop 是用 Java 编写的，所以得安装 Java Development Kit（JDK），版本建议选择 Java 8 或更高，低版本可能会跟 Hadoop “闹别扭”，不兼容。

接下来，手把手教你安装 JDK 并配置环境变量。以在 Linux 系统下安装 JDK 8 为例，先去 Oracle 官网下载对应 Linux 版本的 JDK 安装包，比如 “jdk-8uXXX-linux-x64.tar.gz”（XXX 代表具体版本号）。下载好后，打开终端，要是用的是 Ubuntu 系统，输入命令 “sudo apt-get update” 更新软件包列表，接着 “sudo apt-get install default-jdk” 安装 OpenJDK，安装过程中按提示操作就行。要是手动下载的安装包，就先把它上传到 Linux 系统里，假设传到了 “/opt/software” 目录下，那就依次执行以下命令：

cd /opt/software

tar -zxvf jdk-8uXXX-linux-x64.tar.gz -C /opt/module

这就把 JDK 解压到 “/opt/module” 目录下啦。然后配置环境变量，打开 “/etc/profile” 文件，输入 “sudo vim /etc/profile”，在文件末尾添加这些内容：

export JAVA\_HOME=/opt/module/jdk1.8.0\_XXX

export PATH=\$PATH:\$JAVA\_HOME/bin

保存并退出（在 vim 里按 “Esc” 键，再输入 “:wq”），最后执行 “source /etc/profile” 让配置生效。验证一下，在终端输入 “java -version”，要是显示出 Java 版本信息，那就大功告成，JDK 安装妥当了！

三、安装 Hadoop 保姆级教程

（一）下载安装包

万事俱备，只欠东风，接下来就去把 Hadoop “请” 到咱们的系统里。打开 Hadoop 官网（https://hadoop.apache.org/releases.html），这里汇聚了 Hadoop 的各个版本，宛如一个 “软件宝库”。

目前主流的是 Hadoop 3.x 版本，它在存储效率、性能优化等方面可比前辈们强不少。就拿存储来说，Hadoop 2.x 用的是 3X 副本方案，存储空间有 200％的开销，而 Hadoop 3.x 支持 HDFS 中的擦除编码，存储开销一下子就减到仅 50％，这可帮企业省下不少硬件成本呢！所以，要是没有特殊的兼容性需求，咱就优先选 Hadoop 3.x 版本。选好版本后，找到对应的下载链接，一般是个以 “.tar.gz” 结尾的压缩包，点击下载就行，耐心等它 “飞奔” 到咱们的电脑里。

（二）解压安装

下载完成后，在 Linux 系统终端里找到下载目录，假设下载的是 “hadoop-3.x.y.tar.gz”（x、y 代表具体版本号），执行解压命令：

tar -zxvf hadoop-3.x.y.tar.gz -C /opt/module

这就把 Hadoop 解压到 “/opt/module” 目录下啦，你要是想换个安装目录，把 “/opt/module” 改成自己心仪的路径就行，不过可得记好咯！解压完，进入 Hadoop 安装目录瞅瞅，像 “bin” 目录，这里面藏着操作 Hadoop 相关服务（HDFS、Yarn）的脚本，是咱们日常运维的得力助手；“etc” 目录则存放着 Hadoop 配置文件，后面配置集群全靠它们；“sbin” 目录里的启动 / 关闭脚本，掌控着 Hadoop 集群的 “生杀大权”。熟悉下这些目录结构，后面操作起来就能得心应手。

四、核心配置文件全解析

（一）core-site.xml：核心中的核心

core-site.xml 那可是 Hadoop 的核心配置文件，它就像一位总指挥，掌控着 Hadoop 集群的诸多关键设置。

比如说 “fs.defaultFS”，这个参数指定了 Hadoop 集群默认的文件系统 URI，像 “hdfs://localhost:9000”，这就表明咱们的 Hadoop 默认使用本地主机 9000 端口上的 HDFS 作为文件系统。要是集群有多个节点，就得把 “localhost” 换成对应的主机名或 IP 地址，确保各个节点都能准确找到文件系统的 “大门”。

再讲讲 “hadoop.tmp.dir”，它指定了 Hadoop 的临时文件存储目录，这可是个重要的 “临时仓库”，像数据块的临时副本、运行时产生的中间数据等都会存放在这儿。合理设置这个目录，能避免因临时文件乱放导致的磁盘空间不足问题，要是不设置，Hadoop 可能就会 “晕头转向”，不知道把临时文件放哪儿咯。

还有 “io.file.buffer.size”，它决定了 Hadoop 读写文件时的缓冲区大小，默认值一般是 4096 字节。要是处理的大多是大文件，适当调大这个缓冲区大小，能让文件读写速度更快，就像给数据传输开了一条 “高速公路”，但也不能调得太大，不然会占用过多内存，得根据实际情况 “量体裁衣”。

（二）hdfs-site.xml：HDFS 的专属管家

hdfs-site.xml 是 Hadoop 分布式文件系统（HDFS）的 “专属管家”，负责管理 HDFS 的各项参数。

“dfs.replication” 参数指定了 HDFS 中数据块的副本数量，默认是 3 份。副本多了，数据可靠性高，但也会占用更多存储空间；副本少了，万一节点出故障，数据丢失风险就大了。所以得根据集群规模、数据重要性等因素来权衡，要是集群节点多、硬件资源充足，数据又至关重要，多设几个副本也无妨。

“dfs.namenode.name.dir” 和 “dfs.datanode.data.dir” 分别指定了 NameNode 和 DataNode 存储数据的目录。NameNode 存储的是文件系统的元数据，像文件名、目录结构、文件块映射等信息，这些数据可是 HDFS 的 “导航图”，丢不得，所以得找个可靠的存储位置，最好是冗余存储，防止磁盘故障导致元数据丢失；DataNode 存储的是实实在在的数据块，一般会设置多个存储目录，分布在不同磁盘上，提高数据读写性能。

“dfs.permissions.enabled” 参数决定是否启用 HDFS 的权限控制，默认是启用的。启用后，就可以像管理普通文件系统一样，给不同用户或用户组设置对文件和目录的读、写、执行权限，保障数据安全，防止未经授权的访问。

（三）mapred-site.xml：MapReduce 的调度大师

mapred-site.xml 是 MapReduce 的 “调度大师”，掌控着 MapReduce 任务的运行方式。

“mapreduce.framework.name” 参数指定了 MapReduce 框架的名称，常见的值有 “yarn” 和 “classic”。如今，大部分场景都使用 “yarn”，它能更好地与 YARN 资源管理系统协同工作，让 MapReduce 任务高效地获取所需资源，就像给任务分配了一个贴心的 “资源小助手”。

“mapreduce.map.memory.mb” 和 “mapreduce.reduce.memory.mb” 分别指定了每个 Map 任务和 Reduce 任务所需的内存量，默认值一般是 1024MB。要是处理的数据量大、任务复杂，就得适当增加内存分配，不然任务可能会因为内存不足而 “罢工”，甚至导致整个作业运行缓慢。

另外，像 “mapreduce.map.java.opts” 和 “mapreduce.reduce.java.opts” 这两个参数，主要是为运行 JVM 程序准备的，可以向 JVM 传递参数，比如设置最大堆内存 “-Xmx”、初始堆内存 “-Xms” 等选项。合理设置这些参数，能让 Java 程序在运行 MapReduce 任务时更加稳定高效，避免因内存溢出等问题导致任务失败。

（四）yarn-site.xml：资源调度的大管家

yarn-site.xml 则是 YARN（Yet Another Resource Negotiator）这个资源管理系统的 “大管家”，负责集群资源的精细调配。

“yarn.resourcemanager.hostname” 指定了 ResourceManager 的主机名，这可是 YARN 集群的 “指挥官” 所在，所有资源分配指令都从这儿发出，各个节点都得知道它在哪儿，才能听从指挥，协同工作。

“yarn.scheduler.minimum-allocation-mb” 和 “yarn.scheduler.maximum-allocation-mb” 分别指定了单个容器可申请的最小与最大内存。这就好比给每个任务分配资源时的 “上下限”，应用在运行申请内存时不能超过最大值，小于最小值则分配最小值，避免资源浪费和过度竞争，确保每个任务都能得到合理的资源份额。

“yarn.nodemanager.resource.memory-mb” 指定了 NodeManager 的可用内存大小，也就是每个节点能贡献出来给任务使用的总内存。这个参数得根据节点的实际物理内存来设置，既不能设得太大，让节点不堪重负，也不能设得太小，导致资源闲置，要找到那个 “黄金平衡点”，让集群资源得到充分利用。这些核心配置文件相互配合，就像精密齿轮组一样，驱动着 Hadoop 集群稳定、高效地运行。每个参数的调整都可能对集群性能产生影响，所以在配置时，一定要充分了解集群的需求和运行环境，谨慎调整，才能让 Hadoop 发挥出最大的威力。

五、启动与停止操作指南

万事俱备，只欠东风，配置完咱就可以启动 Hadoop 集群，开启大数据处理之旅啦！不过，首次启动时，得先格式化 NameNode，这一步就像是为数据仓库 “奠基”，非常重要。进入 Hadoop 安装目录下的 “bin” 目录，执行命令：

hadoop namenode -format

这命令一敲下去，就会创建 HDFS 的初始元数据，像文件系统的目录结构、权限信息等，都在这儿 “安家落户”。但要注意咯，格式化操作会清空原有元数据，要是集群里已经存了重要数据，可千万别手抖，得提前备份好。

格式化完成后，就可以正式启动啦。启动 HDFS 相关服务，执行命令：

start-dfs.sh

这脚本一跑，NameNode、DataNode、Secondary NameNode 等组件就会相继启动，仿佛是一场 “集体大合唱”，奏响大数据存储的乐章。要是你想单独启动某个组件，比如只想启动 NameNode，那就执行：

hadoop-daemon.sh start namenode

依此类推，DataNode 就把 “namenode” 换成 “datanode”，Secondary NameNode 换成 “secondarynamenode” 就行。

启动 YARN 服务，执行命令：

start-yarn.sh

它会把 ResourceManager 和 NodeManager 唤醒，开启资源管理与任务调度的使命，让 MapReduce 任务能顺利获取资源，高效运行。

服务都启动后，怎么知道它们是不是正常运行呢？在终端输入 “jps” 命令，就像给集群来个 “点名”，要是看到类似 “NameNode”“DataNode”“ResourceManager”“NodeManager” 这些进程名，那就说明对应的服务已经 “精神抖擞” 地在工作啦。还可以通过浏览器访问 Hadoop 的 Web 界面，HDFS 的 Web 界面地址一般是 “http://<namenode 主机名 >:50070”，在这里能查看文件系统的使用情况、节点状态等信息；YARN 的 Web 界面地址是 “http://<resourcemanager 主机名 >:8088”，能监控任务的运行进度、资源分配情况，一切尽在掌握之中。

那用完 Hadoop，怎么关停呢？关停 HDFS 服务，执行：

stop-dfs.sh

关停 YARN 服务，执行：

stop-yarn.sh

要是想一次性关停所有 Hadoop 服务，简单粗暴，执行：

stop-all.sh

不过关停也得按顺序来，别乱了套，不然数据可能会 “闹情绪”，出现丢失或损坏的情况。启动与停止操作虽然看似简单，但每个步骤都关乎集群的稳定运行，可得小心谨慎，别出岔子。

六、常用操作命令大汇总

（一）HDFS 命令：掌控文件系统的 “魔法棒”

HDFS 命令可是咱们日常操作 Hadoop 分布式文件系统的得力工具，功能超丰富。

先看文件目录操作，要是想在 HDFS 里创建个新目录，就用 “hadoop fs -mkdir” 命令，比如 “hadoop fs -mkdir /user/hadoop/data”，这就轻松在 HDFS 的 “/user/hadoop” 下创建了个 “data” 目录，要是父目录不存在，还能用 “-p” 参数，像 “hadoop fs -mkdir -p /user/hadoop/new/data”，它会自动把缺失的父目录一并创建好，超贴心。查看目录内容呢，“hadoop fs -ls” 命令来帮忙，“hadoop fs -ls /user/hadoop”，瞬间列出指定目录下的文件和子目录，加上 “-R” 参数，还能递归查看所有子目录内容，就像给文件系统做个 “全身扫描”，一切尽收眼底。

文件上传下载也不在话下，从本地文件系统上传文件到 HDFS，用 “hadoop fs -put”，例如 “hadoop fs -put localfile.txt/user/hadoop/hdfsfile.txt”，就能把本地的 “localfile.txt” 传上去并改名为 “hdfsfile.txt” 存到指定位置，要是批量上传多个文件或目录，它也能轻松搞定。反过来，从 HDFS 下载文件到本地，“hadoop fs -get” 大显身手，“hadoop fs -get /user/hadoop/hdfsfile.txt localfile.txt”，就把 HDFS 里的文件拽到本地啦，注意哦，本地文件名不能和 HDFS 里的重名，不然会报错。

查看文件状态信息，“hadoop fs -stat” 是个好帮手，“hadoop fs -stat % n % o /user/hadoop/hdfsfile.txt”，能查看文件的文件名（% n）、块大小（% o）等详细信息，这对了解文件存储情况可有用啦。

（二）MapReduce 命令：驱动计算的 “引擎”

MapReduce 命令能帮咱们高效运行和管理计算任务。

运行 MapReduce 作业，最常用的就是 “hadoop jar” 命令，假设咱们有个打包好的 WordCount 示例程序 “wordcount.jar”，要处理 HDFS 里 “/input” 目录下的文本文件，结果输出到 “/output” 目录，那就执行 “hadoop jar wordcount.jar WordCount /input/output”，Hadoop 就会自动分配资源，开启 Map 和 Reduce 任务，把单词计数工作完成得漂漂亮亮。

查看 MapReduce 作业历史信息也很重要，通过 YARN 的 Web 界面（一般是 “http://<resourcemanager 主机名>:8088”），能看到作业的运行状态、耗时、资源使用等详细记录，要是作业出问题了，在这里找线索准没错，就像给作业做个 “事后复盘”，为后续优化提供依据。

（三）YARN 命令：调度资源的 “指挥棒”

YARN 命令用于管理和监控集群资源，确保任务顺畅运行。

查看集群资源使用情况，“yarn top” 命令一敲，集群的 CPU、内存等资源使用情况一目了然，哪个应用占用资源多，哪个节点负载高，都看得清清楚楚，方便咱们及时调整资源分配策略，避免资源 “堵车”。

提交应用到 YARN 集群，“yarn application -submit” 上场，先准备好应用配置文件（比如 “application.xml”），里面包含应用名称、所需资源、运行命令等信息，然后执行 “yarn application -submit -appname myapp -file application.xml -classpath myapp.jar -mainclass com.example.MyApp”，就能把咱们精心开发的应用送上 “生产线”，让它在集群里高效运行。这些常用操作命令是咱们玩转 Hadoop 的必备技能，多练多用，就能像老司机一样，在大数据的 “高速公路” 上畅行无阻啦！

七、案例实战：WordCount 程序

为了让大家更直观地感受 Hadoop 的强大，咱们来实战演练一下经典的 WordCount 程序，它能快速统计文本文件里各个单词的出现次数，就像一位 “文字侦探”，把文本里的单词信息摸得一清二楚。

（一）本地模式

本地模式就像是在自己的 “小实验室” 里做实验，不需要搭建复杂的集群，简单快捷，适合初步测试和学习。

先准备数据，在 Hadoop 安装目录下创建个 “wcinput” 文件夹，进入该文件夹后，用文本编辑器创建个 “wc.input” 文件，在里面随性输入一些文本，比如 “Hello Hadoop, Hello World, I love big data” 之类的。接着，执行命令：

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.x.y.jar wordcount wcinput wcoutput

这里的 “3.x.y” 得换成你实际安装的 Hadoop 版本号，这条命令就像是给 Hadoop 下达了 “作战指令”，让它去统计 “wcinput” 文件夹下文本文件里单词的个数，结果会输出到 “wcoutput” 文件夹。要是你不小心提前创建了 “wcoutput” 文件夹，Hadoop 可会 “闹脾气”，报错提示输出目录已存在，所以千万别手快哦！

命令执行完，怎么查看结果呢？进入 “wcoutput” 文件夹，用 “cat part-r-00000” 命令查看输出文件内容，就能看到每个单词和它对应的出现次数啦，是不是超有成就感？

（二）伪分布式模式

伪分布式模式则是模拟出一个分布式集群环境，虽然实际上还是在一台机器上运行，但它能让咱们更深入地了解 Hadoop 集群的工作原理，是进阶学习的好帮手。

在开启伪分布式模式前，得确保 Hadoop 相关配置文件（core-site.xml、hdfs-site.xml 等）都按要求配置妥当，尤其是要设置好 HDFS 的 NameNode 地址、临时文件存储目录等关键参数。启动 Hadoop 集群，依次执行格式化 NameNode、启动 HDFS 和 YARN 服务等操作，就像唤醒沉睡的巨人，让集群准备好迎接任务。

数据准备环节，在本地创建 “wcinput” 文件夹并写入测试文本，和本地模式类似，但接下来得把数据上传到 HDFS 上，用命令：

hdfs dfs -put wcinput /user/hadoop/

这就把本地的 “wcinput” 文件夹及其内容 “搬运” 到 HDFS 的 “/user/hadoop/” 目录下了。

然后执行 WordCount 程序：

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.x.y.jar wordcount /user/hadoop/wcinput /user/hadoop/wcoutput

同样注意版本号替换，这里指定了 HDFS 上的输入输出目录。执行完，通过 “hdfs dfs -cat /user/hadoop/wcoutput/part-r-00000” 命令查看结果，就能知晓单词统计情况啦。

对比本地模式和伪分布式模式，本地模式简单直接，无需过多配置集群，适合快速验证想法；伪分布式模式虽稍复杂，但更贴近真实集群环境，能帮咱们深入理解 Hadoop 的分布式特性，各有千秋，大家可以按需选择练习，开启大数据处理的探索之旅。

八、遇到问题怎么办？

在使用 Hadoop 的过程中，难免会遇到一些 “小波折”，别慌，咱们一起来看看常见问题及解决办法。

要是遇到 NameNode 启动失败，先检查是不是没执行格式化操作，或者格式化过程出错了。要是格式化多次，可能导致数据目录混乱，这时候得谨慎操作，查看日志文件 “hadoop-root-namenode-< 主机名>.log”（< 主机名 > 是你实际的主机名称），里面详细记录了启动失败的原因，比如是不是配置文件参数有误，数据目录权限不对等，根据错误提示对症下药就能解决。

任务运行慢也是个 “老大难” 问题。要是 Map 阶段快，Reduce 阶段慢，可能是数据倾斜导致的，部分 Reduce 任务处理的数据量远超其他任务，就像分配任务不均匀，有的累得够呛，有的闲得慌。这时候可以通过自定义分区函数，把数据均匀分配到各个 Reduce 任务；还可能是 Reduce 任务数量设置不合理，太多会资源竞争，太少则处理不及时，得根据数据量、集群资源情况适当调整。另外，小文件过多也会拖慢速度，大量小文件会让 Map 任务频繁启动，耗时又耗力，建议先将小文件合并成大文件，再进行处理，提高效率。

要是遇到问题实在解决不了，别自己 “死磕”，还有很多学习资料和社区能帮到你。像《Hadoop 权威指南》《Hadoop 技术内幕》系列书籍，对原理、架构、实战都讲解得十分透彻，是案头必备宝典；线上学习平台如慕课网、网易云课堂也有不少优质 Hadoop 课程，跟着老师一步步学，更易上手；还有 Apache Hadoop 官方社区（https://hadoop.apache.org/），全球开发者在这里交流分享，你遇到的问题说不定别人早就碰到并解决了，去搜搜帖子，发个求助，热心人可多着呢！有了这些问题解决的 “锦囊妙计”，再加上不断实践探索，相信你在 Hadoop 的大数据世界里定能披荆斩棘，收获满满！

本文系转载，版权归原作者所有，如若侵权请联系我们进行删除！

《数据资产管理白皮书》下载地址：https://www.dtstack.com/resources/1073/?src=bbs

《行业指标体系白皮书》下载地址：https://www.dtstack.com/resources/1057/?src=bbs

《数据治理行业实践白皮书》下载地址：https://www.dtstack.com/resources/1001/?src=bbs

《数栈V6.0产品白皮书》下载地址：https://www.dtstack.com/resources/1004/?src=bbs

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友，浏览袋鼠云官网：https://www.dtstack.com/?src=bbs

同时，欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」，交流最新开源技术信息，群号码：30537511，项目地址：https://github.com/DTStack

大数据开源 Hadoop集群大数据大数据平台【大数据】Hadoop高可用集群搭建 Hadoop 入门之 Hadoop 中的 HelloWorld 程序 hadoop大数据开发基础 hadoop大数据开发案例基于hadoop大数据开发优势 Hadoop

0条评论

上一篇：字符编码规范遵循

下一篇：时间戳管理规则

我要提问

分享经验

社区公告

大数据领域最专业的产品&技术交流社区，专注于探讨与分享大数据领域有趣又火热的信息，专业又专注的数据人园地

最新活动更多