博客分布式文件系统HDFS

分布式文件系统HDFS

数栈君发表于 2023-12-29 10:15 745 0

1 分布式结构
集群：集群就是逻辑上处理同一任务的机器集合，可以属于同一机房，也可分属不同的机房。

分布式：分布式文件系统把文件分布存储到多个计算机节点上，成千上万的计算机节点构成计算机集群。



2 计算机集群结构
与之前使用多个处理器和专用高级硬件的并行化处理装置不同的是，目前的分布式文件系统所采用的计算机集群，都是由普通硬件构成的，这就大大降低了硬件上的开销。



3 分布式文件系统的结构
分布式文件系统在物理结构上是由计算机集群中的多个节点构成的，这些节点分为两类，一类叫“主节点”（Master Node）或者也被称为“名称节点”（NameNode），另一类叫“从节点”（Slave Node）或者也被称为“数据节点”（DataNode）。



HDFS 是一个大规模的分布式文件系统，采用 master/slave 架构，一个 HDFS 集群是有一个 NameNode 和一定数目的 DataNode 组成。


NameNode：是一个中心服务器，负责管理文件系统的名字空间和客户端对文件的访问。NameNode 执行文件系统的名字空间操作，比如打开、关闭、重命名文件或目录，负责确定的数据块到 DataNode 节点的映射。

Hadoop 集群中的节点及对应的守护进程，如下图所示：


4 HDFS高可靠性的保证——副本冗余机制
HDFS 为了做到高可靠性，创建了多份数据块的复制，并将它们放置在服务器群的计算节点中，MapReduce 就可以在它们所在的节点上处理这些数据了。