博客一文详解HDFS

一文详解HDFS

数栈君发表于 2023-06-02 16:01 718 0

前言

HDFS分布式文件系统作为现在事实上的大数据存储组件，了解其原理是很有必要的。本文翻译了经典的 HDFS 原理讲解漫画，以一种通俗易懂的方式帮助 HDFS 初学者理解HDFS 的原理。

HDFS角色

NameNode：负责处理Client的请求、元数据管理等其他功能。

DataNode：主要就是存储文件块的。

Client：客户端，与NameNode、DataNode交互。

HDFS写数据原理

HDFS读原理

HDFS故障类型和检测方法

HDFS读写故障的处理办法

HDFS datanode故障处理办法

HDFS 副本布局策略

HDFS的存放策略是将一个副本存放在本地机架节点上，另外两个副本放在不同机架的不同节点上。

这样集群可在完全失去某一机架的情况下还能存活。同时，这种策略减少了机架间的数据传输，提高了写操作的效率，因为数据块只存放在两个不同的机架上，减少了读取数据时需要的网络传输总带宽。这样在一定程度上兼顾了数据安全和网络传输的开销。

免责申明：

本文系转载，版权归原作者所有，如若侵权请联系我们进行删除！

《数据治理行业实践白皮书》下载地址：https://fs80.cn/4w2atu

《数栈V6.0产品白皮书》下载地址：https://fs80.cn/cw0iw1

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友，浏览袋鼠云官网：https://www.dtstack.com/?src=bbs

同时，欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」，交流最新开源技术信息，群号码：30537511，项目地址：https://github.com/DTStack

Hadoop集群 hdfs Hadoop

0条评论

上一篇：浅析百万级分布式调度引擎——DAGScheduleX能做...

下一篇：5000字详解 HDFS 的工作机制及其原理

我要提问

分享经验

社区公告

大数据领域最专业的产品&技术交流社区，专注于探讨与分享大数据领域有趣又火热的信息，专业又专注的数据人园地

最新活动更多