博客 一文详解HDFS

一文详解HDFS

   数栈君   发表于 2023-06-02 16:01  221  0

前言

        HDFS分布式文件系统作为现在事实上的大数据存储组件,了解其原理是很有必要的。本文翻译了经典的 HDFS 原理讲解漫画,以一种通俗易懂的方式帮助 HDFS 初学者理解HDFS 的原理。

HDFS角色

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/e5aff7b47e2cdabd5fce406ea9b2ba1b..jpg


NameNode:负责处理Client的请求、元数据管理等其他功能。

DataNode:主要就是存储文件块的。

Client:客户端,与NameNode、DataNode交互。


HDFS写数据原理

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/f7c78ae66635fc164e1898ca3106d53c..jpg

HDFS读原理

        

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/dca87308424b92371497676366c5a29d..jpg


HDFS故障类型和检测方法

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/00b468aa8e36295485c63b78c60dd324..jpg

      http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/c5cdbe86168ad44b872bf00674c9099e..jpg

HDFS读写故障的处理办法

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/eaddb588b4425103ce1bf11739c46793..jpg


HDFS datanode故障处理办法

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/b9874f73b37ef66ff4e73a542c55ba48..jpg

HDFS 副本布局策略

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/276dade2710c4a0783883d4c13fea936..jpg


    HDFS的存放策略是将一个副本存放在本地机架节点上,另外两个副本放在不同机架的不同节点上。


    这样集群可在完全失去某一机架的情况下还能存活。同时,这种策略减少了机架间的数据传输,提高了写操作的效率,因为数据块只存放在两个不同的机架上,减少了读取数据时需要的网络传输总带宽。这样在一定程度上兼顾了数据安全和网络传输的开销。

免责申明:

本文系转载,版权归原作者所有,如若侵权请联系我们进行删除!

《数据治理行业实践白皮书》下载地址:https://fs80.cn/4w2atu

《数栈V6.0产品白皮书》下载地址:
https://fs80.cn/cw0iw1

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:
https://www.dtstack.com/?src=bbs

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:
https://github.com/DTStack


0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群