博客 Hadoop ：卓越开源分布式文件存储及处理框架

Hadoop ：卓越开源分布式文件存储及处理框架

数栈君发表于 2023-06-02 16:00 909 0

Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架，它能让用户轻松地开发处理海量数据的应用程序，其主要优点有：

高可靠性：Hadoop 按位存储和处理数据的能力值得人们信赖。

高扩展性：Hadoop 在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以干计的节点中。

高效性：Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。

高容错性：Hadoop自动保存数据的多个副本，并自动将失败任务重分配。

低成本：与一体机、商用数据仓库比，Hadoop 开源软件的成本更低。

随着版本的演进，Hadoop 实现了较好的资源隔离并增加其他特性，这里比较一下Hadoop 1.0和2.0版本的特性差异，Hadoop 1.0由HDFS和MapReduce两个系统组成，存在以下几个缺点：

静态资源配置：即每个节点实现配置好可用的slot总数，这些slot数目一旦启动后无法再动态修改；

资源无法共享：将slot分为Map slot和Reduce slot两种，且不允许共享；

资源划分粒度过大：基于无类别slot的资源划分方法的划分粒度仍过于粗糙，往往会造成节点资源利用率过高或者过低；

无有效资源隔离机制：采用基于jvm的资源隔离机制，过于粗糙，很多资源，如CPU无法进行隔离，这会造成同一个节点上的任务之间干扰严重。

Hadoop 2.0由HDFS、MapReduce和YARN三个系统组成，其中YARN是一个资源管理系统，负责集群资源管理和调度，2.0中YAR允许每个节点（NodeManager）配置可用的CPU和内存资源总量，而中央调度器则会根据这些资源总量分配给应用程序。

免责申明：

本文系转载，版权归原作者所有，如若侵权请联系我们进行删除！

《数据治理行业实践白皮书》下载地址：https://fs80.cn/4w2atu

《数栈V6.0产品白皮书》下载地址：https://fs80.cn/cw0iw1

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友，浏览袋鼠云官网：https://www.dtstack.com/?src=bbs

同时，欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」，交流最新开源技术信息，群号码：30537511，项目地址：https://github.com/DTStack