博客 HBase：主流的分布式NoSQL数据库

HBase：主流的分布式NoSQL数据库

数栈君发表于 2023-07-25 16:30 948 0

Google曾就大量信息如何存储，如何计算，如何快速查询发表了3篇论文，分别是GFS、MapReduce、BigTable ，后来这几篇论文被Doung Cutting（被誉为Hadoop之父）看见了，就使用java语言实现了三篇论文，与之对应的就是：HDFS分布式存储、MapReduce分布式计算、HBase分布式数据库。

HBase概述

① HBase是一个高可靠性、高性能、面向列、可伸缩的NoSQL分布式数据存储系统，利用HBase可实现对大型数据的实时、随机的读写访问。

② HBase 依赖于 HDFS 做底层的数据存储、依赖于 MapReduce做数据计算、依赖于 ZooKeeper 做服务协调。

Hbase架构

HBase 架构如图所示：

从上图中能看出 HBase 是由 Client、ZooKeeper、HMaster、HRegionServer、HDFS 等几个组件组成，组件的相关功能：

① Client

客户端，可以是 HBase Shell、Java API 客户端等，是用来访问HBase 数据库的，它不仅提供了访问接口，还维护了对应的缓存（cache）来加速 HBase 的访问。Client 端的缓存主要是缓存 Region 的位置信息，减少获取元数据的时间。当 Client 端没有缓存的时候（第一次请求），会加载 Region 的位置信息到 Client 端，后面直接使用 cache 中的信息。

② ZooKeeper

HBase通过ZooKeeper来做HMaster的高可用、HRegionServer 的监控、元数据的入口以及集群配置的维护等工作。它具体工作如下：

（1）通过ZoopKeeper 来保证集群中只有1个 HMaster 在运行（active状态），如果HMaster异常，会通过竞争机制产生新的 HMaster 提供服务。

（2）通过ZoopKeeper来监控HRegionServer的状态，当 HRegionSevrer有异常的时候，过回调的形式通知HMaster关于HRegionServer上下线的信息

（3）通过ZoopKeeper存储元数据的统一入口地址

③ HMaster

HMaster 节点的主要职责如下：

（1）监控HRegionServer ，处理HRegionServer故障转移，当某个HRegionServer 挂掉时，ZooKeeper 会将在该 HRegionServer 上的 HRegion 分配到其他 HRegionServer 上进行管理。

（2）HRegion分裂后，负责新的 HRegion 的分配。

（3）处理元数据的变更，比如对表的添加，修改，删除等操作。

（4）在空闲时间进行数据的负载均衡，在 HRegionServer 间迁移HRegion，达到负载均衡。

（5）通过 ZooKeeper 发布自己的位置给客户端。

④ HRegionServer

HRegionServer 直接负责用户的读写请求，是真正的进行数据读写的节点。它的功能概括如下：

（1）负责和底层 HDFS 的交互，存储数据到 HDFS，HBase 是依托于 HDFS的 NoSQL 数据库，数据会存储在 HDFS 上

（2）处理HMaster分配给它的 HRegion。

（3）刷新缓存到 HDFS。

（4）维护 HLog，HLog 是一个容错机制

（5）处理来自客户端的读写请求。HRegionServer 是实际管理数据的，所以客户端的读写请求最终都要由 HRegionServer 来处理。

（6）负责处理 HRegion 变大后的拆分（HRegion的分裂）。

（7）负责 StoreFile 的合并工作。

⑤ HDFS

HDFS为HBase 提供最终的底层数据存储服务，同时为HBase 提供高可用（HLog 存储在 HDFS）的支持，具体功能概括如下：

（1）提供元数据和表数据的底层分布式存储服务。

（2）数据多副本，保证的高可靠和高可用性。

⑥ WAL（Write-Ahead Logs）

Write-Ahead Logs 即预写日志，在 HBase 中为 HLog，HLog 存储在 HDFS 上。当对 HBase 读写数据的时候，数据不是直接写进磁盘，它会在内存中保留一段时间，但把数据保存在内存中可能有更高的概率引起数据丢失，为了解决这个问题，数据在写入内存之前会先写在一个叫做 Write-Ahead logfile 的文件中，然后再写入内存中，在系统出现故障的时候，数据可以通过这个日志文件重建。

⑦ HRegion

HRegion 可以看成是表的横向切分，HBase 表的分片。HBase 每个表都会根据RowKey值被切分成不同的 HRegion ，并分散存储在 HRegionServer 中，在一个HRegionServer 中可以有多个不同的HRegion。这些HRegion 可以是来自不同的表。HRegion、Table、HRegionServer 关系如下面的图所示：TableA按照rowkey被等分为4个region，分别分散存储在同一个或不同的HReginServer中。

⑧ Store

每一个 Region 内部，又分为多个 Store，一个 Store 对应表中的一个列族，即一个 Store 存储了对应表该列族下的部分数据。

⑨ MemStore

内存存储，位于内存中，用来保存当前的数据操作，当数据保存在 WAL 中之后，HRegsionServer 会在内存中存储键值对。

⑩ HFile

HFile是指在磁盘上保存原始数据的实际的物理文件，是实际的存储文件。StoreFile是以 HFile 的形式存储在 HDFS 的，文件内容是二进制。

免责申明：

本文系转载，版权归原作者所有，如若侵权请联系我们进行删除！

《数据治理行业实践白皮书》下载地址：https://fs80.cn/4w2atu

《数栈V6.0产品白皮书》下载地址：https://fs80.cn/cw0iw1

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友，浏览袋鼠云官网：https://www.dtstack.com/?src=bbs

同时，欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」，交流最新开源技术信息，群号码：30537511，项目地址：

https://github.com/DTStack