7 Hbase 概述-白红宇

7 Hbase 概述

阅读量：479 次

发布时间：2019-03-06

本文共 1418 字，大约阅读时间需要 4 分钟。

一、什么是 HBase

HBase 是构建在 Hadoop 之上的一个高可用、高性能、多版本的分布式 NoSQL 数据库。它结合了 Hadoop 的分布式存储能力与强大的处理能力，能够高效管理和存储海量结构化数据。HBase 的核心特性使其成为适合大数据场景的高性能数据库选择。

二、HBase 的特点

HBase 与传统数据库和 HDFS 存储系统有显著的不同之处。

与 HDFS 对比

支持随机写入：HBase 允许随机写入操作，而 HDFS 不支持。

高可用性：通过 HLog 和 Zookeeper 维护数据高可用性，保障数据不丢失。

与传统数据库对比

存储能力：传统数据库在数据量较大时会性能下降，而 HBase 通过分布式存储（HDFS）支持海量数据存储。

备份机制：HBase 基于 HDFS 的文件存储机制，具备完善的数据备份能力。

性能优化：通过 Zookeeper 协调，提升数据访问效率。

三、HBase 数据的存储结构

HBase 的存储结构从逻辑和物理层面进行优化设计。

逻辑结构

RowKey：定义表的主键，用于数据检索。

列簇（Column Family）：数据按照列簇归类存储，提升数据管理效率。

单元（Cell）：数据存储单元，基于 RowKey 和 ColumnFamily 确定。

时间戳（Timestamp）：支持多版本数据存储，每个 Cell 可存储多个版本。

物理结构

数据通过 Column Family 进行分区存储，每个 Column Family 对应单独的 HFile，节省存储空间。

四、HBase 架构

HBase 的架构设计包括客户端、Zookeeper、Master、RegionServer 等核心组件。

组件解析

客户端：通过 RPC 接口与 RegionServer 交互，处理数据操作。

Zookeeper：维护集群元数据，管理 Master 和 RegionServer 的状态。

Master：处理用户操作，分配 Region，监控 RegionServer。

RegionServer：负责存储和管理具体的 Region 数据，包括 HLog 和 HFile。

HLog：实现数据高可靠性存储，用于数据恢复和集群同步。

BlockCache：提高数据读取性能，提升用户访问速度。

Region：通过 RowKey 将表水平切割为多个 Region，分布存储于多个 RegionServer。

五、HBase 数据读写流程

写数据流程

客户端处理

提交写入请求，数据先缓存本地，满足条件后批量写入。

确定 RegionServer，分组请求发送。

RegionServer 写入

处理请求，反序列化数据，检查权限。

建立行锁，更新写入时间，创建 HLog edit。

同步写入 HLog 和 MemStore，刷写 HFile，完成事务。

MemStore Flush

内存数据定期同步至 HFile，维持存储一致性。

读数据流程

第一次读数据

获取元数据位置，查询目标 RegionServer。

从指定 RegionServer 读取 Row 数据。

后续读数据

利用缓存信息，直接访问 RegionServer。

未缓存时重复第一次读数据流程。

HBase 的设计理念和架构优化使其成为大数据存储的高效解决方案，适用于需要快速读写和强一致性数据存储的场景。

转载地址：http://xarbz.baihongyu.com/

你可能感兴趣的文章

poj1958-汉诺四塔问题（三种方法）

poj1988(并查集)

POJ2007+几何+极角排序

poj2135(简单的最小费用流问题)

poj2195 bfs+最小权匹配

POJ2253-Frogger

POJ2390 Bank Interest【水题】

poj2478欧拉函数

POJ2728 Desert King

POJ2794 Double Patience[离散概率状压DP]

poj2828（线段树查找序列第k小的值）

POJ2891：Strange Way to Express Integers——题解

poj3045 Cow Acrobats(二分最大化最小值)

poj3061 Subsequence（尺取法）

poj3074 DLX精确覆盖