BigData大数据应用开发学习笔记(06)实时检索--HBase

最新推荐文章于 2025-12-30 01:37:53 发布

原创

最新推荐文章于 2025-12-30 01:37:53 发布 · 603 阅读

标签

#大数据

BigData大数据应用开发学习笔记(06)实时检索--HBase

一.关于实时检索
1.核心诉求
检索性能要求高：秒级响应，不承担复杂查询和统计类查询
高并发查询：大于100的并发
数据量大：PB级数据量，集群规模在1000节点以上。图数据库场景，点个数在10亿以上，边个数在100亿以上
支持结构化和非结构化：需要同时保存结构化数据和非结构化数据，经常用来对图片等小文件进行检索
高效的数据加载：每小时可加载TB级数据
支持图检索：支持检索图数据，支持图标准查询接口

2.实时检索解决方案
根据关键词进行即时、快速搜索，实现即搜即得的效果，强调的是实时低延迟。
文件数据批量加载(Loader、Flume、Spark、第三方加载)，流式数据实时加载(Spark Streaming、第三方采集)，图数据(GraphBase导入工具)。
实时检索引擎(HBASE、ElasticSearch)，GraphBase(可选)
业务应用：轨迹查询，日志查询，话费查询

二.HBase
1.HBase简介
HBase是一个分布式的NoSQL数据库，其特点高可靠、高性能、面向列、可伸缩。
适合存储大表数据，并且可实时读写大表数据。
表结构稀疏
数据底层存储于Hadoop HDFS分布式文件系统
利用ZooKeeper作为协同服务

2.HBase应用场景
海量数据(TB、PB)
不需要完全拥有传统关系型数据库所具备的ACID特性。
高吞吐量
需要在海量数据中实现高效的随机读取。
需要很好的性能伸缩能力
能够同时处理结构化和非结构化的数据

3.HBase系统架构
Client -> ZooKeeper -> HMaster -> HBase -> DFS Client -> HDFS -> DataNode

4.HBase存储模型
底层数据以KeyValue的形式存在，KeyValue具有特定的格式，KeyValue中拥有时间戳、类型等关键信息。
同一个Key值可以关联多个Value，每个KeyValue都拥有一个Qualifier标识。
即使是Key值相同，Qualifier也想通的多个KeyValue，也可能有多个版本，此时使用时间戳来区分，这就是同一条数据记录的多版本。

ID &nbs