BigData大数据应用开发学习笔记(06)实时检索--HBase
一.关于实时检索
1.核心诉求
检索性能要求高:秒级响应,不承担复杂查询和统计类查询
高并发查询:大于100的并发
数据量大:PB级数据量,集群规模在1000节点以上。图数据库场景,点个数在10亿以上,边个数在100亿以上
支持结构化和非结构化:需要同时保存结构化数据和非结构化数据,经常用来对图片等小文件进行检索
高效的数据加载:每小时可加载TB级数据
支持图检索:支持检索图数据,支持图标准查询接口
2.实时检索解决方案
根据关键词进行即时、快速搜索,实现即搜即得的效果,强调的是实时低延迟。
文件数据批量加载(Loader、Flume、Spark、第三方加载),流式数据实时加载(Spark Streaming、第三方采集),图数据(GraphBase导入工具)。
实时检索引擎(HBASE、ElasticSearch),GraphBase(可选)
业务应用:轨迹查询,日志查询,话费查询
二.HBase
1.HBase简介
HBase是一个分布式的NoSQL数据库,其特点高可靠、高性能、面向列、可伸缩。
适合存储大表数据,并且可实时读写大表数据。
表结构稀疏
数据底层存储于Hadoop HDFS分布式文件系统
利用ZooKeeper作为协同服务
2.HBase应用场景
海量数据(TB、PB)
不需要完全拥有传统关系型数据库所具备的ACID特性。
高吞吐量
需要在海量数据中实现高效的随机读取。
需要很好的性能伸缩能力
能够同时处理结构化和非结构化的数据
3.HBase系统架构
Client -> ZooKeeper -> HMaster -> HBase -> DFS Client -> HDFS -> DataNode
4.HBase存储模型
底层数据以KeyValue的形式存在,KeyValue具有特定的格式,KeyValue中拥有时间戳、类型等关键信息。
同一个Key值可以关联多个Value,每个KeyValue都拥有一个Qualifier标识。
即使是Key值相同,Qualifier也想通的多个KeyValue,也可能有多个版本,此时使用时间戳来区分,这就是同一条数据记录的多版本。
ID &nbs


3390

被折叠的 条评论
为什么被折叠?



