BigData大数据应用开发学习笔记(06)实时检索--HBase

BigData大数据应用开发学习笔记(06)实时检索--HBase

一.关于实时检索
1.核心诉求
    检索性能要求高:秒级响应,不承担复杂查询和统计类查询
    高并发查询:大于100的并发
    数据量大:PB级数据量,集群规模在1000节点以上。图数据库场景,点个数在10亿以上,边个数在100亿以上
    支持结构化和非结构化:需要同时保存结构化数据和非结构化数据,经常用来对图片等小文件进行检索
    高效的数据加载:每小时可加载TB级数据
    支持图检索:支持检索图数据,支持图标准查询接口
    
2.实时检索解决方案
    根据关键词进行即时、快速搜索,实现即搜即得的效果,强调的是实时低延迟。
    文件数据批量加载(Loader、Flume、Spark、第三方加载),流式数据实时加载(Spark Streaming、第三方采集),图数据(GraphBase导入工具)。
    实时检索引擎(HBASE、ElasticSearch),GraphBase(可选)
    业务应用:轨迹查询,日志查询,话费查询

二.HBase
1.HBase简介
    HBase是一个分布式的NoSQL数据库,其特点高可靠、高性能、面向列、可伸缩。
    适合存储大表数据,并且可实时读写大表数据。
    表结构稀疏
    数据底层存储于Hadoop HDFS分布式文件系统
    利用ZooKeeper作为协同服务

2.HBase应用场景
    海量数据(TB、PB)
    不需要完全拥有传统关系型数据库所具备的ACID特性。
    高吞吐量
    需要在海量数据中实现高效的随机读取。
    需要很好的性能伸缩能力
    能够同时处理结构化和非结构化的数据

3.HBase系统架构
    Client -> ZooKeeper -> HMaster -> HBase -> DFS Client -> HDFS -> DataNode

4.HBase存储模型
    底层数据以KeyValue的形式存在,KeyValue具有特定的格式,KeyValue中拥有时间戳、类型等关键信息。
    同一个Key值可以关联多个Value,每个KeyValue都拥有一个Qualifier标识。
    即使是Key值相同,Qualifier也想通的多个KeyValue,也可能有多个版本,此时使用时间戳来区分,这就是同一条数据记录的多版本。

    ID       &nbs

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

软件开发明哥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值