BigData大数据应用开发学习笔记(03)离线处理--数据仓库Hive
一.离线批处理特点
处理时间要求不高、数据量巨大、数据格式多样、占用计算存储资源多
MR作业,Spark作业,HSQL作业实现
数据源:流式数据、文件数据、数据库
数据采集:实时采集(Flume、第三方采集),批量采集(Flume、Sqoop、第三方ETL)
离线批处理引擎:HDFS,Yarn,MapReduce,Hive,Spark,Spark SQL
业务应用:数据集市,数据仓库(交互式分析),专题库
离线批处理常用组件:
HDFS: 分布式文件系统,为各种批处理引擎提供数据存储,可以存储各种文件格式数据。
YARN: 资源调度引擎,为各种批处理引擎提供资源调度能力。
MapReduce: 大数据批处理引擎,用于处理海量数据,但是处理速度较慢。
Hive: 大数据SQL批处理引擎,用于处理SQL类批处理作业,但是处理速度较慢。
Spark: 基于内存的数据处理引擎,适合海量数据,处理速度高效。
Spark SQL: Spark处理结构化数据的一个模块。
二.数据仓库Hive
1.Hive说明
Hive是基于Hadoop的数据仓库软件,可以查询和管理PB级别的分布式数据。
Hive特性:
灵活方便的ETL(Extract/Transform/Load)
支持MapReduce、Tez、Spark多种计算引擎
可直接访问HDFS文件以及HBASE
&nbs


6981

被折叠的 条评论
为什么被折叠?



