
Spark 译为火花

Spark定义
Spark是采用Scala语言编写的一个通用的大规模数据快速处理分析引擎,是基于内存计算的大数据并行计算框架,Spark在性能和方案的统一性都具有显著的优势,它可以提高数据处理的速度,也可保证了高容错性和高可伸缩性。
Spark包含SparkCore、SparkSQL、Spark Streaming、MLlib、Graph可以解决大数据中的Batch Processing、Stream Processing、Ad-hocQuery等三大核心问题。

Spark特点
-
可以无缝集成Hadoop,Spark可以运行在YARN上,可以读取Hadoop的HDFS,HBase等一切Hadoop的数据
-
Spark可以不依赖于第三方的资源管理和调度器,它实现了Standalone作为其内置的资源管理和调度框架
-
快速基于内存计算速度是MR的100倍,基于磁盘计算的速度是MR的10倍
-
Spark采用DAG(有向无环图)执行引擎。

本文介绍了Spark作为大规模数据处理的快速引擎,其特点包括内存计算、与Hadoop的无缝集成以及DAG执行引擎。Spark组件包括SparkCore、SparkSQL、Spark Streaming和MLlib,覆盖了批处理、流处理和交互式查询等领域。Spark还提供了高可用性解决方案,通过Zookeeper实现HA,并探讨了关键概念如Application、Driver Program、Executor和Cluster Manager。

5515

被折叠的 条评论
为什么被折叠?



