大数据之Spark基本概念特点以及各个组件的作用的详细介绍

最新推荐文章于 2024-10-06 19:51:33 发布

原创

最新推荐文章于 2024-10-06 19:51:33 发布 · 1.8k 阅读

·

0

·

标签

#大数据 #大数据开发 #大数据分析 #spark #大数据学习

本文介绍了Spark作为大规模数据处理的快速引擎，其特点包括内存计算、与Hadoop的无缝集成以及DAG执行引擎。Spark组件包括SparkCore、SparkSQL、Spark Streaming和MLlib，覆盖了批处理、流处理和交互式查询等领域。Spark还提供了高可用性解决方案，通过Zookeeper实现HA，并探讨了关键概念如Application、Driver Program、Executor和Cluster Manager。

大数据之Spark基本概念特点以及各个组件的作用的详细介绍

Spark 译为火花

大数据之Spark基本概念特点以及各个组件的作用的详细介绍

Spark定义

Spark是采用Scala语言编写的一个通用的大规模数据快速处理分析引擎,是基于内存计算的大数据并行计算框架，Spark在性能和方案的统一性都具有显著的优势，它可以提高数据处理的速度，也可保证了高容错性和高可伸缩性。

Spark包含SparkCore、SparkSQL、Spark Streaming、MLlib、Graph可以解决大数据中的Batch Processing、Stream Processing、Ad-hocQuery等三大核心问题。

大数据之Spark基本概念特点以及各个组件的作用的详细介绍

Spark特点

可以无缝集成Hadoop，Spark可以运行在YARN上，可以读取Hadoop的HDFS，HBase等一切Hadoop的数据
Spark可以不依赖于第三方的资源管理和调度器，它实现了Standalone作为其内置的资源管理和调度框架
快速基于内存计算速度是MR的100倍，基于磁盘计算的速度是MR的10倍
Spark采用DAG(有向无环图)执行引擎。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。