目前,Spark已经发展成为包含众多子项目的大数据计算平台。BDAS是伯克利大学提出的基于Spark的数据分析栈(BDAS)。其核心框架是Spark,同时涵盖支持结构化数据SQL查询与分析的查询引擎Spark SQL,提供机器学习功能的系统MLBase及底层的分布式机器学习库MLlib,并行图计算框架GraphX,流计算框架SparkStreaming,近似查询引擎BlinkDB,内存分布式文件系统Tachyon,资源管理框架Mesos等子项目。这些子项目在Spark上层提供了更高层、更丰富的计算范式。
图1-1展现了BDAS的主要项目结构图。

图

本文介绍了Spark作为BDAS核心组件的特性,包括Spark SQL的SQL查询功能、SparkStreaming的流处理能力、GraphX的大规模图计算以及MLlib的分布式机器学习算法。Spark提供了丰富的算子和API,支持SQL查询和多种数据处理场景。

5047

被折叠的 条评论
为什么被折叠?



