Spark 模型总结

最新推荐文章于 2024-11-29 19:09:01 发布

原创最新推荐文章于 2024-11-29 19:09:01 发布 · 523 阅读

·

0

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

spark 专栏收录该内容

3 篇文章

订阅专栏

注明：图片以及相关资料均来自Scalable Machine Learning from BerkelyX，只是个人总结使用，侵权即删

整体框架

1. Map-Reduce

MR的价值体现在对大数据集的分布式处理上。
如下面的图例：（图片来自Scalable Machine Learning from BerkelyX）
MR1
MR2
将大规模的文档先分开成不同的partitions到不同的worker；再通过map，对每一个worker的文档进行映射处理；最后一步通过Reduce操作，分而治之。

不仅仅是Map-Reduce
当然，在Spark，还提供了更多的transformation 函数，比方说 filter 和 join。以及其他很多很多的操作，极大提升了灵活性。

2. Spark Driver and Workers

一张图表示Spark整体架构：
architect
RDDs就是分布在workers上的
Spark Context一开始就要定义

内设对象

1. RDDs

Resilient Distributed Datasets

存在样式：
RDDs
一旦创建不可更改！

可以通过如下方式创建：
parallelize 一个数据集
transform 另一个RDDs
从HDFS或者其他存储系统中读取
操作：
1. Transformations：
  比如map, flatmap, filter等
  属性：lazy，非立刻执行，而是等到actions发生才会被执行
2. Actions：
  比如：collect，count， reduce
总结
RDDs的整体流程就是

对RDDs的操作实例可参见我的另一篇文章Spark+Python lab2

2. Key-Value RDDs

3. Closures

4.Shared Variables

<未完待续>

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。