RDD key/value关联操作
val left = sc.parallelize(List(("spark",1),("hadoop",1),("storm",1)))val left = sc.parallelize(List(("scala",1),("hadoop",1),("spark",1)))
关联2个RDD
val joinOut = left join right
res9: Array[(String, (Int, Int))] = Array((spark,(1,1)), (hadoop,(1,1)))left.join(right)
(left cogroup right).collect
本文探讨了在Spark生态系统中使用RDD进行key/value关联操作的方法,通过实例展示了如何使用Scala语言实现并验证关联效果。

1283

被折叠的 条评论
为什么被折叠?



