交并差集的操作
val rdd1: RDD[Int] = sc.makeRDD(1 to 4)
val rdd2: RDD[Int] = sc.makeRDD(4 to 8)
//交集
// rdd1.intersection(rdd2).collect().foreach(println)
//并集
// rdd1.union(rdd2).collect().foreach(println)
//差集
rdd1.subtract(rdd2).collect().foreach(println)
zip
val rdd1: RDD[Int] = sc.makeRDD(Array(1,2,3),3)
val rdd2: RDD[String] = sc.makeRDD(Array("a","b","c"),3)
//两个rdd 必须具有相同的数据集 和分区数才可以进行拉链操作
// val rdd2: RDD[String] = sc.makeRDD(Array("a","b","c"),2) //error
// val rdd2: RDD[String] = sc.makeRDD(Array("a","b","c"),4) //error
// val rdd2: RDD[String] = sc.makeRDD(Array("a","b"),3) //error
rdd1.zip(rdd2).collect().foreach(println)
本文介绍了Apache Spark中用于数据处理的转换算子,重点讲解了交集、并集、差集的操作方法,以及如何使用Zip进行数据拉链,为大数据分析提供了实用技巧。

1178

被折叠的 条评论
为什么被折叠?



