spark转换算子 交并差集的使用 以及拉链zip

本文介绍了Apache Spark中用于数据处理的转换算子,重点讲解了交集、并集、差集的操作方法,以及如何使用Zip进行数据拉链,为大数据分析提供了实用技巧。

交并差集的操作

 val rdd1: RDD[Int] = sc.makeRDD(1 to 4)
    val rdd2: RDD[Int] = sc.makeRDD(4 to 8)
    //交集
//    rdd1.intersection(rdd2).collect().foreach(println)
    //并集
//    rdd1.union(rdd2).collect().foreach(println)
    //差集
    rdd1.subtract(rdd2).collect().foreach(println)

zip

  val rdd1: RDD[Int] = sc.makeRDD(Array(1,2,3),3)
    val rdd2: RDD[String] = sc.makeRDD(Array("a","b","c"),3)
//两个rdd 必须具有相同的数据集 和分区数才可以进行拉链操作
//    val rdd2: RDD[String] = sc.makeRDD(Array("a","b","c"),2) //error
//    val rdd2: RDD[String] = sc.makeRDD(Array("a","b","c"),4) //error
//    val rdd2: RDD[String] = sc.makeRDD(Array("a","b"),3) //error
    rdd1.zip(rdd2).collect().foreach(println)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值