spark编程模型（十九）之RDD集合标量行为操作（Action Operation）——take、top、takeOrdered...

最新推荐文章于 2024-11-06 12:19:57 发布

转载最新推荐文章于 2024-11-06 12:19:57 发布 · 239 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

原文链接：http://www.cnblogs.com/oldsix666/articles/9458217.html

标签

#大数据 #scala

本文详细介绍了Apache Spark中RDD的基本操作take、top和takeOrdered的使用方法。通过具体示例展示了如何利用这些函数从RDD中选取特定数量的元素，以及如何进行排序。适用于Spark初学者理解和掌握RDD操作。

take

def take(num: Int): Array[T]

take用于获取RDD中从0到num-1下标的元素，不排序

  scala> var rdd1 = sc.makeRDD(Seq(10, 4, 2, 12, 3))
  rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[40] at makeRDD at :21

  scala> rdd1.take(1)
  res0: Array[Int] = Array(10)                                                    

  scala> rdd1.take(2)
  res1: Array[Int] = Array(10, 4)

top

def top(num: Int)(implicit ord: Ordering[T]): Array[T]

top函数用于从RDD中，按照默认（降序）或者指定的排序规则，返回前num个元素

  scala> var rdd1 = sc.makeRDD(Seq(10, 4, 2, 12, 3))
  rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[40] at makeRDD at :21

  scala> rdd1.top(1)
  res2: Array[Int] = Array(12)

  scala> rdd1.top(2)
  res3: Array[Int] = Array(12, 10)

  //指定排序规则
  scala> implicit val myOrd = implicitly[Ordering[Int]].reverse
  myOrd: scala.math.Ordering[Int] = scala.math.Ordering$$anon$4@767499ef

  scala> rdd1.top(1)
  res4: Array[Int] = Array(2)

  scala> rdd1.top(2)
  res5: Array[Int] = Array(2, 3)

takeOrdered

def takeOrdered(num: Int)(implicit ord: Ordering[T]): Array[T]

takeOrdered和top类似，只不过以和top相反的顺序返回元素

  scala> var rdd1 = sc.makeRDD(Seq(10, 4, 2, 12, 3))
  rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[40] at makeRDD at :21

  scala> rdd1.top(1)
  res4: Array[Int] = Array(2)

  scala> rdd1.top(2)
  res5: Array[Int] = Array(2, 3)

  scala> rdd1.takeOrdered(1)
  res6: Array[Int] = Array(12)

  scala> rdd1.takeOrdered(2)
  res7: Array[Int] = Array(12, 10)

转载于:https://www.cnblogs.com/oldsix666/articles/9458217.html