2. RDD 行动算子
行动算子触发实际计算并返回结果。
(1) collect()(收集所有数据)
rdd = sc.parallelize([1, 2, 3])
rdd.collect() # 返回: [1, 2, 3](数据需能放入单机内存)
(2) take(n)(获取前 n 条数据)
rdd = sc.parallelize([10, 20, 30, 40])
rdd.take(2) # 返回: [10, 20]
(3) first()(获取第一条数据)
rdd = sc.parallelize([5, 2, 8])
rdd.first() # 返回: 5
(4) 统计操作(需数值类型 RDD)
rdd = sc.parallelize([1.0, 2.0, 3.0])
rdd.max() # 3.0
rdd.min() # 1.0
rdd.sum() # 6.0
rdd.mean() # 2.0

2万+

被折叠的 条评论
为什么被折叠?



