Spark 中的 RDD 分区的设定规则与高阶函数、Lambda 表达式详解

在大数据处理领域，Apache Spark 是一个强大的开源分布式计算框架。它提供了丰富的功能和灵活的编程接口，其中弹性分布式数据集（RDD）是其核心概念之一。RDD 的分区设定规则对于数据处理的性能和资源利用至关重要，同时，高阶函数和 Lambda 表达式的运用能让我们在 Spark 编程中更加简洁高效地处理数据。本文将深入探讨 RDD 分区的设定规则以及高阶函数和 Lambda 表达式的相关知识。

一、RDD 分区的设定规则

（一）parallelize 获取 rdd 时的分区设定

方式一：并行化集合：parallelize
没有指定：spark.default.parallelism参数值决定
指定分区：指定几个，就是几个分区
list_rdd = sc.parallelize(data,numSlices=2)

总结：假如指定了分区数，分区数就是这个，假如没有指定spark.default.parallelism。

（二）通过外部读取数据 - textFile 时的分区设定

没有指定：spark.default.parallelism和2取最小值，具体计算并行度的公式：
min(spark.default.parallelism,2)
指定分区：最小分区数，最少有这么多分区，具体的分区数可以根据HDFS分片规则来
hdfs的一片是128M或者128*1.1 = 140.8M
file_rdd =sc.textFile("../datas/function_data/filter.txt", minPartitions=2)

# 假如你这个data.txt = 500M ，此时的分区数是:4 因为 500 = 128+ 128+ 128+ 11