Executor执行能力
spark.executor.memory=4g
用于缓存数据、代码执行的堆内存以及JVM运行时需要的内存。
spark.executor.cores=2
单个executor上可以同时运行的task数,该参数决定了一个executor上可以并行执行几个task。
Driver执行能力
spark.driver.memory=4g
driver端的内存和driver缓存,以及返回的数据的大小有关系。
spark.driver.cores=2
读取能力
读取文件的切分规则:
spark.default.parallelism=1
spark.sql.files.maxPartitionBytes=3200000;
spark.sql.files.openCostInBytes=4194304;
spark.hadoop.mapreduce.input.fileinputformat.split.maxsize=67108864;
spark.hadoop.mapreduce.input.fileinputformat.split.minsize.per.node=67108864;
spark.hadoop.mapreduce.input.fileinputformat.split.minsize.per.rack=67108864;
具体使用请参考我之前的博客。
spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version=2
spark.hadoop.mapreduce.input.fileinputformat.list-status.num-threads=50
spark.hadoopRDD.ignoreEmptySplits=true

本文详细介绍了Spark的Executor和Driver的配置参数,包括内存分配、核心数设定,以及读取、shuffle和join操作的优化策略。还提及了自适应执行和广播JOIN的阈值。此外,讨论了如何通过调整参数提升Spark作业的执行效率。

2662

被折叠的 条评论
为什么被折叠?



