这是因为你的spark的slave节点和kafka的broker节点重合时,kafka的topic分区不均衡,没有分布在不同节点上,spark拉取数据就近原则,在那里拉取就在该节点计算,你可以建立多个分区均衡在各个节点上。导致这个原因是你的createDirectStream方法导致的,因为这个方法会自己映射你的kafka分区对应spark的分区,如果分区过少就会不均衡。
spark接收kafka的数据运行spark程序节点的task数据倾斜
最新推荐文章于 2026-01-09 01:35:51 发布
本文讨论了Spark在处理Kafka数据流时遇到的数据分布不均问题,并提出了解决方案。当Spark的slave节点与Kafka的broker节点重合时,可能导致数据处理负载不平衡。文章建议通过增加Kafka主题分区数量来实现负载均衡。

2868

被折叠的 条评论
为什么被折叠?



