Spark分区相关

最新推荐文章于 2025-03-04 13:10:24 发布

原创最新推荐文章于 2025-03-04 13:10:24 发布 · 261 阅读

·

0

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

HDFS 同时被 3 个专栏收录

11 篇文章

订阅专栏

9 篇文章

订阅专栏

4 篇文章

订阅专栏

本文介绍了如何在Spark中启动spark-shell，并通过sc.textFile方法导入数据。详细讨论了查看RDD分区数的方法，包括默认导入和指定分区数的操作。示例中展示了从HDFS导入文件后查看及设置分区数的过程，并演示了当有多个数据文件时如何根据文件数量创建相应分区。

在Linux启动spark-shell时，可以使用以下命令（两个线程）：

$ spark-shell --master local[2]

使用sc.textFile(“path”)导入文件，然后可以使用以下命令查看分区数：

scala> rdd.toDebugString()

此时我从HDFS中导入了一个文件：

然后查看该 RDD --- accounts的分区数：

使用sc.textFile("path",num)命令可以手动设置分区数：

查看分区数：

这次使用HDFS中accounts文件夹下面的所有文件进行创建RDD：

我们有7个数据文件，也就创建了7个分区。

打印每个partition的第一行（每一个partition都是一个迭代器）：

scala> accounts.foreachPartition(partition => println(partition.next))

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。