记一次使用SPARK生成自增ID的解决方案

最新推荐文章于 2024-01-22 11:25:21 发布

原创最新推荐文章于 2024-01-22 11:25:21 发布 · 8.1k 阅读

4 ·

本内容遵循CC 4.0 BY-SA版权协议

大数据专栏收录该内容

5 篇文章

订阅专栏

针对Greenplum数据库不支持自增ID的问题，本文探讨了三种解决方案：使用Redis生成自增ID，利用Spark SQL函数生成ID，以及在生成RDD时通过zipWithIndex方法添加ID。最终选择了第三种方案。

在这个项目中遇到的一个问题，由于数据库使用的是GREENPLUM，GREENPLUM提供的SPARK驱动是使用的先生成外部表，然后在使用INSERT 表名 SELECT * FROM 外部表的方式方法导入数据的。并且这种方式不支持自增ID。于是我们开始尝试使用SPARK或其他方式生成ID。

1、使用REDIS生成自增ID。

优点：使用REDIS的INCNY实现自增，并且没有并发问题，REDIS集群环境完全可以满足要求。

缺点：因为每次都要去REDIS上取ID，SPARK与REDIS之间每次都是一次网络传输，少则10几ms，多则几百ms。而且SPARK与REDIS形成了依赖关系。一旦REDIS挂了，SPARK就会出现问题。所以我们放弃了这个方案。

2、使用SPARKSQL的函数和withcolumn生成自增ID

val newDf = dataFrame.withColumn("id",org.apache.spark.sql.functions.row_number().over(Window.partitionBy(batch).orderBy(index))

由于上面的代码生成新的dataFrame，分区会变成一个，所以要转成RDD，重新repartition一下。

val newRdd = newDf.rdd.repartition(10)
val df = session.createDataFrame(newRdd,schema)

由于有repartition操作，这里会出现shuffle。所以存在性能问题。对于我们要求大批量快速入库的要求不能满足。所以不能采用。

3、使用zipWithIndex在生成RDD[ROW]时生成ID

 val tempRdd = rdd.zipWithIndex()

     val record = tempRdd.map(x=>{

     var strArray = x._1.split(",")

     val newArray = strArray.+:(x._2).toString)

    newArray

})

这个方案是参考了下面这个博客弄出来的

scala spark dataframe添加序号（id）列