Spark操作Kudu创建表
- Spark与KUDU集成支持:
- DDL操作(创建/删除)
- 本地Kudu RDD
- Native Kudu数据源,用于DataFrame集成
- 从kudu读取数据
- 从Kudu执行插入/更新/ upsert /删除
- 谓词下推
- Kudu和Spark SQL之间的模式映射
- 到目前为止,我们已经听说过几个上下文,例如SparkContext,SQLContext,HiveContext, SparkSession,现在,我们将使用Kudu引入一个KuduContext。这是可以在Spark应用程序中广播的主要可序列化对象。此类代表在Spark执行程序中与Kudu Java客户端进行交互。
- KuduContext提供执行DDL操作所需的方法,与本机Kudu RDD的接口,对数据执行更新/插入/删除,将数据类型从Kudu转换为Spark等。
创建表
- 定义kudu的表需要分成5个步骤:
- 提供表名
- 提供schema
- 提供主键
- 定义重要选项;例如:定义分区的schema
- 调用create Table api
- 代码开发
package cn.it
import java.util
import cn.it.SparkKuduDemo.TABLE_NAME import org.apache.kudu.client.CreateTableOptions import org.apache.kudu.spark.kudu.KuduContext import org.apache.spark

本文介绍了如何在Spark应用程序中使用KuduContext进行DDL操作,包括创建表、设置schema、主键定义和分区,以及如何将Spark与Kudu集成以执行数据操作和查看表模式。

2620

被折叠的 条评论
为什么被折叠?



