客快物流大数据项目(四十四)：Spark操作Kudu创建表

最新推荐文章于 2026-06-23 17:19:41 发布

原创

最新推荐文章于 2026-06-23 17:19:41 发布 · 327 阅读

标签

#大数据 #spark #分布式

收录于

本文介绍了如何在Spark应用程序中使用KuduContext进行DDL操作，包括创建表、设置schema、主键定义和分区，以及如何将Spark与Kudu集成以执行数据操作和查看表模式。

Spark操作Kudu创建表

Spark与KUDU集成支持：
- DDL操作(创建/删除)
- 本地Kudu RDD
- Native Kudu数据源，用于DataFrame集成
- 从kudu读取数据
- 从Kudu执行插入/更新/ upsert /删除
- 谓词下推
- Kudu和Spark SQL之间的模式映射
- 到目前为止，我们已经听说过几个上下文，例如SparkContext，SQLContext，HiveContext， SparkSession，现在，我们将使用Kudu引入一个KuduContext。这是可以在Spark应用程序中广播的主要可序列化对象。此类代表在Spark执行程序中与Kudu Java客户端进行交互。
- KuduContext提供执行DDL操作所需的方法，与本机Kudu RDD的接口，对数据执行更新/插入/删除，将数据类型从Kudu转换为Spark等。

创建表

定义kudu的表需要分成5个步骤：
- 提供表名
- 提供schema
- 提供主键
- 定义重要选项；例如：定义分区的schema
- 调用create Table api
代码开发

package cn.it

import java.util
import cn.it.SparkKuduDemo.TABLE_NAME import org.apache.kudu.client.CreateTableOptions import org.apache.kudu.spark.kudu.KuduContext import org.apache.spark

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

okbin1991

关注关注

4
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

客快物流大数据项目学习框架

Lansonli（蓝深李）的博客

10-10

2620

利用框架的力量，看懂游戏规则，才是入行的前提大多数人不懂，不会，不做，才是你的机会，你得行动，不能畏首畏尾选择才是拉差距关键，风向，比你流的汗水重要一万倍，逆风划船要累死人的上面这些看似没用，但实际很重要，这里我就不再具体说明，感兴趣的同学可以看看我的学习框架的重要性我是怎么坚持学习的怎么确定学习目标这个栏目为缺少项目的同学全面整理的客快物流大数据项目逻辑，内容是按基础环境搭建到项目架构设计，带你从基础到架构实战，想学会就得自律加坚持，赶快行动吧。一、项目简介。

参与评论您还未登录，请先登录后发表或查看评论

0538-5.15.0-Spark2 KuduContext访问Kudu

Hadoop_SC的博客

12-16

610

1 文档编写目的在集群中访问Kudu的方式有多种，可以通过Impala使用JDBC的方式，也可以通过Kudu提供的Client API方式，参考Fayson前面的文章《如何使用Java API访问CDH的Kudu》和《如何使用Java代码访问Kerberos环境下的Kudu》。在做Spark开发时也有访问Kudu的需求，Kudu API访问是一种方式，这里Fayson使用KuduContext实...

Kudu——Spark操作Kudu

xdx_dili的博客

08-29

541

Kudu——Spark操作Kudu

spark篇2：spark通过KuduContext操作kudu

qq_38740498的博客

04-12

1263

spark篇2：spark通过KuduContext操作kudu 废话不多说，直接上干货创建kudu表 package kudu.sparkKudu import org.apache.kudu.spark.kudu.KuduContext import org.apache.spark.sql.SparkSession import org.apache.spark.{SparkConf, ...

一文简单了解kudu

cn987654的博客

12-20

1万+

简单学习下kudu的基础知识

KUDU的API使用，不同客户端操作应对批处理与流处理

Kevin__Durant的博客

11-22

1247

背景当前公司为互联网金融公司，面对的业务方较多；风控部门的数据分析师，策略分析师，反欺诈分析师等，目前的数据量这些分析师使用Python以及MySQL是无法满足快速高效的分析的；商城、运营部门等的报表看板，定制化用户行为分析等。；目前的自主分析是使用的开源产品Superset做一部分的改造，接入Druid，ES，Impala，分析师们已经全部转到我们的平台，大部分的使用都是基于我们数仓的DWS，但是除此之外实时数据没有完全接入，这是目前的痛点，也是最需要做的；尝试使用HBase做映射使用Impala分析

客快物流大数据项目（八十三）：Kudu的优化

Lansonli（蓝深李）的博客

10-29

1512

分配给 Kudu Tablet Server 块缓存的最大内存量：block_cache_capacity_mb=512。TabletServer 在开始拒绝所有传入的写入之前可以消耗的最大内存量：memory_limit_h。在 Kudu 完成内部复合键编码之后，组成复合键的单元格总共限制为。如果插入不符合这些限制的行时会报错误并返回给客户端。在编码或压缩之前，任何单个单元都不得大于。

大数据实时+离线项目架构----智慧物流大数据平台（超流行框架！）

weixin_48143996的博客

07-06

6386

智慧物流大数据平台文章目录智慧物流大数据平台一、项目背景二、逻辑架构三、解决方案技术亮点:数据流转四、项目的技术选型4.1流式处理平台4.2 分布式计算平台4.3 海量数据存储框架软件版本总结一、项目背景本项目基于一家大型物流公司研发的智慧物流大数据平台。该物流公司是国内综合性快递、物流服务商，并在全国各地都有覆盖的网点。经过多年的积累、经营以及布局，拥有大规模的客户群，日订单达上千万。如此规模的业务数据量，传统的数据处理技术已经不能满足企业的经营分析需求。公司需要基于大数据技术构建数据中心，从而挖

Spark的那些事(四) java操作kudu全示例(含sparksql)

zhongyuan_1990的专栏

03-22

3026

上文提到，使用kudu等列式存储将数据以update模式写入kudu. 下面说一下java操作kudu的相关demo。java操作kudu在git上有相关demo，而spark操作kudu并没有。cloudera官网的操作中只提到了scala版本。本文列举java操作kudu的全示例，仅供入门参考。(痛苦的是sparksql查询kudu的java实现，官方没有示例，google也不好用) 1）...

Kudu的介绍及使用

weixin_42687074的博客

03-27

1221

前文：过往采用Hive的离线处理时效性低，计算任务过于集中，查询效率低。SparkStreaming+Hive的数据清洗线使得多套数据流过于复杂。未来的数据仓库场景越来越趋向于实时数仓。一、引入二、架构图 2、架构及数据量 3、文件结构 4、目录结构 5、读写流程及分区策略三、分区及策略四、代码 1、通过Spar...

使用Spark 2.2.1 + Kudu 1.5.0 操作Kudu大数据系统

大模型与Agent智能体

08-21

6851

使用Spark 2.2.1 + Kudu 1.5.0 操作Kudu大数据系统 Kudu的版本查询：（https://www.cloudera.com/documentation/enterprise/release-notes/topics/cdh_vd_cdh5_maven_repo_513x.html#concept_8ur_obn_yk） Apache Kudu org.apache.k...

kudu原理与使用

热门推荐

a376554764的博客

04-22

5万+

1、 kudu简介 1.1、kudu是什么？简单来说:dudu是一个与hbase类似的列式存储分布式数据库。官方给kudu的定位是:在更新更及时的基础上实现更快的数据分析 1.2、为什么需要kudu？ 1.2.1、hdfs与hbase数据存储的缺点目前数据存储有了HDFS与hbase，为什么还要额外的弄一个kudu呢? HDFS:使用列式存储格式Apache Parquet，Apache O...

Spark Kudu 结合

spark的自由牧场的博客

05-24

1万+

Kudu的背景Hadoop中有很多组件，为了实现复杂的功能通常都是使用混合架构， Hbase：实现快速插入和修改，对大量的小规模查询也很迅速 HDFS/Parquet + Impala/Hive：对超大的数据集进行查询分析，对于这类场景， Parquet这种列式存储文件格式具有极大的优势。 HDFS/Parquet + Hbase:这种混合架构需要每隔一段时间将数据从hbase导出成Parquet文

spark+kudu 例子

qq_37207637的博客

12-29

3052

//读取kudu sqlContext.read.options(Map("kudu.master" -> "data.hadoop:5071", "kudu.table" -> "testable")) .kudu.show() val rdd = sc.textFile("file:///C:\\Users\\mykudu.txt").map(_.split("\t")

Kudo介绍 + Spark\Python\Scala开发Kudu应用程序

图特摩斯科技-博客

08-22

9099

前半部分文章摘自：http://blog.csdn.net/a1043498776/article/details/72681890 Kudu的背景 Hadoop中有很多组件，为了实现复杂的功能通常都是使用混合架构， Hbase：实现快速插入和修改，对大量的小规模查询也很迅速HDFS/Parquet + Impala/Hive：对超大的数据集进行查询分析，对于这类场景， Pa

kudu踩坑记之一

Gavin博客专栏

06-29

9564

在开发过程中，难免会手误，由于在通过impala-shell建kudu表时候把bigint类型的字段写成了string，以致后面在计算时候报错。但由于该表有2亿的数据（交易明细表），不可能重新抽取，于是按照关系型数据库的思维来操作。 1、暂以A表示原表，新建一个正确的表B， 2、insert into B select * from A;(此步耗时2-3分钟,与机器性能有关)

Spark操作Kudu

chbxw

01-21

1052

到目前为止，我们已经听说过几个上下文，例如 SparkContext， SQLContext，HiveContext， SparkSession，现在，我们将使用 Kudu 引入一个 KuduContext。这是可在Spark应用程序中广播的主要可序列化对象。此类代表在 Spark 执行程序中与 Kudu Java 客户端进行交互。 KuduContext 提供执行 DDL 操作所需的方法，与本机 Kudu RDD的接口，对数据执行更新/插入/删除，将数据类型从Kudu转换为Spark 等。 1.1

商品搜索与全渠道可售库存（ATP）深耕技能指南