若发现文章有误,敬请指出,感谢
一、运行环境
- Vmware
- CentOS 7 操作系统
- JDK 8
- MySQL8
- Hadoop3.3.0(单节点)
- HIve 3.1.2 on YARN
- Maven 3.8.4
- IDEA 2021.3 旗舰版
节点分配:
其中MySQL和Hive都安装在hadoop101节点

二、Hive的内置函数
官方参考文档:点击查看
Hive提供的函数主要分为三种,分别是 UDF、UDAF、UDTF,它们之间的比较如下表:
| 函数类型 | 全称 | 描述 | 范例 |
|---|---|---|---|
| UDF | User Defined Function | 一进一出 | floor()向下取整、ceil()向上取整… |
| UDAF | User Defined Aggregation Function | 多进一出 | min(col)取最小值、max(col)取最大值… |
| UDTF | User Defined Table-Generating Functions | 一进多出 | explode()炸裂函数,可遍历一个集合、数组等 |
如何自定义UDF、UDTF函数?(由于官方提供的UDAF函数十分丰富,所以一般不需要自定义)
步骤如下:
- 继承Hive提供的类
org.apache.hadoop.hive.ql.udf.generic.GenericUDF;
org.apache.hadoop.hive.ql.udf.generic.GenericUDTF; - 实现要求实现的方法
- 打包成jar包提交到Hive所在的集群节点(如果在Hive根目录的lib文件夹下就无需手动导入,否则需要在Hive Shell里手动执行
add jar 文件位置,添加jar包 - 注册函数,使用
create temporary function 自定义函数名 as "实现类的包名加上类名";命令来完成自定义函数的注册 - 最后测试函数,可以使用实际表的数据,也可以直接用字符串或者变量来进行测试。
三、自定义UDF函数
官方参考文档:点击查看
3.1 编写代码实现自定义的Hive函数
pom.xml Maven 依赖
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>com.uni</groupId>
<artifactId>project</artifactId>
<packaging>pom</packaging>
<version>1.0-SNAPSHOT</version>
<modules>
<module>hive-demo</module>
</modules>
<properties>
<maven.compiler.source>8</maven.compiler.source>
<maven.compiler.target>8</maven.compiler.target>
</properties>
<!-- 声明并引入,所有子模块都会自动引入该依赖 -->
<dependencies>

本文介绍了在Hive中创建自定义UDF和UDTF的步骤,包括编写Java代码、打包成jar、发布到集群以及测试。内容涵盖了UDF和UDTF的基本概念、实现方式及测试过程。
 使用Java实现自定义SQL函数 | Hive三大类型函数的简要区分 UDF、UDAF、UDTF&spm=1001.2101.3001.5002&articleId=123753751&d=1&t=3&u=9539955021ff4769bd40a2c01ec1d413)
4998

被折叠的 条评论
为什么被折叠?



