参考:http://www.4wei.cn/archives/1002357
Python UDF
HIVE,FACEBOOK的一个开源项目,利用类SQL的语句(HiveQL)来加快一般的MapReduce的开发过程。
UDF,user defined function, 因为HIVE毕竟不是一般的关系型数据库,支持的HQL有限,如果要实现复杂的功能,就要通过自己定义函数来帮助实现。
HIVE应该利用PIPE的原理,将自己查询的结果放到python脚本的stdin中。所以他的查询结果不会显示在terminal中,terminal中显示的结果是python的执行结果。
使用HIVE的命令进入数据仓库(mydbname是你的数据库)
|
1
|
use mydbname;
|
使用HIVE的命令查看已经建立的表
|
1
|
show tables;
|
使用HIVE的命令查看(mytable)表中的字段
|
1
|
|

本文介绍了如何在Hive中使用Python实现用户自定义函数(UDF),通过Hive的transform语句配合Python脚本处理数据。内容包括Python UDF的使用步骤,以及在处理日期不连续情况下的应用实例,提供了调试和问题解决的参考资料。

4481

被折叠的 条评论
为什么被折叠?



