工作中刚好遇到有关NiFi的应用,索性就学习了一下,我把我在工作中遇到的问题,简单记录下:
场景是:数据存储在本地Mongodb,需要通过NiFi提交给大数据系统,并保存在hive中,并能用saprk做分析。
NiFi目前网上的帖子不多,我就把我认为需要注意的地方,简单记录下,这个帖子,我会持续优化,以期日臻完善。
==========================================================================================
配置mongodb,需要添加GetMongo的processor。

其中的配置项需要注意:

我在配置的时候,我认为需要注意的地方:
一、本地Mongodb,务必确认配置文件mongod.cfg中的监听,是否添加了本地真实ip?配置好后记得重启Mongo服务。

二、本地主机,(windows)防火墙是否关闭了,否则有可能hadoop环境无法连接到主机
三、GetMongo中的配置,Mongo URI, 指定好相应的本机ip即可。
此外
JSON Type的选项,Extended JSON和Standard JSON,若数据导入数据库中,我建议选用Standard JSON。
两者的区别,大家可以实际感受下,主要是对_id的值的转换样式;
Pretty Print Results JSON的选项,True和False对于数据展示有些许不同,大家可以感受下,我选择False。
导出的json文件样式如下:

四、详细配置说明,应该去看官方说明文档,我附上链接:
学习开源软件,最好的方式就是看官方文档!
https://nifi.apache.org/docs.html
其中 Getting Started ,可以好好看一下,(有关于processors之间的relationship设置,在Getting Started中有说明)有说明如何操作。Processors处理器需要用到的组件再详细去看即可。

本文分享了使用NiFi从本地Mongodb提取数据并提交至大数据系统,最终存储于hive供spark分析的实践经验。重点介绍了配置GetMongo处理器、解决连接问题及选择JSONType的方法。

861

被折叠的 条评论
为什么被折叠?



