一个简单的实操案例

本文描述了一项关于大数据处理的需求,涉及从数据库创建、数据上传到HDFS,清洗含有空值和字段缺失的问题,使用datehour函数处理时间数据,以及通过GPS字段生成地区分布。此外,还提及了使用FineBI进行数据可视化和指标统计,如消息总量、用户数、地区发送量等。

需求

统计今日总消息量 统计今日每小时消息量、发送和接收用户数

统计今日各地区发送消息数据量

统计今日发送消息和接收消息的用户数

统计今日发送消息最多的Top10用户

统计今日接收消息最多的Top10用户

统计发送人的手机型号分布情况

统计发送人的设备操作系统分布情况

约30万条数据,需要文件的同学可以找我免费领取

操作

--如果数据库已存在就删除

drop database if exists db_msg cascade ;

--创建数据库

create database db_msg ;

--切换数据库

use db_msg ;

--列举数据库

show databases ;

然后进行上传文件到HDFS中

将数据插入到表中并验证:

数据清洗:

问题1:当前数据中,有一些数据的字段为空,不是合法数据

        where过滤,where length(sender_gps)>0

问题2:需求中,需要统计每天、每个小时的消息量,但是数据中没有天和小时字段,只有整体时间字段,不好处理

        date hour 函数 date(msg_time),hour(msg_time)

问题3:需求中,需要对经度和维度构建地区的可视化地图,但是数据中GPS经纬度为一个字段,不好处理

        split函数split(sender_gps,',')[0] 

                      split(sender_gps,',')[0] 维度

需求4:将ETL以后的结果保存到一张新的Hive表中

     

需求指标统计

指标1:统计今日消息总量

        

指标2:统计每小时消息量、发送和接收用户数

指标3:统计今日各地区发送消息总量

指标4:统计今日发送和接收用户人数

指标5:统计接收消息条数最多的Top10用户

指标6:统计发送人的手机型号分布情况

再通过FineBI

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值