需求
统计今日总消息量 统计今日每小时消息量、发送和接收用户数
统计今日各地区发送消息数据量
统计今日发送消息和接收消息的用户数
统计今日发送消息最多的Top10用户
统计今日接收消息最多的Top10用户
统计发送人的手机型号分布情况
统计发送人的设备操作系统分布情况
约30万条数据,需要文件的同学可以找我免费领取
操作
--如果数据库已存在就删除
drop database if exists db_msg cascade ;
--创建数据库
create database db_msg ;
--切换数据库
use db_msg ;
--列举数据库
show databases ;
然后进行上传文件到HDFS中

将数据插入到表中并验证:

数据清洗:
问题1:当前数据中,有一些数据的字段为空,不是合法数据
where过滤,where length(sender_gps)>0
问题2:需求中,需要统计每天、每个小时的消息量,但是数据中没有天和小时字段,只有整体时间字段,不好处理
date hour 函数 date(msg_time),hour(msg_time)
问题3:需求中,需要对经度和维度构建地区的可视化地图,但是数据中GPS经纬度为一个字段,不好处理
split函数split(sender_gps,',')[0]
split(sender_gps,',')[0] 维度
需求4:将ETL以后的结果保存到一张新的Hive表中


需求指标统计
指标1:统计今日消息总量

指标2:统计每小时消息量、发送和接收用户数

指标3:统计今日各地区发送消息总量

指标4:统计今日发送和接收用户人数

指标5:统计接收消息条数最多的Top10用户

指标6:统计发送人的手机型号分布情况

再通过FineBI
本文描述了一项关于大数据处理的需求,涉及从数据库创建、数据上传到HDFS,清洗含有空值和字段缺失的问题,使用datehour函数处理时间数据,以及通过GPS字段生成地区分布。此外,还提及了使用FineBI进行数据可视化和指标统计,如消息总量、用户数、地区发送量等。

3086

被折叠的 条评论
为什么被折叠?



