Spark SQL网站数据分析报告

一、数据集概述

本报告基于两个关键数据集进行分析:

  1. 网站信息表(my_website):包含全球主要网站的基本信息

  2. 访问日志表(my_access_log):记录各网站的历史访问数据

数据表结构

网站信息表 (my_website)
字段说明示例值
id网站ID1, 2, 3...
name网站名称Google, 淘宝, 菜鸟教程...
url网址https://www.google.com
alexaAlexa排名1(数值越小排名越高)
country国家代码USA, CN, IND
访问日志表 (my_access_log)
字段说明示例值
aid日志ID1, 2, 3...
site_id网站ID1, 3, 5...
count访问次数45, 100, 230...
date访问日期2022-05-10 00:00:00

二、关键数据分析

1. 全球网站分布情况

SELECT DISTINCT country FROM my_website;

分析结果

国家代码国家代表网站数量
CN中国3
USA美国2
IND印度1

结论:中国网站占比50%,在数据集中占据主导地位。

2. Alexa全球网站排名分析

全球排名前5的网站:

SELECT name, alexa FROM my_website ORDER BY alexa LIMIT 5;

结果

网站名称Alexa排名国家
Google1USA
stackoverflow0*IND
Facebook3USA
淘宝13CN
微博20CN

*注:Alexa排名0表示未进入全球前1000万,但stackoverflow实际是全球知名技术社区

高排名网站国家分布(Alexa > 10):

SELECT country, COUNT(*) AS high_rank_sites 
FROM my_website 
WHERE alexa > 10 
GROUP BY country;

结果

国家高排名网站数量
CN3
USA0
IND0

结论:中国网站包揽所有高排名位置(Alexa>10),美国网站全球排名表现最佳(前5占3席)。

3. 中国网站专项分析

SELECT name, alexa, url 
FROM my_website 
WHERE country = 'CN' AND alexa > 10 
ORDER BY alexa DESC;

结果

网站名称Alexa排名网址
菜鸟教程4689菜鸟教程 - 学的不仅是技术,更是梦想!
微博20Sina Visitor System
淘宝13淘宝

三、深度分析建议

1. 网站访问量关联分析

-- 网站访问总量分析
SELECT w.name, SUM(l.count) AS total_visits
FROM my_website w
JOIN my_access_log l ON w.id = l.site_id
GROUP BY w.name
ORDER BY total_visits DESC;

2. 时间维度访问趋势

-- 月度访问趋势分析
SELECT 
  DATE_FORMAT(date, 'yyyy-MM') AS month,
  w.name,
  SUM(l.count) AS monthly_visits
FROM my_access_log l
JOIN my_website w ON l.site_id = w.id
GROUP BY month, w.name;

3. 国家表现对比

-- 按国家的平均访问量分析
SELECT 
  w.country,
  AVG(l.count) AS avg_daily_visits
FROM my_access_log l
JOIN my_website w ON l.site_id = w.id
GROUP BY w.country;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值