一、数据集概述
本报告基于两个关键数据集进行分析:
-
网站信息表(my_website):包含全球主要网站的基本信息
-
访问日志表(my_access_log):记录各网站的历史访问数据
数据表结构
网站信息表 (my_website)
| 字段 | 说明 | 示例值 |
|---|---|---|
id | 网站ID | 1, 2, 3... |
name | 网站名称 | Google, 淘宝, 菜鸟教程... |
url | 网址 | https://www.google.com |
alexa | Alexa排名 | 1(数值越小排名越高) |
country | 国家代码 | USA, CN, IND |
访问日志表 (my_access_log)
| 字段 | 说明 | 示例值 |
|---|---|---|
aid | 日志ID | 1, 2, 3... |
site_id | 网站ID | 1, 3, 5... |
count | 访问次数 | 45, 100, 230... |
date | 访问日期 | 2022-05-10 00:00:00 |
二、关键数据分析
1. 全球网站分布情况
SELECT DISTINCT country FROM my_website;
分析结果:
| 国家代码 | 国家代表 | 网站数量 |
|---|---|---|
| CN | 中国 | 3 |
| USA | 美国 | 2 |
| IND | 印度 | 1 |
结论:中国网站占比50%,在数据集中占据主导地位。
2. Alexa全球网站排名分析
全球排名前5的网站:
SELECT name, alexa FROM my_website ORDER BY alexa LIMIT 5;
结果:
| 网站名称 | Alexa排名 | 国家 |
|---|---|---|
| 1 | USA | |
| stackoverflow | 0* | IND |
| 3 | USA | |
| 淘宝 | 13 | CN |
| 微博 | 20 | CN |
*注:Alexa排名0表示未进入全球前1000万,但stackoverflow实际是全球知名技术社区
高排名网站国家分布(Alexa > 10):
SELECT country, COUNT(*) AS high_rank_sites
FROM my_website
WHERE alexa > 10
GROUP BY country;
结果:
| 国家 | 高排名网站数量 |
|---|---|
| CN | 3 |
| USA | 0 |
| IND | 0 |
结论:中国网站包揽所有高排名位置(Alexa>10),美国网站全球排名表现最佳(前5占3席)。
3. 中国网站专项分析
SELECT name, alexa, url
FROM my_website
WHERE country = 'CN' AND alexa > 10
ORDER BY alexa DESC;
结果:
| 网站名称 | Alexa排名 | 网址 |
|---|---|---|
| 菜鸟教程 | 4689 | 菜鸟教程 - 学的不仅是技术,更是梦想! |
| 微博 | 20 | Sina Visitor System |
| 淘宝 | 13 | 淘宝 |
三、深度分析建议
1. 网站访问量关联分析
-- 网站访问总量分析
SELECT w.name, SUM(l.count) AS total_visits
FROM my_website w
JOIN my_access_log l ON w.id = l.site_id
GROUP BY w.name
ORDER BY total_visits DESC;
2. 时间维度访问趋势
-- 月度访问趋势分析
SELECT
DATE_FORMAT(date, 'yyyy-MM') AS month,
w.name,
SUM(l.count) AS monthly_visits
FROM my_access_log l
JOIN my_website w ON l.site_id = w.id
GROUP BY month, w.name;
3. 国家表现对比
-- 按国家的平均访问量分析
SELECT
w.country,
AVG(l.count) AS avg_daily_visits
FROM my_access_log l
JOIN my_website w ON l.site_id = w.id
GROUP BY w.country;

839

被折叠的 条评论
为什么被折叠?



