聚类分析与判别分析十题_数学建模系列

最新推荐文章于 2024-01-03 16:53:18 发布

原创最新推荐文章于 2024-01-03 16:53:18 发布 · 1.4w 阅读

70 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#数学建模 #R #matlab #聚类

数学建模专栏收录该内容

5 篇文章

订阅专栏

本文介绍了多个聚类分析与判别分析的实际问题，包括使用Matlab和R语言进行距离矩阵计算、谱系图绘制、样本聚类。涉及最短距离法、重心法、系统聚类法、K-均值法等，通过实例展示了如何应用这些方法解决实际问题，如产品评分、销售量分析、降水量预报等。

聚类分析与判别分析习题_数学建模系列

1.

【问题描述】：

5位代理商对某种产品的四种指标评分如下：

	$x_1$	$\mathop x\nolimits_2$	$\mathop x\nolimits_3$	$\mathop x\nolimits_4$
1	2	4	6	32
2	5	2	5	38
3	3	3	7	30
4	1	2	3	16
5	4	3	2	30

其中， $\mathop x\nolimits_1$ ， $\mathop x\nolimits_2$ ， $\mathop x\nolimits_3$ 为态度测度，共有17个分值， $\mathop x\nolimits_4$ 为兴趣测度，取值为1140.求出其绝对值距离矩阵，平方和距离矩阵。

【解析】：
编写如下的Matlab程序：（为latex版本，后文省略排版代码）

\begin{verbatim}
X = [2 4 6 32;
     5 2 5 38;
     3 3 7 30;
     1 2 3 16;
     4 3 2 30];
D1 = pdist(X, 'cityblock')
D2 = pdist(X, 'euclidean')
\end{verbatim}

于是得到如下的计算结果：

（1）绝对值距离矩阵：

$D 1 = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ 012522912013281351302162228210199136190 ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟$ ${{D}_{1}}=\left( \begin{matrix} 0 & 12 & 5 & 22 & 9 \\ 12 & 0 & 13 & 28 & 13 \\ 5 & 13 & 0 & 21 & 6 \\ 22 & 28 & 21 & 0 & 19 \\ 9 & 13 & 6 & 19 & 0 \\ \end{matrix} \right)$

（2）平方和距离矩阵：

$D 2 = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ 0 7.0711 2.6458 16.4317 5.0000 7.0711 0 8.5440 22.4499 8.6603 2.6458 8.5440 0 14.7309 5.0990 16.4317 22.4499 14.7309 0 14.3875 5.0000 8.6603 5.0990 14.3875 0 ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟$ ${{D}_{2}}=\left( \begin{matrix} 0 & 7.0711 & 2.6458 & 16.4317 & 5.0000 \\ 7.0711 & 0 & 8.5440 & 22.4499 & 8.6603 \\ 2.6458 & 8.5440 & 0 & 14.7309 & 5.0990 \\ 16.4317 & 22.4499 & 14.7309 & 0 & 14.3875 \\ 5.0000 & 8.6603 & 5.0990 & 14.3875 & 0 \\ \end{matrix} \right)\$

2.

【问题描述】：

检测某类产品的重量，抽了六个样品，每个样品只测了一个指标，分别为1，2，3，6，9，11.试用最短距离法，重心法进行聚类分析。

【解析】：
（1）按照最短距离法进行聚类分析。编写如下的R语言程序：

X <- data.frame(
  x1 = c(1, 2, 3, 6, 9, 11),
  row.names = c("1", "2", "3", "4", "5", "6")
)
d <- dist(scale(X), method = 'euclidean')
heatmap(as.matrix(d),labRow = rownames(d), labCol = colnames(d))

kinds <- 3
model1 <- hclust(d, method = 'single')
result <- cutree(model1, k = kinds)
plot(model1, -1)
rect.hclust(model1, k = kinds, border = "red")

↑首先得到的是样本之间的相关关系，颜色越深表示这两个样本之间的关系越近，亦可能属于同一类。

(下面为latex绘图代码片，后文略)

\begin{figure}[h]
\centering
\includegraphics[width=*0.75*\textwidth]{*5.png*}
\end{figure}

考虑将其划分为两类，得到如下的谱系聚类图。
↑考虑将其划分为两类，得到谱系聚类图。

所以将样本划分为： $\{1, 2, 3, 4\}$ 、 $\{5, 6\}$ 。

（2）按照重心法进行聚类分析。编写如下的R语言程序：

kinds <- 2
model1 <- hclust(d, method = 'centroid')
result <- cutree(model1, k = kinds)
plot(model1, -1)
rect.hclust(model1, k = kinds, border = "red")

得到如下的谱系聚类图。
↑得到谱系聚类图。

所以将样本划分为： $\{1, 2, 3\}$ 、 $\{4, 5, 6\}$ 。

3.

【问题描述】：

某店五个售货员的销售量 $x_1$ 与教育水平 $x_2$ 之间的评分表如下，试用最短距离法做聚类分析

	$x_1$	$x_2$
1	1	1
2	1	2
3	6	3
4	8	2
5	8	0

【解析】：
编写如下的R语言程序：

X <- data.frame(
  x1 = c(1, 1, 6, 8, 8),
  x2 = c(1, 2, 3, 2, 0),
  row.names = c("1", "2", "3", "4", "5")
)
d <- dist(scale(X), method = 'euclidean')
heatmap(as.matrix(d),labRow = rownames(d), labCol = colnames(d))

kinds <- 3
model1 <- hclust(d, method = 'single')
result <- cutree(model1, k = kinds)
plclust(model1, -1)
rect.hclust(model1, k = kinds, border = "red")

mds <- cmdscale(d, k = 2, eig = T)
x <- mds$points[,1]
y <- mds$points[,2]
library(ggplot2)
p <- ggplot(data.frame(x,y),aes(x,y))
p + geom_point(size = kinds, alpha = 0.8, aes(colour = factor(result),shape = factor(result)))

↑首先得到的是样本之间的相关关系，颜色越深表示这两个样本之间的关系越近，亦可能属于同一类。

↑考虑将样本划分为3类，于是得到谱系聚类图。

↑为了更直观的表示出3类之间的关系，利用经典MDS对样本数据进行变换，在二维平面上绘制出散点图。

可见，按照3类进行划分是合理的。所以将样本划分为： $\{1, 2\}$ 、 $\{3, 4\}$ 、 $\{5\}$ 。

4.

【问题描述】：

下面给出七个样品两两之间的欧氏距离矩阵

$D = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ 12345671047121819212038141517305111214406179501360270 ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟$ ${{D}}=\left( \begin{matrix} & 1& 2& 3& 4& 5& 6& 7\\ 1& 0&&&&&& \\ 2& 4& 0 &&&&& \\ 3& 7& 3& 0&&&&& \\ 4&12&8&5&0&&& \\ 5&18&14&11&6&0&& \\ 6&19&15&12&17&1&0& \\ 7&21&17&14&9&3&2&0 \\ \end{matrix} \right)\$

试分别用最小距离法、最大距离法、重心举例法进行聚类，并画出系谱图。

【解析】：
编写如下的Matlab程序：

d = [4, 7, 12, 18, 19, 21, 3, 8, 14, 15, 17, 5, 11, 12, 14, 6, 7, 9, 1, 3, 2];
z1 = linkage(d);
z2 = linkage(d, 'complete');
z3 = linkage(d, 'average');
k = 3;
figure(1);
H1 = dendrogram(z1);
T1 = cluster(z1, k)
figure(2);
H2 = dendrogram(z2);
T2 = cluster(z2, k)
figure(3);
H3 = dendrogram(z3);
T3 = cluster(z3, k)

（1）最小距离法得到的聚类结果为： $\{1, 2, 3\}$ 、 $\{4\}$ 、 $\{5, 6, 7\}$ 。绘制的谱系聚类图，如下：
这里写图片描述

（2）最大距离法得到的聚类结果为： $\{1, 2, 3\}$ 、 $\{4\}$ 、 $\{5, 6, 7\}$ 。绘制的谱系聚类图，如下：
这里写图片描述

（3）重心距离法得到的聚类结果为： $\{1, 2, 3\}$ 、 $\{4\}$ 、 $\{5, 6, 7\}$ 。绘制的谱系聚类图，如下：
这里写图片描述

5.

【问题描述】：

华北五站（北京、天津、营口、太远、石家庄）1968年（及1969年）7、8月份降水量（ $Y$ ）作预报。

（1）根据专业的统计分析 $Y$ 主要取决于下列因子：: X_1：上海4月份平均气温，; X_2：北京三月份降水总量，; X_3：5月份地磁 $Ci$ 指数，; X_4：4月份500 $mbW$ 环流型日数

时间	$Y/mm$	$x_1$	$x_2$	$x_3$	$x_4$
1961	410	14.8	20.1	0.69	13
1962	255	12.5	2.3	0.36	4
1963	527	14.5	12.4	0.69	12
1964	510	16.4	10.6	0.58	26
1965	226	12.2	0.3	0.35	4
1966	456	13.8	12.3	0.42	23
1967	389	13.6	7.7	0.82	25
1968		13.7	0.6	0.68	12.5
1969		14.2	16.5	0.65	15

	X1	X2	X3	X4	Y
X1	1.0000000	0.6950138	0.5142621	0.6627185	0.8497245
X2	0.6950138	1.0000000	0.5762508	0.4386373	0.7227803
X3	0.5142621	0.5762508	1.0000000	0.5283724	0.5735971
X4	0.6627185	0.4386373	0.5283724	1.0000000	0.6979025

$x_1$	$x_2$	$x_3$	$x_4$	$x_5$	$x_6$	$x_7$	$x_8$	$x_9$
1	11.09	0.21	0.05	96.98	70.53	1.86	-44.04	81.99
2	11.96	0.59	0.74	51.78	90.73	4.95	7.02	16.11
3	0	0.03	0.03	181.99	100	-2.98	103.33	21.18
4	11.58	0.13	0.17	46.07	92.18	1.14	6.55	-56.32
5	-6.19	-0.09	0.03	43.3	82.24	1.52	-1713.5	-3.36
6	10	0.47	0.48	68.4	86	4.7	-11.56	0.85
7	10.49	0.11	0.35	82.98	99.87	1.02	100.23	30.32
8	11.12	-1.69	0.12	132.14	100	-0.66	-4454.39	-62.75
9	3.41	0.04	0.2	67.86	98.51	1.25	-11.25	-11.43
10	1.16	0.01	0.54	43.7	100	1.03	-87.18	-7.41
11	30.22	0.16	0.4	87.36	94.88	0.53	729.41	-9.97
12	8.19	0.22	0.38	30.31	100	2.73	-12.31	-2.77
13	95.79	-5.2	0.5	252.34	99.34	-5.42	-9816.52	-46.82
14	16.55	0.35	0.93	72.31	84.05	2.14	115.95	123.41
15	-24.18	-1.16	0.79	56.26	97.8	4.81	-533.89	-27.74

地区	食品	衣着	燃料	住房	交通和通讯	娱乐教育文化
北京	190.33	43.77	9.73	60.54	49.01	9.04
天津	135.2	36.4	10.47	44.16	36.49	3.94
河北	95.21	22.83	9.3	22.44	22.81	2.8
山西	104.78	25.11	6.4	9.89	18.17	3.25
内蒙	128.41	27.63	8.94	12.58	23.99	2.27
辽宁	145.68	32.83	17.79	27.29	39.09	3.47
吉林	159.37	33.38	19.27	11.81	25.29	5.22
黑龙江	116.22	29.57	13.24	11.81	25.29	5.22
上海	221.11	38.64	12.53	115.65	50.82	5.89
江苏	144.98	29.12	11.67	42.6	27.3	5.74
浙江	169.92	32.75	12.72	47.12	34.35	5
安徽	135.11	23.09	15.62	23.54	18.18	6.39
福建	144.92	21.26	16.96	19.52	21.75	6.73
山西	140.54	21.5	17.64	19.19	15.97	4.94
山东	115.84	30.26	12.2	33.6	33.77	3.85
河南	101.18	23.26	8.46	20.2	20.5	4.3

	1	2	3	4	5
Anhui	1	0	0	0	0
Beijing	0	0	0	0	1
Fujian	1	0	0	0	0
Hebei	0	0	1	0	0
Heilongjiang	1	0	0	0	0
Henan	0	0	1	0	0
InnerMongolia	0	0	1	0	0
Jiangsu	0	0	0	1	0
Jiangxi	1	0	0	0	0
Jilin	1	0	0	0	0
Liaoning	0	0	0	1	0
Shandong	0	0	0	1	0
Shanghai	0	1	0	0	0
Shanxi	0	0	1	0	0
Tianjin	0	0	0	1	0
Zhejiang	0	0	0	1	0

		式样	包装	耐久性
购买组样品	1	9	8	7
	2	7	6	6
	3	10	7	8
	4	8	4	5
	5	9	9	7
	6	8	6	7
	7	7	5	6
非购买组样品	1	4	4	4
	2	3	6	6
	3	6	3	3
	4	2	4	5
	5	1	2	2

类别	序号	国家名称	出生时预期寿命	成人识字率	人均GDP
第一类（高发展水平国家）	1	美国	76	90	5374
	2	日本	79.5	99	5359
	3	瑞士	78	99	5372
	4	阿根廷	72.1	95.9	5242
	5	阿联酋	73.8	77.7	5370
第二类（中等发展水平国家）	6	保加利亚	71.2	93	4250
	7	古巴	75.3	94.9	3412
	8	巴拉圭	70	91.2	3390
	9	格鲁尼亚	72.8	99	2300
	10	南非	62.9	80.6	3799
待判样品	11	保加利亚	71.2	93	4250
	12	罗马尼亚	69.9	96.9	2840
	13	希腊	77.6	93.8	5233
	14	哥伦比亚	69.3	90.3	5158

地区	DXBZ	CZBZ	WMBZ	地区	DXBZ	CZBZ	WMBZ
北京	9.30	30.55	8.70	河南	0.85	26.55	16.15
天津	4.67	29.38	8.92	湖北	1.57	23.16	15.79
河北	0.96	24.69	15.21	湖南	1.14	22.57	12.10
山西	1.38	29.24	11.30	广东	1.34	23.04	10.45
内蒙古	1.48	25.47	15.39	广西	0.79	19.14	10.61
辽宁	2.60	32.32	8.81	海南	1.24	22.53	13.97
吉林	2.15	26.31	10.49	四川	0.96	21.65	16.24
黑龙江	2.14	28.46	10.87	四川	0.96	21.65	16.24
上海	6.53	31.59	11.04	云南	0.81	13.85	25.44
江苏	1.47	26.43	17.23	西藏	0.57	3.85	44.43
浙江	1.17	23.74	17.46	陕西	1.67	24.36	17.62
安徽	0.88	19.97	24.43	甘肃	1.10	16.85	27.93
福建	1.23	16.87	15.63	青海	1.49	17.76	27.70
江西	0.99	18.84	16.22	宁夏	1.61	20.27	22.06
山东	0.98	25.18	16.87	新疆	1.85	20.66	12.75

聚类分析与判别分析十题_数学建模系列

聚类分析与判别分析习题_数学建模系列

1.

2.

3.

4.

5.

6.

7.

8.

9.

10.

本文由厦门大学荔枝带飞队编写