12、【李宏毅机器学习（2017）】Semi-supervised Learning（半监督学习）

最新推荐文章于 2024-10-23 08:12:49 发布

原创最新推荐文章于 2024-10-23 08:12:49 发布 · 5.5k 阅读

9 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#机器学习 #深度学习 #图学习 #半监督学习

李宏毅机器学习(2017) 笔记专栏收录该内容

16 篇文章

订阅专栏

这篇博客介绍了半监督学习的概念，与监督学习的区别，并探讨了在概率生成模型中的应用。文章详细阐述了半监督学习中的概率生成模型算法及其迭代过程，以及低密度分离假设在Self-training和Entropy-based Regularization中的作用。同时，还讨论了Semi-supervised SVM和基于平滑假设的聚类与图模型方法，强调了更好地表示数据的重要性。

在前面的博客中主要介绍的算法全部都是监督学习的算法，接下来的博客将开始介绍半监督学习算法。

半监督学习介绍
- 半监督学习与监督学习
- 半监督学习的用处
Semi-supervised Learning for Generative Model
Low-density Separation Assumption
Smoothness Assumption
- Cluster and then Label
- Graph-based Approach
Better Representation

半监督学习介绍

半监督学习与监督学习

监督学习中的样本中的是已知的，所以监督学习算法可以在训练集数据中充分使用数据的信息
半监督学习的样本中只有R个样本的是已知，U个样本的未知，且通常U远大于R
– Transductive learning ：将未知标签的数据作为测试集数据（用了未知标签的数据的feature）
– Inductive learning：未知标签的数据不作为测试集数据

$\quad$

半监督学习的用处

一个直观的例子，假设蓝色点代表“猫”，橙色点代表“狗”，灰色点代表未知标签的点，尽管灰色点的标签未知，但是也能帮助我们构建模型。
这里写图片描述

$\quad$

Semi-supervised Learning for Generative Model

监督学习中的概率生成模型（Supervised Generative Model）

在监督学习中，可以之间计算样本中的类别比率、先验分布，从而计算出后验概率。
这里写图片描述

$\quad$

半监督学习中的概率生成模型（Semi-supervised Generative Model）

假设绿色为未知标签的数据，蓝色、橘色各表示一类，此时由已知标签的样本数据估计出来的 $u^1,u^2,\Sigma$ 显然是不合理的，以已知标签样本计算 $P(C_1)>P(C_2)$ ，而如果考虑未知标签的样本数据则有可能 $P(C_1)<P(C_2)$ ，因此半监督学习中的概率生成模型要比监督学习中的概率生成模型要复杂得多。
这里写图片描述

$\quad$

半监督学习中的概率生成模型算法

初始化 $\theta := P(C_1),P(C_2),u^1,u^2,\Sigma$
根据 $\theta$ 的条件计算出给定一个未知标签数据属于 $C_1$ 类的概率 $P(C_1|x^u)$
按照下图蓝色框部分公式更新 $P(C_1),u^1$
返回第2步直到收敛

算法可以得到收敛解，但是初始值不同可能导致得到的是局部最优解。
这里写图片描述

$\quad$

半监督学习中的概率生成模型算法解释

如果在监督学习中，训练数据都是已标记的数据，则算法的目的就是极大化最大似然函数；但是在半监督学习中，还有一部分没有标记的数据，对这些未标记的数据的 $P_{\theta}(x^u)$ 使用全概率公式计算得出，对这样的极大似然函数求解最大值的过程即上述的步骤。
这里写图片描述

$\quad$

Low-density Separation Assumption

现在给定一个假设，不同lable之间存在着明显的差别。

Self-training

Self-training是Low-density Separation最简单的代表，如图，现在有R个已标记的样本，U个未标记的样本

使用R个已标记的样本利用监督学习的算法训练出最优的模型 $f^*$
使用模型 $f^*$ 对U个已标记的样本进行标记
从这U个样本中（已经带有了预测的标记）挑出一部分加入R个已标记的样本
重复1到3直到收敛（此时的已标记的样本包含R个已标记的样本和从第3步挑选出的样本）

- 这一算法在回归上没有用处
- 很类似上述的半监督学习中的概率生成模型算法，区别在于这一算法使用的是hard label（要么是1要么是0），而后者则使用的是soft label（样本属于每个label的概率）

这里写图片描述

$\quad$

Entropy-based Regularization

Entropy-based Regularization 是Self-training的进阶版本，估计 $x^u$ 此时不是直接得到label而是得到关于label的分布（假设分布很集中，否则不符合Low-density 的假设），此时就是求解 $L$ 的极小值。
这里写图片描述

$\quad$

Outlook: Semi-supervised SVM

如图，蓝色、橘色为已标记的两类样本，灰色为未标记样本，此时Semi-supervised SVM会穷举所有的可能（ $2^4$ 种），对每一种可能都算一个SVM模型，选取margin最大且误差最小的模型。
这里写图片描述

$\quad$

Smoothness Assumption

现在给定一个假设，相似的 $x$ 的 $y$ 也相似，更准确地表述是， $x^1$ 和 $x^2$ 在密度高的地方相近，则 $y^1$ 和 $y^2$ 更相似（ $x^1$ 和 $x^2$ 可以用high density path做连接）。如图，尽管 $x^3$ 和 $x^2$ 在图形上比较相近，但是考虑密度分布之后 $x^1$ 和 $x^2$ 更接近。
这里写图片描述

Cluster and then Label

Cluster and then Label是在Smoothness假设下的简单算法，对所有的数据进行聚类，得到3个cluster，cluster1中的class1最多，所以cluster1里的数据都算class1，同理cluster2、cluster3都算class2。
这里写图片描述

$\quad$

Graph-based Approach

每个样本都是图上的一个点，先算出点之间的相似性，把它们之间的联系建立起来（如图），此时Smoothness假设就体现在能够连通的点是同一类。

Graph-based Approach具有传染性，如图中蓝色样本和红色样本将使得各自所连通的整个graph都是蓝色/红色。
这里写图片描述

Graph-based Approach的难点在于怎么建立样本之间的联系，有些情况这是很简单的，比如网页与网页之间、论文的引用被引用，对于无法直观联系的数据，我们可以通过以下计算构建graph。

计算 $x^i,x^j$ 的相似性 $s(x^i,x^j)$
添加edge（KNN即选择最近的k个点，eN选择半径e以内的所有点）

定量的描述smooth的程度（越小越平滑）：
这里写图片描述

可以进一步使用矩阵的形式简化上述的计算思路， $W$ 矩阵中 $w_{ij}$ 表示 $x^i$ 和 $x^j$ 的权重， $D$ 是一个对角矩阵，为 $W$ 的行加总：

这里写图片描述

$\quad$

Better Representation

要善于贯彻，从事物的外在变化寻找内部的潜在因素。