一、自训练(Self-training)
Self-training是最简单的半监督方法之一,其主要思想是找到一种方法,用未标记的数据集来扩充已标记的数据集。算法流程如下:
- 首先,利用已标记的数据来训练一个好的模型(教师模型)
- 用学习到的模型预测未标记数据。
- 将生成的伪标签与原始的标记数据相结合,并在合并后数据上进行训练生成模型(学生模型)。
- 学生网络训练完成后变为教师模型再次训练下一个学生网络。
- 整个过程可以重复n次,直到达到收敛。
即首先用有标签数据训练一个分类器,然后用这个分类器对无标签数据进行分类,这样就会产生伪标签(pseudo label)或软标签(soft label),挑选一定标准的伪标签样本用来迭代训练分类器。

使用场景:在现实生活中得到大量有标签数据需要大量时间经历,而自训练是有标签数据+无标签数据混合成的训练数据中使用的深度学习算法,可以利用自训练方法对无标记数据进行标记,实现己标记数据的扩充。
自训练可扩展性、通用性和灵活性,在每种条件设置下均能很好地发挥作用,无论是少数据状态、多数据状态、弱数据增强还是强数据增强。自训练不依赖于模型架构也不依赖于数据集
二、自训练主要问题
(1)自训练方法受标记样本分布和数量的限制。
①当初始标记样本不能代表整个数据分布时,用初始标记样本训练的分类器泛化性较低。这是因为构造的决策边界会偏离真实的决策边界,进而无法有效地归类数据。
② 当初始有标记样本数量不足时,很难构造有效的分类器。因为构造分类器通常需要足够的标记样本,否则会造成误标记。
③当初始有标记样本不足,且不能够代表整个数据集的分布时,就很难有效地发现高

自训练是一种半监督学习方法,通过已标记数据训练教师模型,生成伪标签扩充无标记数据集。然而,这种方法受限于标记样本质量和数量,可能导致误标记。解决策略包括数据过滤、一致性正则化和不确定性增强。此外,循环自训练通过跨领域泛化改进了分布偏移问题,提供了一种更有效的解决方案。

1052

被折叠的 条评论
为什么被折叠?



