自训练Self-Training学习总结

自训练是一种半监督学习方法,通过已标记数据训练教师模型,生成伪标签扩充无标记数据集。然而,这种方法受限于标记样本质量和数量,可能导致误标记。解决策略包括数据过滤、一致性正则化和不确定性增强。此外,循环自训练通过跨领域泛化改进了分布偏移问题,提供了一种更有效的解决方案。

一、自训练(Self-training)

Self-training是最简单的半监督方法之一,其主要思想是找到一种方法,用未标记的数据集来扩充已标记的数据集。算法流程如下:

  1. 首先,利用已标记的数据来训练一个好的模型(教师模型)
  2. 用学习到的模型预测未标记数据。
  3. 将生成的伪标签与原始的标记数据相结合,并在合并后数据上进行训练生成模型(学生模型)。
  4. 学生网络训练完成后变为教师模型再次训练下一个学生网络。
  5. 整个过程可以重复n次,直到达到收敛。

即首先用有标签数据训练一个分类器,然后用这个分类器对无标签数据进行分类,这样就会产生伪标签(pseudo label)或软标签(soft label),挑选一定标准的伪标签样本用来迭代训练分类器。
在这里插入图片描述

使用场景:在现实生活中得到大量有标签数据需要大量时间经历,而自训练是有标签数据+无标签数据混合成的训练数据中使用的深度学习算法,可以利用自训练方法对无标记数据进行标记,实现己标记数据的扩充。

自训练可扩展性、通用性和灵活性,在每种条件设置下均能很好地发挥作用,无论是少数据状态、多数据状态、弱数据增强还是强数据增强。自训练不依赖于模型架构也不依赖于数据集

二、自训练主要问题

(1)自训练方法受标记样本分布和数量的限制。

①当初始标记样本不能代表整个数据分布时,用初始标记样本训练的分类器泛化性较低。这是因为构造的决策边界会偏离真实的决策边界,进而无法有效地归类数据。
② 当初始有标记样本数量不足时,很难构造有效的分类器。因为构造分类器通常需要足够的标记样本,否则会造成误标记。
③当初始有标记样本不足,且不能够代表整个数据集的分布时,就很难有效地发现高

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Pistachiout

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值