自训练Self-Training学习总结

原创

已于 2023-04-17 14:19:58 修改 · 1.1w 阅读

·

17

·

标签

#学习 #算法 #机器学习

于 2023-04-13 16:25:27 首次发布

自训练是一种半监督学习方法，通过已标记数据训练教师模型，生成伪标签扩充无标记数据集。然而，这种方法受限于标记样本质量和数量，可能导致误标记。解决策略包括数据过滤、一致性正则化和不确定性增强。此外，循环自训练通过跨领域泛化改进了分布偏移问题，提供了一种更有效的解决方案。

一、自训练（Self-training）

Self-training是最简单的半监督方法之一，其主要思想是找到一种方法，用未标记的数据集来扩充已标记的数据集。算法流程如下：

首先，利用已标记的数据来训练一个好的模型（教师模型）
用学习到的模型预测未标记数据。
将生成的伪标签与原始的标记数据相结合，并在合并后数据上进行训练生成模型（学生模型）。
学生网络训练完成后变为教师模型再次训练下一个学生网络。
整个过程可以重复n次，直到达到收敛。

即首先用有标签数据训练一个分类器，然后用这个分类器对无标签数据进行分类，这样就会产生伪标签（pseudo label）或软标签（soft label），挑选一定标准的伪标签样本用来迭代训练分类器。
在这里插入图片描述

使用场景：在现实生活中得到大量有标签数据需要大量时间经历，而自训练是有标签数据+无标签数据混合成的训练数据中使用的深度学习算法，可以利用自训练方法对无标记数据进行标记，实现己标记数据的扩充。

自训练可扩展性、通用性和灵活性，在每种条件设置下均能很好地发挥作用，无论是少数据状态、多数据状态、弱数据增强还是强数据增强。自训练不依赖于模型架构也不依赖于数据集

二、自训练主要问题

（1）自训练方法受标记样本分布和数量的限制。

①当初始标记样本不能代表整个数据分布时，用初始标记样本训练的分类器泛化性较低。这是因为构造的决策边界会偏离真实的决策边界，进而无法有效地归类数据。
② 当初始有标记样本数量不足时，很难构造有效的分类器。因为构造分类器通常需要足够的标记样本，否则会造成误标记。
③当初始有标记样本不足，且不能够代表整个数据集的分布时，就很难有效地发现高

最低0.47元/天解锁文章

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Pistachiout 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。