Learning from imbalanced data: open challenges and future directions
Tackling imbalanced data
-
Data-level methods that modify the collection of examples to balance distributions and/or remove difficult samples.
修改训练集,使其适合标准学习算法。为了平衡分布,我们可以为少数群体产生新对象的方法(过抽样)和从多数群体中剔除样本的方法(欠抽样)。标准方法使用随机性方法来选择用于预处理的目标样本。然而,这通常会导致删除重要的样本或引入无意义的新对象。因此,提出了更先进的方法,试图维持样本的整体结构和或根据潜在的分布产生新的数据。
-
Algorithm-level methods that directly modify existing learning algorithms to alleviate the bias towards majority objects and adapt them to mining data with skewed distributions.
专注于改进现有的算法,以减轻它们对多数群体的bias。这需要对改进的学习算法有很好的了解,并准确地识别其在挖掘倾斜分布时失败的原因。最流行的分支是成本敏感型方法(重加权)。考虑对每组实例设置不同的惩罚。通过这种方式,通过将更高的成本分配给较少代表的对象集,我们在学习过程中提高了它的重要性。但对于许多现实生活中的问题,很难在成本矩阵中设定实际值。另一种算法级别的解决方案是应用聚焦于目标群体的单类学习,创建数据描述。通过这种方式,消除对任何组的bias,只关注一组对象。
-
Hybrid methods that combine the advantages of two previous groups.
Real-life imbalanced problems
从不平衡数据中学习的发展主要是由大量现实生活应用推动的,在这些应用中,我们面临着数据表示不平衡的问题。在这种情况下,少数类通常是更重要的一类,因此我们需要一些方法来提高其识别率。这与防止恶意攻击、检测危及生命的疾病、管理社交网络中的非典型行为或处理监控系统中的罕见案例等重要问题密切相关。
Binary imbalanced classification
不平衡比率并不是学习困难的唯一来源,即使不平衡比例很高,但这两个类别都得到了很好的表示,并且来自非重叠分布,任然可以使用规范分类器来获得良好的分类率。
Multi-class imbalanced classification
Here we deal with a more complicated situation, as the relations among the classes are no longer obvious.
A class may be a majority one when it is compared to some other classes, but a minority or well-balanced for the rest of them. When dealing with multi-class imbalanced data we may easily lose performance on one class while trying to gain it on another.
针对这种情况可以选择重要的标签,该标签对分类有着重要影响。

1551

被折叠的 条评论
为什么被折叠?



