波斯语文档自动分类的改进方法
1. 文档表示与分类概述
文档表示有多种方式,N - gram 是基于字符串且无需语言处理的表示方法;单术语方法基于单词,仅需最少的语言处理;短语方法基于语言形成的短语和单个单词;RDR 则基于语言处理,并将文档表示为一组逻辑谓词。
文档分类有诸多用途,如自动问答系统、信息过滤、不重要邮件分类等。目前也有多种分类技术,例如基于本体的分类技术、泊松朴素贝叶斯文本分类模型等。
2. 问题陈述
文档分类的目标是为每个文档找到最佳类别。我们有一个人工标注的训练集,从中选择一些单词,这个过程称为特征提取。特征提取选择训练集中的从属单词,这样做有两个原因:一是减少集合中的单词数量,提高训练和分类的速度;二是去除噪声词,提高分类的精度。噪声词是指在学习过程后会导致分类错误增加的单词。我们将所学知识应用于新的数据集——测试集。我们的目的是扩展特征提取,以便用于新文档的分类。为此,我们引入了代表向量,它包含所有相关单词及其关联程度。
2.1 支持向量机(SVM)
支持向量机(SVM)是一种判别式分类方法,通常被认为更准确。SVM 分类方法基于计算学习理论中的结构风险最小化原则,其理念是找到一个假设以保证最低的真实误差。SVM 需要正训练集和负训练集,这在其他分类方法中并不常见。这些训练集用于 SVM 在 n 维空间中寻找能最佳分离正数据和负数据的决策面,即超平面。最接近决策面的文档代表被称为支持向量。如果从训练数据集中移除不属于支持向量的文档,SVM 分类的性能保持不变。
SVM 分类方法的优点是分类效果出色,能处理高维输入空间的文档,并剔除大部分不相关特征。然而,其主要缺点是训练
超级会员免费看
订阅专栏 解锁全文

425

被折叠的 条评论
为什么被折叠?



