30、波斯语文档自动分类的改进方法

波斯语文档自动分类的改进方法

1. 文档表示与分类概述

文档表示有多种方式,N - gram 是基于字符串且无需语言处理的表示方法;单术语方法基于单词,仅需最少的语言处理;短语方法基于语言形成的短语和单个单词;RDR 则基于语言处理,并将文档表示为一组逻辑谓词。

文档分类有诸多用途,如自动问答系统、信息过滤、不重要邮件分类等。目前也有多种分类技术,例如基于本体的分类技术、泊松朴素贝叶斯文本分类模型等。

2. 问题陈述

文档分类的目标是为每个文档找到最佳类别。我们有一个人工标注的训练集,从中选择一些单词,这个过程称为特征提取。特征提取选择训练集中的从属单词,这样做有两个原因:一是减少集合中的单词数量,提高训练和分类的速度;二是去除噪声词,提高分类的精度。噪声词是指在学习过程后会导致分类错误增加的单词。我们将所学知识应用于新的数据集——测试集。我们的目的是扩展特征提取,以便用于新文档的分类。为此,我们引入了代表向量,它包含所有相关单词及其关联程度。

2.1 支持向量机(SVM)

支持向量机(SVM)是一种判别式分类方法,通常被认为更准确。SVM 分类方法基于计算学习理论中的结构风险最小化原则,其理念是找到一个假设以保证最低的真实误差。SVM 需要正训练集和负训练集,这在其他分类方法中并不常见。这些训练集用于 SVM 在 n 维空间中寻找能最佳分离正数据和负数据的决策面,即超平面。最接近决策面的文档代表被称为支持向量。如果从训练数据集中移除不属于支持向量的文档,SVM 分类的性能保持不变。

SVM 分类方法的优点是分类效果出色,能处理高维输入空间的文档,并剔除大部分不相关特征。然而,其主要缺点是训练

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值